AI活用全般

電話の一次受電をAIに任せたい事業者向け|OpenAI(gpt-realtime-1.5)とxAI(Grok Voice)を一次受電・予約変更・本人確認の3シーンで使い分け

カスタマーサポートの一次受電をAIに任せる選択肢が、
2026年4月時点で2つに割れています。
OpenAIのgpt-realtime-1.5(2/23公開)は10分の電話で約3円という料金が武器、
xAIのGrok Voice Think Fast 1.0(4/23公開、
xAI公式アナウンス)はτ-voice Bench(音声エージェント業務ベンチマーク)で67.3%の最高スコアが武器。

業務シーンによってどちらが刺さるかが完全に分かれるので、
片方だけ触って決めると損します。
この記事はベンチ数字と公式発表とDeveloper Communityのregression報告を並べ、
3つの業務シーンで選び分けの判断材料を出すまでが目的。

結論先取りすると、
料金とSIP(電話網直結)対応で一次受電に投げるならgpt-realtime-1.5、
複雑な手続きを音声だけで完結させたいならGrok Voice Think Fast 1.0が、
現時点の数字上は素直な選択。

この記事はカスタマーサポートや電話応対をAIに置き換えるか検討中の業務担当者・小規模事業者向け(API・SIP等の技術用語は本文で1行解説します)。

そもそもgpt-realtime-1.5は何が新しいのか?

gpt-realtime-1.5は2026年2月23日にOpenAIがリリースした音声対話モデル。
Realtime API(音声を双方向ストリームで扱える専用エンドポイント)経由で使う前提で、
テキスト・音声・画像を同時に扱えます。
料金は前モデルから据え置き。

OpenAI公式ブログによると、
命令忠実度を測るMultiChallenge Audio(音声指示にどれだけ正確に従えるかの試験)が20.6%→30.5%、
関数呼び出し精度を測るComplexFuncBench Audio(外部ツール呼び出しの正確さの試験)が49.7%→66.5%まで上がっています。

Long-running function calls will no longer disrupt the flow of a session—the model can continue a fluid conversation while waiting on results.

(出典: OpenAI公式ブログ

ざっくり訳すと「DBクエリで5秒待つ間も会話を止めずに済む」という意味で、
これは業務AIとしてはかなり大きい改善。
私は数字より、
この非同期tool calling(外部処理を呼びながら会話を切らない仕組み)が一番効くと見ています。
電話の沈黙3秒は実務だと致命傷なので。

Grok Voice Think Fast 1.0との料金とベンチを並べると?

2026年4月23日にxAIがアナウンス(公式リリースは4/24)したGrok Voice Think Fast 1.0は、
音声AIのτ-voice Bench(タスク完遂率を測る音声エージェント業務ベンチマーク)で67.3%を取り、
Gemini 3.1 Flash Live(43.8%)とgpt-realtime-1.5(35.3%)を引き離しています。

項目gpt-realtime-1.5Grok Voice Think Fast 1.0Gemini 3.1 Flash Live
リリース日2026/2/232026/4/232026/3/26
τ-voice Bench 総合※135.3%67.3%43.8%
τ-voice Bench Telecom※121.1%73.7%21.9%
ComplexFuncBench Audio※266.5%未公表90.8%
料金(音声出力換算)10分電話で約$0.02$0.05/分未公表(API課金)
SIP(電話網直結)対応あり未公表未公表
対応言語数57言語以上25言語以上非公開
同時tool数記載なし28種記載なし

※1 τ-voice Bench: xAIが2026/4/23に自社発表で出したタスク達成率測定(出典: MarkTechPost)。
OpenAI・Google公式が認めたスコアではない。

※2 ComplexFuncBench Audio: OpenAI公式が出した関数呼び出し精度の数値(出典: OpenAI公式)。
τ-voice Benchとは別ベンチマーク、
混同しないこと。

同じ「音声AI」でもベンチマークが違えば順位がひっくり返る。
これは正直やっかい。
Geminiはfunction call精度で90.8%という化け物数字を持ってるのに、
τ-voice Bench総合だと43.8%に落ちます。
読み手側は「どのベンチがどの業務に近いか」で見ないと判断を間違えます。
私の見方では、
業務AIの導入判断はτ-voice Bench Telecom(73.7% vs 21.1%)の方が現場感に近い数字。

業務シーン別にどっちを選ぶべきか?

業務シーン推奨モデル判断軸
一次受電・FAQ自動応答(営業時間案内・在庫照会)gpt-realtime-1.5SIP直結あり、10分通話$0.02、57言語対応で多言語コール対応可
予約変更・契約解約など複数ステップの完遂タスクGrok Voice Think Fast 1.0τ-voice Bench Telecom 73.7%、同時28tool並走で複雑な分岐を捌ける
本人確認・KYC(口座開設等の本人特定手続き)どちらも単独投入は要慎重regression報告と詐欺通話懸念あり、人間オペレーター併用が現状の安全策

τ-voice BenchのTelecom(通信業務想定の試験)でGrokが73.7%、
gpt-realtime-1.5が21.1%という3倍以上の差は、
契約解約・プラン変更みたいに条件分岐が深いタスクで明確に効いてきます。

一方、
一次受電は「営業時間は?」「在庫ありますか?」のような単発質問が9割で、
ここはベンチ差より料金とSIP対応の有無が決め手。
SIPはPSTN(一般電話網、
いわゆる通常の電話番号網)とPBX(社内電話交換機)に直結する仕組みで、
gpt-realtime-1.5はここを公式サポートしています。

個人的には、
最初に投入するならgpt-realtime-1.5の一次受電一択。
Grokは予約変更系の二次対応で別途検証する流れが、
料金的にも事故リスク的にも無難。

gpt-realtime-1.5を一次受電に入れる手順は?

OpenAI公式ガイドが示す導入の流れを、
業務担当者目線で並べ直すとこうなります。
実装はエンジニアに頼む前提で、
依頼の段取りとして使ってください。

  1. STEP1: OpenAI APIアカウントとRealtime API利用権限を確認公式モデルページでgpt-realtime-1.5のmodel IDが有効になっているか確認。月額の最低利用枠は不要、従量課金。
  2. STEP2: SIPトランスポート経由で既存電話番号と接続。OpenAIはWebRTC・WebSocket・SIPの3種を提供。既存PBX(社内電話交換機)がある場合はSIPが最短。SIPトランクプロバイダ(電話網と接続する業者)の選定が前提条件で、ここで詰まる事業者が多いので先に確認しておく。
  3. STEP3: 想定FAQをsystem promptに記述。営業時間・在庫照会・予約受付の3〜5ケースをまず登録。複雑な分岐タスク(契約変更等)はSTEP4以降に切り離す。
  4. STEP4: tool calling(外部関数呼び出し)で社内DBに接続。在庫検索・顧客検索のAPIを関数として登録。非同期tool calling対応なので、検索の数秒待ちで会話が止まりません。
  5. STEP5: ステージング電話番号で社員10人にロールプレイ。本番投入前に、Developer Communityで報告されている「9分超の長時間セッションでレイテンシが6〜8秒に増加」現象(出典: OpenAI Developer Community)が自社環境で出ないか必ず確認。

STEP2のSIPトランクプロバイダ選定は、
業務担当者からエンジニアに「どこと契約するか」を聞かれる場面が多いです。
Twilio・Vonage・国内ならNTTコミュニケーションズあたりが代表的選択肢。
先に決めておくとプロジェクトが詰まりません。

公開2ヶ月、開発者コミュニティから何が出ているか?

gpt-realtime-1.5は2/23公開から約2ヶ月経過しており、
OpenAI Developer Communityに評価と批判の両方が積み上がっています。
手放し賞賛では済まない側面が出てきました。

賛側の声は、
tool calling速度向上・英数字認識精度・割り込み処理の改善あたりに集中。
日本語記事のTECH NOISYによると、
tool calling速度は前モデル比20〜40%高速化(出典: TECH NOISY)。

ただ、
批判側の声がそれなりに重い。
voice expressiveness regression(音声表現力の後退)スレッドで開発者複数が同じ症状を報告しています。

Accents are almost entirely gone... The voice sounds noticeably more robotic.

(OpenAI Developer Community、
2026/3/19投稿。
出典: community.openai.com

1.5 model changes the pitch and speed of the agents voice for seemingly no reason.

(同スレッド、2026/3/20投稿)

OpenAI公式の発表スレッドにも、
フランス語のA/Bテストで顧客中断率が5%増加した報告、
ヘブライ語・日本語でロボット的に聞こえるという声が混ざっています(出典: community.openai.com)。

正直、
感情表現が必要な顧客フォロー(クレーム1次対応・解約引き留め)には現時点で向かない。
一次受電・FAQ対応・在庫照会のような事務的タスクに絞るのが、
引用報告ベースで見える妥当ライン。
私なら、
解約引き留めみたいな感情ワークは当面人間に残します。

業務投入時の落とし穴は何があるか?

ベンチ数字だけで決めると痛い目を見るポイントが3つあります。
順に潰していきます。

1つ目: 長時間セッションのレイテンシ増加
Developer Communityでは初期250〜500msだった応答遅延が、
9分超のセッションで6〜8秒、
20秒超のスパイクまで報告されています(出典: community.openai.com)。
10分超の通話を想定するなら、
セッション分割の運用設計が前提。

2つ目: SIP対応に伴う詐欺通話懸念
Hacker NewsではSIP対応の発表に対してこういう声が出ています。

with sip support we're going to start getting ai scammers all the time!

(出典: Hacker News

受け手側、
つまり読者自身が「営業時間外に流暢な日本語電話が来た時、
AIか人間か」を判断する側にも回ります。
これは規制側が遅れる領域なので、
自社で投入する場合は冒頭で「このコールはAIが応対しています」と明示するのが現状の実務ライン。
私はここを省くと、
後で景表法・特商法側で揉める火種になると見ています。

3つ目: 音声ログの蓄積速度
OpenAI公式のEnterprise Privacyによると、
API利用ではデフォルトで会話データを学習に使わない方針(出典: openai.com/enterprise-privacy)。
ただし音声ログは人間オペレーターのテキスト記録より急速に増えるので、
保存期間と削除運用を最初に決めておかないとストレージとGDPR対応で詰まります。

ノーコードで小規模事業者が始める道は?

API直叩きはエンジニアコストが重いので、
Vapi・Retell AIといったノーコードVoice AIビルダー(音声AI業務エージェントを画面操作で構築できるサービス)経由が現実解です。
両者ともgpt-realtime系を組み込み済みで、
自社で実装しなくていい。

項目VapiRetell AI
プラットフォーム料金$0.05/分$0.07/分(フラット)
LLM・TTS等の追加費用別途、合計$0.13〜$0.31+/分が現実値込み
初期費用サブスク必要$10無料クレジットで即開始
HIPAA準拠(医療業界向けデータ保護規格)月$1,000の追加非公開
SLA(品質保証)99.99%、月62万コール処理実績非公開

出典: Retell AI公式ブログ・Vapiレビュー
Retell AI料金ページ

Retell AI公式の試算では、
5,000分/月の音声エージェント運用コストが$350〜$1,200/月で、
人間エージェント$3,000〜$4,000/月と比べてROI(投資回収)は2〜6ヶ月(出典: retellai.com)。

小規模事業者がRetell AIで一次受電を試す手順は?

Retell AI公式ドキュメントが示す導入ステップを、
業務担当者がそのまま動けるように並べました。

  1. STEP1: Retell AI料金ページでアカウント作成、$10無料クレジットを取得。クレジットカード登録不要、メールだけで開始可。
  2. STEP2: ダッシュボードで音声エージェントを新規作成。LLMはgpt-realtime-1.5系を選択、日本語音声を指定。
  3. STEP3: 想定FAQ(営業時間・在庫・予約)3つをsystem promptに入力。1問1答テンプレで十分。
  4. STEP4: テスト用電話番号を発行、社員携帯から3回ロールプレイ。$10クレジット内でこのテスト工程は完結します。
  5. STEP5: 既存代表番号からの転送設定。営業時間外のみAIに転送、深夜帯から段階的に投入するのが事故が少ない。

STEP4で社員ロールプレイを最低3回回しておくと、
自社の業界用語で固有名詞の誤認識が起きるかが見えます。
ここで違和感が出たらシステムpromptを増強するか、
人間に戻す閾値(不明回答時のエスカレーション条件)を入れます。

FAQ

Q1. gpt-realtime-1.5は日本語の電話応対で実用レベルですか?

OpenAI公式は57言語以上対応で日本語を含むと発表しています(出典: 公式モデルページ)。
ただしDeveloper Communityの発表スレッドで日本語のロボット音声化を指摘する声があり、
感情表現が必要な顧客フォロー用途は現時点で向きません。
営業時間案内・在庫照会のような事務応答に絞るのが安全策です。

Q2. Grok Voice Think Fast 1.0のτ-voice Bench 67.3%はOpenAIも認めた数値ですか?

τ-voice Benchはxai公式が2026/4/23に自社発表で出したスコアで、
OpenAIが第三者として確認・追試した数字ではありません。
MarkTechPost記事(出典: marktechpost.com)が一次比較表を引用しています。
OpenAI公式が出しているのはComplexFuncBench Audio 66.5%(別ベンチマーク)であって、
混同しないこと。

Q3. 個人事業主・小規模事業者の月額予算はどれくらいから始められますか?

Retell AIは$0.07/分で$10無料クレジット付きなので、
月100〜700分の利用なら月$7〜$49で始められる試算になります(出典: Retell AI料金ページ)。
月3,000分(=1日100分の電話応対相当)まで増えるとプラットフォーム料だけで月$210に到達するので、
コール数が読めない事業者はまず100分/月から段階投入が無難。

Q4. SIP対応のせいで詐欺通話が増える懸念にはどう対応すべき?

Hacker News上で詐欺通話増加の懸念が複数投稿されています(出典: Hacker News)。
受け手側として遭遇する場面では、
流暢すぎる日本語・名乗りが曖昧・折り返し電話番号を渡さない、
の3点が現状の見分け基準。
自社でAI受電を投入する場合は、
応答冒頭で「AIが応対しています」と明示するのが現状の実務的な落としどころです。

Q5. ChatGPT Advanced VoiceとAPIのgpt-realtime-1.5は同じですか?

別物です。
ChatGPT Advanced VoiceはConsumer向けアプリ機能で会話用途、
gpt-realtime-1.5はAPI経由で業務システムに組み込む前提のモデル。
tool calling・SIP・関数呼び出しなどの業務機能はAPI側にしかありません。
Advanced Voiceで体験できるのは会話インターフェースだけで、
業務電話に組み込むなら必ずRealtime API経由になります(出典: 公式モデルページ)。

このページに出てきた言葉

Realtime API
音声を双方向ストリームで扱えるOpenAIの専用APIエンドポイント。電話のような同時会話が可能。
SIP
一般電話網(PSTN)や社内電話交換機(PBX)にAIを直結する通信プロトコル。
tool calling
AIが会話中に外部関数(DB検索・APIコール)を呼び出して結果を会話に戻す仕組み。
τ-voice Bench
xAIが2026/4/23に発表した、音声エージェントのタスク完遂率を測るベンチマーク。
ComplexFuncBench Audio
OpenAIが公表する、複雑な関数呼び出しの正確さを測る音声系ベンチマーク。τ-voice Benchとは別物。
MultiChallenge Audio
音声指示にどれだけ正確に従えるかを測る命令忠実度ベンチマーク。
WebRTC
ブラウザ間でリアルタイム音声・映像通信を行うWeb標準技術。
regression
新バージョンで以前は出なかった問題が再発・悪化する現象。日本語では「機能後退」。
HIPAA準拠
米国の医療情報保護法。医療系業務でAIを使う際の必須要件。
ROI
Return On Investment、投資回収率。導入コストを何ヶ月で回収できるかの指標。

参考リンク

※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。

-AI活用全般
-,

← 戻る