カスタマーサポートの一次受電をAIに任せる選択肢が、
2026年4月時点で2つに割れています。
OpenAIのgpt-realtime-1.5(2/23公開)は10分の電話で約3円という料金が武器、
xAIのGrok Voice Think Fast 1.0(4/23公開、
xAI公式アナウンス)はτ-voice Bench(音声エージェント業務ベンチマーク)で67.3%の最高スコアが武器。
業務シーンによってどちらが刺さるかが完全に分かれるので、
片方だけ触って決めると損します。
この記事はベンチ数字と公式発表とDeveloper Communityのregression報告を並べ、
3つの業務シーンで選び分けの判断材料を出すまでが目的。
結論先取りすると、
料金とSIP(電話網直結)対応で一次受電に投げるならgpt-realtime-1.5、
複雑な手続きを音声だけで完結させたいならGrok Voice Think Fast 1.0が、
現時点の数字上は素直な選択。
この記事はカスタマーサポートや電話応対をAIに置き換えるか検討中の業務担当者・小規模事業者向け(API・SIP等の技術用語は本文で1行解説します)。
そもそもgpt-realtime-1.5は何が新しいのか?
gpt-realtime-1.5は2026年2月23日にOpenAIがリリースした音声対話モデル。
Realtime API(音声を双方向ストリームで扱える専用エンドポイント)経由で使う前提で、
テキスト・音声・画像を同時に扱えます。
料金は前モデルから据え置き。
OpenAI公式ブログによると、
命令忠実度を測るMultiChallenge Audio(音声指示にどれだけ正確に従えるかの試験)が20.6%→30.5%、
関数呼び出し精度を測るComplexFuncBench Audio(外部ツール呼び出しの正確さの試験)が49.7%→66.5%まで上がっています。
Long-running function calls will no longer disrupt the flow of a session—the model can continue a fluid conversation while waiting on results.
(出典: OpenAI公式ブログ)
ざっくり訳すと「DBクエリで5秒待つ間も会話を止めずに済む」という意味で、
これは業務AIとしてはかなり大きい改善。
私は数字より、
この非同期tool calling(外部処理を呼びながら会話を切らない仕組み)が一番効くと見ています。
電話の沈黙3秒は実務だと致命傷なので。
Grok Voice Think Fast 1.0との料金とベンチを並べると?
2026年4月23日にxAIがアナウンス(公式リリースは4/24)したGrok Voice Think Fast 1.0は、
音声AIのτ-voice Bench(タスク完遂率を測る音声エージェント業務ベンチマーク)で67.3%を取り、
Gemini 3.1 Flash Live(43.8%)とgpt-realtime-1.5(35.3%)を引き離しています。
| 項目 | gpt-realtime-1.5 | Grok Voice Think Fast 1.0 | Gemini 3.1 Flash Live |
|---|---|---|---|
| リリース日 | 2026/2/23 | 2026/4/23 | 2026/3/26 |
| τ-voice Bench 総合※1 | 35.3% | 67.3% | 43.8% |
| τ-voice Bench Telecom※1 | 21.1% | 73.7% | 21.9% |
| ComplexFuncBench Audio※2 | 66.5% | 未公表 | 90.8% |
| 料金(音声出力換算) | 10分電話で約$0.02 | $0.05/分 | 未公表(API課金) |
| SIP(電話網直結)対応 | あり | 未公表 | 未公表 |
| 対応言語数 | 57言語以上 | 25言語以上 | 非公開 |
| 同時tool数 | 記載なし | 28種 | 記載なし |
※1 τ-voice Bench: xAIが2026/4/23に自社発表で出したタスク達成率測定(出典: MarkTechPost)。
OpenAI・Google公式が認めたスコアではない。
※2 ComplexFuncBench Audio: OpenAI公式が出した関数呼び出し精度の数値(出典: OpenAI公式)。
τ-voice Benchとは別ベンチマーク、
混同しないこと。
同じ「音声AI」でもベンチマークが違えば順位がひっくり返る。
これは正直やっかい。
Geminiはfunction call精度で90.8%という化け物数字を持ってるのに、
τ-voice Bench総合だと43.8%に落ちます。
読み手側は「どのベンチがどの業務に近いか」で見ないと判断を間違えます。
私の見方では、
業務AIの導入判断はτ-voice Bench Telecom(73.7% vs 21.1%)の方が現場感に近い数字。
業務シーン別にどっちを選ぶべきか?
| 業務シーン | 推奨モデル | 判断軸 |
|---|---|---|
| 一次受電・FAQ自動応答(営業時間案内・在庫照会) | gpt-realtime-1.5 | SIP直結あり、10分通話$0.02、57言語対応で多言語コール対応可 |
| 予約変更・契約解約など複数ステップの完遂タスク | Grok Voice Think Fast 1.0 | τ-voice Bench Telecom 73.7%、同時28tool並走で複雑な分岐を捌ける |
| 本人確認・KYC(口座開設等の本人特定手続き) | どちらも単独投入は要慎重 | regression報告と詐欺通話懸念あり、人間オペレーター併用が現状の安全策 |
τ-voice BenchのTelecom(通信業務想定の試験)でGrokが73.7%、
gpt-realtime-1.5が21.1%という3倍以上の差は、
契約解約・プラン変更みたいに条件分岐が深いタスクで明確に効いてきます。
一方、
一次受電は「営業時間は?」「在庫ありますか?」のような単発質問が9割で、
ここはベンチ差より料金とSIP対応の有無が決め手。
SIPはPSTN(一般電話網、
いわゆる通常の電話番号網)とPBX(社内電話交換機)に直結する仕組みで、
gpt-realtime-1.5はここを公式サポートしています。
個人的には、
最初に投入するならgpt-realtime-1.5の一次受電一択。
Grokは予約変更系の二次対応で別途検証する流れが、
料金的にも事故リスク的にも無難。
gpt-realtime-1.5を一次受電に入れる手順は?
OpenAI公式ガイドが示す導入の流れを、
業務担当者目線で並べ直すとこうなります。
実装はエンジニアに頼む前提で、
依頼の段取りとして使ってください。
- STEP1: OpenAI APIアカウントとRealtime API利用権限を確認。公式モデルページでgpt-realtime-1.5のmodel IDが有効になっているか確認。月額の最低利用枠は不要、従量課金。
- STEP2: SIPトランスポート経由で既存電話番号と接続。OpenAIはWebRTC・WebSocket・SIPの3種を提供。既存PBX(社内電話交換機)がある場合はSIPが最短。SIPトランクプロバイダ(電話網と接続する業者)の選定が前提条件で、ここで詰まる事業者が多いので先に確認しておく。
- STEP3: 想定FAQをsystem promptに記述。営業時間・在庫照会・予約受付の3〜5ケースをまず登録。複雑な分岐タスク(契約変更等)はSTEP4以降に切り離す。
- STEP4: tool calling(外部関数呼び出し)で社内DBに接続。在庫検索・顧客検索のAPIを関数として登録。非同期tool calling対応なので、検索の数秒待ちで会話が止まりません。
- STEP5: ステージング電話番号で社員10人にロールプレイ。本番投入前に、Developer Communityで報告されている「9分超の長時間セッションでレイテンシが6〜8秒に増加」現象(出典: OpenAI Developer Community)が自社環境で出ないか必ず確認。
STEP2のSIPトランクプロバイダ選定は、
業務担当者からエンジニアに「どこと契約するか」を聞かれる場面が多いです。
Twilio・Vonage・国内ならNTTコミュニケーションズあたりが代表的選択肢。
先に決めておくとプロジェクトが詰まりません。
公開2ヶ月、開発者コミュニティから何が出ているか?
gpt-realtime-1.5は2/23公開から約2ヶ月経過しており、
OpenAI Developer Communityに評価と批判の両方が積み上がっています。
手放し賞賛では済まない側面が出てきました。
賛側の声は、
tool calling速度向上・英数字認識精度・割り込み処理の改善あたりに集中。
日本語記事のTECH NOISYによると、
tool calling速度は前モデル比20〜40%高速化(出典: TECH NOISY)。
ただ、
批判側の声がそれなりに重い。
voice expressiveness regression(音声表現力の後退)スレッドで開発者複数が同じ症状を報告しています。
Accents are almost entirely gone... The voice sounds noticeably more robotic.
(OpenAI Developer Community、
2026/3/19投稿。
出典: community.openai.com)
1.5 model changes the pitch and speed of the agents voice for seemingly no reason.
(同スレッド、2026/3/20投稿)
OpenAI公式の発表スレッドにも、
フランス語のA/Bテストで顧客中断率が5%増加した報告、
ヘブライ語・日本語でロボット的に聞こえるという声が混ざっています(出典: community.openai.com)。
正直、
感情表現が必要な顧客フォロー(クレーム1次対応・解約引き留め)には現時点で向かない。
一次受電・FAQ対応・在庫照会のような事務的タスクに絞るのが、
引用報告ベースで見える妥当ライン。
私なら、
解約引き留めみたいな感情ワークは当面人間に残します。
業務投入時の落とし穴は何があるか?
ベンチ数字だけで決めると痛い目を見るポイントが3つあります。
順に潰していきます。
1つ目: 長時間セッションのレイテンシ増加。
Developer Communityでは初期250〜500msだった応答遅延が、
9分超のセッションで6〜8秒、
20秒超のスパイクまで報告されています(出典: community.openai.com)。
10分超の通話を想定するなら、
セッション分割の運用設計が前提。
2つ目: SIP対応に伴う詐欺通話懸念。
Hacker NewsではSIP対応の発表に対してこういう声が出ています。
with sip support we're going to start getting ai scammers all the time!
(出典: Hacker News)
受け手側、
つまり読者自身が「営業時間外に流暢な日本語電話が来た時、
AIか人間か」を判断する側にも回ります。
これは規制側が遅れる領域なので、
自社で投入する場合は冒頭で「このコールはAIが応対しています」と明示するのが現状の実務ライン。
私はここを省くと、
後で景表法・特商法側で揉める火種になると見ています。
3つ目: 音声ログの蓄積速度。
OpenAI公式のEnterprise Privacyによると、
API利用ではデフォルトで会話データを学習に使わない方針(出典: openai.com/enterprise-privacy)。
ただし音声ログは人間オペレーターのテキスト記録より急速に増えるので、
保存期間と削除運用を最初に決めておかないとストレージとGDPR対応で詰まります。
ノーコードで小規模事業者が始める道は?
API直叩きはエンジニアコストが重いので、
Vapi・Retell AIといったノーコードVoice AIビルダー(音声AI業務エージェントを画面操作で構築できるサービス)経由が現実解です。
両者ともgpt-realtime系を組み込み済みで、
自社で実装しなくていい。
| 項目 | Vapi | Retell AI |
|---|---|---|
| プラットフォーム料金 | $0.05/分 | $0.07/分(フラット) |
| LLM・TTS等の追加費用 | 別途、合計$0.13〜$0.31+/分が現実値 | 込み |
| 初期費用 | サブスク必要 | $10無料クレジットで即開始 |
| HIPAA準拠(医療業界向けデータ保護規格) | 月$1,000の追加 | 非公開 |
| SLA(品質保証) | 99.99%、月62万コール処理実績 | 非公開 |
出典: Retell AI公式ブログ・Vapiレビュー、
Retell AI料金ページ
Retell AI公式の試算では、
5,000分/月の音声エージェント運用コストが$350〜$1,200/月で、
人間エージェント$3,000〜$4,000/月と比べてROI(投資回収)は2〜6ヶ月(出典: retellai.com)。
小規模事業者がRetell AIで一次受電を試す手順は?
Retell AI公式ドキュメントが示す導入ステップを、
業務担当者がそのまま動けるように並べました。
- STEP1: Retell AI料金ページでアカウント作成、$10無料クレジットを取得。クレジットカード登録不要、メールだけで開始可。
- STEP2: ダッシュボードで音声エージェントを新規作成。LLMはgpt-realtime-1.5系を選択、日本語音声を指定。
- STEP3: 想定FAQ(営業時間・在庫・予約)3つをsystem promptに入力。1問1答テンプレで十分。
- STEP4: テスト用電話番号を発行、社員携帯から3回ロールプレイ。$10クレジット内でこのテスト工程は完結します。
- STEP5: 既存代表番号からの転送設定。営業時間外のみAIに転送、深夜帯から段階的に投入するのが事故が少ない。
STEP4で社員ロールプレイを最低3回回しておくと、
自社の業界用語で固有名詞の誤認識が起きるかが見えます。
ここで違和感が出たらシステムpromptを増強するか、
人間に戻す閾値(不明回答時のエスカレーション条件)を入れます。
FAQ
Q1. gpt-realtime-1.5は日本語の電話応対で実用レベルですか?
OpenAI公式は57言語以上対応で日本語を含むと発表しています(出典: 公式モデルページ)。
ただしDeveloper Communityの発表スレッドで日本語のロボット音声化を指摘する声があり、
感情表現が必要な顧客フォロー用途は現時点で向きません。
営業時間案内・在庫照会のような事務応答に絞るのが安全策です。
Q2. Grok Voice Think Fast 1.0のτ-voice Bench 67.3%はOpenAIも認めた数値ですか?
τ-voice Benchはxai公式が2026/4/23に自社発表で出したスコアで、
OpenAIが第三者として確認・追試した数字ではありません。
MarkTechPost記事(出典: marktechpost.com)が一次比較表を引用しています。
OpenAI公式が出しているのはComplexFuncBench Audio 66.5%(別ベンチマーク)であって、
混同しないこと。
Q3. 個人事業主・小規模事業者の月額予算はどれくらいから始められますか?
Retell AIは$0.07/分で$10無料クレジット付きなので、
月100〜700分の利用なら月$7〜$49で始められる試算になります(出典: Retell AI料金ページ)。
月3,000分(=1日100分の電話応対相当)まで増えるとプラットフォーム料だけで月$210に到達するので、
コール数が読めない事業者はまず100分/月から段階投入が無難。
Q4. SIP対応のせいで詐欺通話が増える懸念にはどう対応すべき?
Hacker News上で詐欺通話増加の懸念が複数投稿されています(出典: Hacker News)。
受け手側として遭遇する場面では、
流暢すぎる日本語・名乗りが曖昧・折り返し電話番号を渡さない、
の3点が現状の見分け基準。
自社でAI受電を投入する場合は、
応答冒頭で「AIが応対しています」と明示するのが現状の実務的な落としどころです。
Q5. ChatGPT Advanced VoiceとAPIのgpt-realtime-1.5は同じですか?
別物です。
ChatGPT Advanced VoiceはConsumer向けアプリ機能で会話用途、
gpt-realtime-1.5はAPI経由で業務システムに組み込む前提のモデル。
tool calling・SIP・関数呼び出しなどの業務機能はAPI側にしかありません。
Advanced Voiceで体験できるのは会話インターフェースだけで、
業務電話に組み込むなら必ずRealtime API経由になります(出典: 公式モデルページ)。
このページに出てきた言葉
- Realtime API
- 音声を双方向ストリームで扱えるOpenAIの専用APIエンドポイント。電話のような同時会話が可能。
- SIP
- 一般電話網(PSTN)や社内電話交換機(PBX)にAIを直結する通信プロトコル。
- tool calling
- AIが会話中に外部関数(DB検索・APIコール)を呼び出して結果を会話に戻す仕組み。
- τ-voice Bench
- xAIが2026/4/23に発表した、音声エージェントのタスク完遂率を測るベンチマーク。
- ComplexFuncBench Audio
- OpenAIが公表する、複雑な関数呼び出しの正確さを測る音声系ベンチマーク。τ-voice Benchとは別物。
- MultiChallenge Audio
- 音声指示にどれだけ正確に従えるかを測る命令忠実度ベンチマーク。
- WebRTC
- ブラウザ間でリアルタイム音声・映像通信を行うWeb標準技術。
- regression
- 新バージョンで以前は出なかった問題が再発・悪化する現象。日本語では「機能後退」。
- HIPAA準拠
- 米国の医療情報保護法。医療系業務でAIを使う際の必須要件。
- ROI
- Return On Investment、投資回収率。導入コストを何ヶ月で回収できるかの指標。
参考リンク
- OpenAI公式: gpt-realtimeリリースブログ
- gpt-realtime-1.5 公式モデルリファレンス
- OpenAI Developer Community: ライブ告知スレッド
- OpenAI Developer Community: 音声表現力regression報告
- OpenAI Developer Community: 長時間セッションのレイテンシ増加
- Hacker News: gpt-realtime議論スレッド(SIP/詐欺懸念含む)
- MarkTechPost: Grok Voice Think Fast 1.0 τ-voice Bench詳細
- Gemini 3.1 Flash Live 公式ブログ
- Retell AI: Vapi料金比較レビュー
- Retell AI 公式料金ページ
- Retell AI: AI音声エージェント料金フルガイド2026
- OpenAI Enterprise Privacy
- 日本語記事: gpt-realtime-1.5(TECH NOISY)
※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。