電話対応をAIに任せるならOpenAIとxAIどっちを選ぶ？｜gpt-realtime-1.5とGrok Voiceを一次受電・予約変更・本人確認で使い分ける判断

Q: gpt-realtime-1.5は日本語の電話応対で実用レベルですか？

OpenAI公式は57言語以上対応で日本語を含むと発表していますが、Developer Communityで日本語のロボット音声化を指摘する声があり、感情表現が必要な顧客フォロー用途は現時点で向きません。営業時間案内・在庫照会のような事務応答に絞るのが安全策です。

Q: Grok Voice Think Fast 1.0のτ-voice Bench 67.3%はOpenAIも認めた数値ですか？

τ-voice Benchはxai公式が2026/4/23に自社発表で出したスコアで、OpenAIが第三者として確認した数字ではありません。OpenAI公式が出しているのはComplexFuncBench Audio 66.5%という別ベンチマークで、混同しないこと。

Q: SIP対応のせいで詐欺通話が増える懸念にはどう対応すべき？

Hacker News上で詐欺通話増加の懸念が複数投稿されています。受け手側として遭遇する場面では、流暢すぎる日本語・名乗りが曖昧・折り返し電話番号を渡さないの3点が現状の見分け基準。自社でAI受電を投入する場合は、応答冒頭でAIが応対していると明示するのが現状の実務的な落としどころです。

Q: ChatGPT Advanced VoiceとAPIのgpt-realtime-1.5は同じですか？

別物です。ChatGPT Advanced VoiceはConsumer向けアプリ機能で会話用途、gpt-realtime-1.5はAPI経由で業務システムに組み込む前提のモデル。tool calling・SIP・関数呼び出しなどの業務機能はAPI側にしかありません。

2026年5月1日

公開日: 2026年4月29日／最終更新: 2026年5月1日

カスタマーサポートの一次受電をAIに任せる選択肢が、2026年4月時点で2つに割れています。

OpenAIのgpt-realtime-1.5（2/23公開）は10分の電話で約3円という料金が武器、xAIのGrok Voice Think Fast 1.0（4/23公開、xAI公式アナウンス）はτ-voice Bench（音声エージェント業務ベンチマーク）で67.3%の最高スコアが武器。

業務シーンによってどちらが刺さるかが完全に分かれるので、片方だけ触って決めると損します。

この記事はベンチ数字と公式発表とDeveloper Communityのregression報告を並べ、3つの業務シーンで選び分けの判断材料を出すまでが目的。

結論先取りすると、料金とSIP（電話網直結）対応で一次受電に投げるならgpt-realtime-1.5、複雑な手続きを音声だけで完結させたいならGrok Voice Think Fast 1.0が、現時点の数字上は素直な選択。

この記事はカスタマーサポートや電話応対をAIに置き換えるか検討中の業務担当者・小規模事業者向け（API・SIP等の技術用語は本文で1行解説します）。

そもそもgpt-realtime-1.5は何が新しいのか？

gpt-realtime-1.5は2026年2月23日にOpenAIがリリースした音声対話モデル。

Realtime API（音声を双方向ストリームで扱える専用エンドポイント）経由で使う前提で、テキスト・音声・画像を同時に扱えます。

料金は前モデルから据え置き。

OpenAI公式ブログによると、命令忠実度を測るMultiChallenge Audio（音声指示にどれだけ正確に従えるかの試験）が20.6%→30.5%、関数呼び出し精度を測るComplexFuncBench Audio（外部ツール呼び出しの正確さの試験）が49.7%→66.5%まで上がっています。

Long-running function calls will no longer disrupt the flow of a session—the model can continue a fluid conversation while waiting on results.

（出典: OpenAI公式ブログ）

ざっくり訳すと「DBクエリで5秒待つ間も会話を止めずに済む」という意味で、これは業務AIとしてはかなり大きい改善。

私は数字より、この非同期tool calling（外部処理を呼びながら会話を切らない仕組み）が一番効くと見ています。

電話の沈黙3秒は実務だと致命傷なので。

Grok Voice Think Fast 1.0との料金とベンチを並べると？

2026年4月23日にxAIがアナウンス（公式リリースは4/24）したGrok Voice Think Fast 1.0は、音声AIのτ-voice Bench（タスク完遂率を測る音声エージェント業務ベンチマーク）で67.3%を取り、Gemini 3.1 Flash Live（43.8%）とgpt-realtime-1.5（35.3%）を引き離しています。

項目	gpt-realtime-1.5	Grok Voice Think Fast 1.0	Gemini 3.1 Flash Live
リリース日	2026/2/23	2026/4/23	2026/3/26
τ-voice Bench 総合※1	35.3%	67.3%	43.8%
τ-voice Bench Telecom※1	21.1%	73.7%	21.9%
ComplexFuncBench Audio※2	66.5%	未公表	90.8%
料金（音声出力換算）	10分電話で約$0.02	$0.05/分	未公表（API課金）
SIP（電話網直結）対応	あり	未公表	未公表
対応言語数	57言語以上	25言語以上	非公開
同時tool数	記載なし	28種	記載なし

※1 τ-voice Bench: xAIが2026/4/23に自社発表で出したタスク達成率測定（出典: MarkTechPost）。

OpenAI・Google公式が認めたスコアではない。

※2 ComplexFuncBench Audio: OpenAI公式が出した関数呼び出し精度の数値（出典: OpenAI公式）。

τ-voice Benchとは別ベンチマーク、混同しないこと。

同じ「音声AI」でもベンチマークが違えば順位がひっくり返る。

これは正直やっかい。

Geminiはfunction call精度で90.8%という化け物数字を持ってるのに、τ-voice Bench総合だと43.8%に落ちます。

読み手側は「どのベンチがどの業務に近いか」で見ないと判断を間違えます。

私の見方では、業務AIの導入判断はτ-voice Bench Telecom（73.7% vs 21.1%）の方が現場感に近い数字。

業務シーン別にどっちを選ぶべきか？

業務シーン	推奨モデル	判断軸
一次受電・FAQ自動応答（営業時間案内・在庫照会）	gpt-realtime-1.5	SIP直結あり、10分通話$0.02、57言語対応で多言語コール対応可
予約変更・契約解約など複数ステップの完遂タスク	Grok Voice Think Fast 1.0	τ-voice Bench Telecom 73.7%、同時28tool並走で複雑な分岐を捌ける
本人確認・KYC（口座開設等の本人特定手続き）	どちらも単独投入は要慎重	regression報告と詐欺通話懸念あり、人間オペレーター併用が現状の安全策

τ-voice BenchのTelecom（通信業務想定の試験）でGrokが73.7%、gpt-realtime-1.5が21.1%という3倍以上の差は、契約解約・プラン変更みたいに条件分岐が深いタスクで明確に効いてきます。

一方、一次受電は「営業時間は？」「在庫ありますか？」のような単発質問が9割で、ここはベンチ差より料金とSIP対応の有無が決め手。

SIPはPSTN（一般電話網、いわゆる通常の電話番号網）とPBX（社内電話交換機）に直結する仕組みで、gpt-realtime-1.5はここを公式サポートしています。

個人的には、最初に投入するならgpt-realtime-1.5の一次受電一択。

Grokは予約変更系の二次対応で別途検証する流れが、料金的にも事故リスク的にも無難。

gpt-realtime-1.5を一次受電に入れる手順は？

OpenAI公式ガイドが示す導入の流れを、業務担当者目線で並べ直すとこうなります。

実装はエンジニアに頼む前提で、依頼の段取りとして使ってください。

STEP1: OpenAI APIアカウントとRealtime API利用権限を確認。公式モデルページでgpt-realtime-1.5のmodel IDが有効になっているか確認。月額の最低利用枠は不要、従量課金。
STEP2: SIPトランスポート経由で既存電話番号と接続。OpenAIはWebRTC・WebSocket・SIPの3種を提供。既存PBX（社内電話交換機）がある場合はSIPが最短。SIPトランクプロバイダ（電話網と接続する業者）の選定が前提条件で、ここで詰まる事業者が多いので先に確認しておく。
STEP3: 想定FAQをsystem promptに記述。営業時間・在庫照会・予約受付の3〜5ケースをまず登録。複雑な分岐タスク（契約変更等）はSTEP4以降に切り離す。
STEP4: tool calling（外部関数呼び出し）で社内DBに接続。在庫検索・顧客検索のAPIを関数として登録。非同期tool calling対応なので、検索の数秒待ちで会話が止まりません。
STEP5: ステージング電話番号で社員10人にロールプレイ。本番投入前に、Developer Communityで報告されている「9分超の長時間セッションでレイテンシが6〜8秒に増加」現象（出典: OpenAI Developer Community）が自社環境で出ないか必ず確認。

STEP2のSIPトランクプロバイダ選定は、業務担当者からエンジニアに「どこと契約するか」を聞かれる場面が多いです。

Twilio・Vonage・国内ならNTTコミュニケーションズあたりが代表的選択肢。

先に決めておくとプロジェクトが詰まりません。

公開2ヶ月、開発者コミュニティから何が出ているか？

gpt-realtime-1.5は2/23公開から約2ヶ月経過しており、OpenAI Developer Communityに評価と批判の両方が積み上がっています。

手放し賞賛では済まない側面が出てきました。

賛側の声は、tool calling速度向上・英数字認識精度・割り込み処理の改善あたりに集中。

日本語記事のTECH NOISYによると、tool calling速度は前モデル比20〜40%高速化（出典: TECH NOISY）。

ただ、批判側の声がそれなりに重い。

voice expressiveness regression（音声表現力の後退）スレッドで開発者複数が同じ症状を報告しています。

Accents are almost entirely gone... The voice sounds noticeably more robotic.

（OpenAI Developer Community、2026/3/19投稿。

出典: community.openai.com）

1.5 model changes the pitch and speed of the agents voice for seemingly no reason.

（同スレッド、2026/3/20投稿）

OpenAI公式の発表スレッドにも、フランス語のA/Bテストで顧客中断率が5%増加した報告、ヘブライ語・日本語でロボット的に聞こえるという声が混ざっています（出典: community.openai.com）。

正直、感情表現が必要な顧客フォロー（クレーム1次対応・解約引き留め）には現時点で向かない。

一次受電・FAQ対応・在庫照会のような事務的タスクに絞るのが、引用報告ベースで見える妥当ライン。

私なら、解約引き留めみたいな感情ワークは当面人間に残します。

業務投入時の落とし穴は何があるか？

ベンチ数字だけで決めると痛い目を見るポイントが3つあります。

順に潰していきます。

1つ目: 長時間セッションのレイテンシ増加。

Developer Communityでは初期250〜500msだった応答遅延が、9分超のセッションで6〜8秒、20秒超のスパイクまで報告されています（出典: community.openai.com）。

10分超の通話を想定するなら、セッション分割の運用設計が前提。

2つ目: SIP対応に伴う詐欺通話懸念。

Hacker NewsではSIP対応の発表に対してこういう声が出ています。

with sip support we're going to start getting ai scammers all the time!

（出典: Hacker News）

受け手側、つまり読者自身が「営業時間外に流暢な日本語電話が来た時、AIか人間か」を判断する側にも回ります。

これは規制側が遅れる領域なので、自社で投入する場合は冒頭で「このコールはAIが応対しています」と明示するのが現状の実務ライン。

私はここを省くと、後で景表法・特商法側で揉める火種になると見ています。

3つ目: 音声ログの蓄積速度。

OpenAI公式のEnterprise Privacyによると、API利用ではデフォルトで会話データを学習に使わない方針（出典: openai.com/enterprise-privacy）。

ただし音声ログは人間オペレーターのテキスト記録より急速に増えるので、保存期間と削除運用を最初に決めておかないとストレージとGDPR対応で詰まります。

ノーコードで小規模事業者が始める道は？

API直叩きはエンジニアコストが重いので、Vapi・Retell AIといったノーコードVoice AIビルダー（音声AI業務エージェントを画面操作で構築できるサービス）経由が現実解です。

両者ともgpt-realtime系を組み込み済みで、自社で実装しなくていい。

項目	Vapi	Retell AI
プラットフォーム料金	$0.05/分	$0.07/分（フラット）
LLM・TTS等の追加費用	別途、合計$0.13〜$0.31+/分が現実値	込み
初期費用	サブスク必要	$10無料クレジットで即開始
HIPAA準拠（医療業界向けデータ保護規格）	月$1,000の追加	非公開
SLA（品質保証）	99.99%、月62万コール処理実績	非公開

出典: Retell AI公式ブログ・Vapiレビュー、Retell AI料金ページ

Retell AI公式の試算では、5,000分/月の音声エージェント運用コストが$350〜$1,200/月で、人間エージェント$3,000〜$4,000/月と比べてROI（投資回収）は2〜6ヶ月（出典: retellai.com）。

小規模事業者がRetell AIで一次受電を試す手順は？

Retell AI公式ドキュメントが示す導入ステップを、業務担当者がそのまま動けるように並べました。

STEP1: Retell AI料金ページでアカウント作成、$10無料クレジットを取得。クレジットカード登録不要、メールだけで開始可。
STEP2: ダッシュボードで音声エージェントを新規作成。LLMはgpt-realtime-1.5系を選択、日本語音声を指定。
STEP3: 想定FAQ（営業時間・在庫・予約）3つをsystem promptに入力。1問1答テンプレで十分。
STEP4: テスト用電話番号を発行、社員携帯から3回ロールプレイ。$10クレジット内でこのテスト工程は完結します。
STEP5: 既存代表番号からの転送設定。営業時間外のみAIに転送、深夜帯から段階的に投入するのが事故が少ない。

STEP4で社員ロールプレイを最低3回回しておくと、自社の業界用語で固有名詞の誤認識が起きるかが見えます。

ここで違和感が出たらシステムpromptを増強するか、人間に戻す閾値（不明回答時のエスカレーション条件）を入れます。

FAQ

Q1. gpt-realtime-1.5は日本語の電話応対で実用レベルですか？

OpenAI公式は57言語以上対応で日本語を含むと発表しています（出典: 公式モデルページ）。

ただしDeveloper Communityの発表スレッドで日本語のロボット音声化を指摘する声があり、感情表現が必要な顧客フォロー用途は現時点で向きません。

営業時間案内・在庫照会のような事務応答に絞るのが安全策です。

Q2. Grok Voice Think Fast 1.0のτ-voice Bench 67.3%はOpenAIも認めた数値ですか？

τ-voice Benchはxai公式が2026/4/23に自社発表で出したスコアで、OpenAIが第三者として確認・追試した数字ではありません。

MarkTechPost記事（出典: marktechpost.com）が一次比較表を引用しています。

OpenAI公式が出しているのはComplexFuncBench Audio 66.5%（別ベンチマーク）であって、混同しないこと。

Q3. 個人事業主・小規模事業者の月額予算はどれくらいから始められますか？

Retell AIは$0.07/分で$10無料クレジット付きなので、月100〜700分の利用なら月$7〜$49で始められる試算になります（出典: Retell AI料金ページ）。

月3,000分（=1日100分の電話応対相当）まで増えるとプラットフォーム料だけで月$210に到達するので、コール数が読めない事業者はまず100分／月から段階投入が無難。

Q4. SIP対応のせいで詐欺通話が増える懸念にはどう対応すべき？

Hacker News上で詐欺通話増加の懸念が複数投稿されています（出典: Hacker News）。

受け手側として遭遇する場面では、流暢すぎる日本語・名乗りが曖昧・折り返し電話番号を渡さない、の3点が現状の見分け基準。

自社でAI受電を投入する場合は、応答冒頭で「AIが応対しています」と明示するのが現状の実務的な落としどころです。

Q5. ChatGPT Advanced VoiceとAPIのgpt-realtime-1.5は同じですか？

別物です。

ChatGPT Advanced VoiceはConsumer向けアプリ機能で会話用途、gpt-realtime-1.5はAPI経由で業務システムに組み込む前提のモデル。

tool calling・SIP・関数呼び出しなどの業務機能はAPI側にしかありません。

Advanced Voiceで体験できるのは会話インターフェースだけで、業務電話に組み込むなら必ずRealtime API経由になります（出典: 公式モデルページ）。

このページに出てきた言葉

Realtime API: 音声を双方向ストリームで扱えるOpenAIの専用APIエンドポイント。電話のような同時会話が可能。
SIP: 一般電話網（PSTN）や社内電話交換機（PBX）にAIを直結する通信プロトコル。
tool calling: AIが会話中に外部関数（DB検索・APIコール）を呼び出して結果を会話に戻す仕組み。
τ-voice Bench: xAIが2026/4/23に発表した、音声エージェントのタスク完遂率を測るベンチマーク。
ComplexFuncBench Audio: OpenAIが公表する、複雑な関数呼び出しの正確さを測る音声系ベンチマーク。τ-voice Benchとは別物。
MultiChallenge Audio: 音声指示にどれだけ正確に従えるかを測る命令忠実度ベンチマーク。
WebRTC: ブラウザ間でリアルタイム音声・映像通信を行うWeb標準技術。
regression: 新バージョンで以前は出なかった問題が再発・悪化する現象。日本語では「機能後退」。
HIPAA準拠: 米国の医療情報保護法。医療系業務でAIを使う際の必須要件。
ROI: Return On Investment、投資回収率。導入コストを何ヶ月で回収できるかの指標。

参考リンク

この記事を書いた人

aisola

Aisola Lab 運営者

AIツールを使ったコンテンツ制作・リサーチ・WordPress運用を日常的にやっています。自分で動かせるものは実際に触って書き、触っていないものは公式ドキュメントと一次情報をもとに書き分けています。

運営者情報 X（@ai_sola27）note

※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。

-AI活用全般
-AI選び, 音声・音楽

AI活用全般

2026/7/24

Claude Voiceモードが日本語・Opus対応｜通勤中のメール要約と家事中の予定変更を声で頼む手順

Claude Voiceモードが2026年7月23日に大型更新されました。 Haiku固定だった音声会話が、Opusまで選べて日本語にも対応。 Gmailやカレンダーともつながり、画面を触れない時間に予定変更やメール要約を声で頼めます。この記事はClaudeを文字では使うが音声モードは初めての社会人向け（スマホの設定画面を触れれば読めます）。今回のアップデートの中身を、Anthropicの公式ブログと公式ヘルプの記述をもとに整理しました。軸にするのは「通勤・家事・移動という、画面を触れない時間の使い ...

AI活用全般

2026/7/24

AIっぽい文章はClaude Code無料スキルno-ai-slopでどこまで消せる？｜日本語で効くのは構造のクセ、英単語リストは素通り

「AIっぽさを消す」系スキルは前からあるのに、no-ai-slopは公開2日でGitHubスター約2,000まで伸びました。中身はコード0行、全部が指示書。無料でMITライセンスです。日本語では文の構造グセに効き、英単語の禁止リストは素通りします。この記事はAIに下書きを任せていて、公開前のAIっぽさが気になるライター・ブロガー向け（Claude Codeを触り始めた非エンジニアでも読めます）。 no-ai-slopって何をするスキル？ no-ai-slopは、文章から「AIっぽいクセ」、いわゆるA ...

AI活用全般

2026/7/24

ChatGPT Voiceデスクトップ版で複数のAI作業を声で指揮する｜"ながら質問"から始める4ステップ

ChatGPT Voiceのデスクトップ版が2026年7月23日に配信開始しました。無料プランは対象外で、Plus以上の有料プランが条件です。目玉は声でPCを操作するより、複数のAI作業を声で監督する働き方です。私が注目しているのは、この一点です。 Plusを持っているなら、まずはPC操作より"ながら質問"から始めるのが現実的だと思います。この記事はChatGPTの有料プラン（Plus以上）を仕事のPCで使っている人向け（声の操作を触ったことがなくても読めます）。そもそもデスクトップ版のChatGP ...

AI活用全般

2026/7/15

ChatGPT Sitesで家計簿・進捗ボードを作ってURLで配る手順｜サーバー契約もコードも不要

課金中のChatGPTに、プロンプトからWebサイトを作ってURLで配れる「ChatGPT Sites」が入り始めました。サーバー契約もコードも要らず、家計簿・進捗ボード・イベント案内級の小さいサイトを作って共有できるのが売りです。ただしパブリックベータで、容量やデータの保存地域など公式が数字を出していない部分もあります。この記事は課金中のChatGPTで小さなWebサイトを作って誰かに配りたい非エンジニア向け（HTMLを触ったことがなくても読めます）。 ChatGPT Sitesとは？プロンプトか ...

AI活用全般

2026/7/15

ChatGPTに絵コンテを頼むと文字の表しか出ない時｜GPT Image 2で12コマ・秒数つきの撮影設計図を画像1枚で出すプロンプト全文

ChatGPTに「絵コンテを作って」と頼むと、返ってくるのは文字だけの表がほとんどです。でも海外で拡散したあるプロンプトを貼ると、12コマ・秒数つきの撮影設計図が画像1枚で出てきます。 GPT Image 2なら無料プランでも試せて、書き換えるのは商品名の1箇所だけ。この記事は短尺動画を1人で撮っている非エンジニア向け（英語のプロンプトはコピペで大丈夫です）。そもそもこの「12コマ絵コンテ」プロンプトって何？ TikTokやInstagramの短尺動画を撮るとき、多くの人は段取りを頭の中だけで組みま ...

毎週の議事録作成をClaudeに覚えさせる方法｜非エンジニアが40分で1個動かす6ステップとつまづきポイント

HeyGen Hyperframes×Claude Codeで動画外注がほぼゼロに｜HTMLが動画になる新OSSの作例・GUI・苦手領域まで徹底解説