Grok Voice Think Fast 1.0はxAIが2026年4月23日にGA(一般提供開始)した電話業務向け音声エージェントAPIで、料金は$0.05/分(約$3.00/時間)です。
Starlinkのカスタマーサポート電話で自動解決率70%・契約成立率20%・連携ツール28種の実績をxAIが公表しており、本番投入が進んでいます。
OpenAI Realtime API互換仕様のため既存実装から最小改修で乗り換えられ、中小CS(カスタマーサポート)の人件費23万円〜80万円規模を月$1,500(約23万円)のAPI料金に置き換える現実的な候補になります。
この記事は電話CSのAI自動化を検討している中小事業者・開発者向け(API・料金プランの基本が分かれば読めます)。
そもそもGrok Voice Think Fast 1.0って何のこと?
xAIが2026年4月23日にGAした、電話業務・問い合わせ対応に特化したリアルタイム音声エージェントAPIです。
モデル名はgrok-voice-think-fast-1.0で、接続先はwss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0のWebSocketエンドポイント(双方向に常時データを流せる通信方式)。
前世代のgrok-voice-fast-1.0は非推奨化されました。
xAI公式アナウンスはこう書いています。
excels at complex, ambiguous, multi-step workflows across customer support, sales, and enterprise applications. It is especially well-suited for high-stakes scenarios that demand precise data entry and high-volume tool calling.
出典: xAI News — Grok Voice Think Fast 1.0
狙いがハッキリしています。
曖昧な複数ステップの問い合わせを、カスタマーサポートと営業の両軸で、ツール連打して処理する前提です。
個人向けのGrok Voice Mode(Companion/恋愛モード)とは完全に別製品で、「Grok Voice」の名前だけで混ぜると意思決定を誤ります。
私はこの区別を最初に置きたい。
私の見立てでは$0.05/分は破壊的な水準です。
電話CSの置き換え文脈で注目されている理由
Think Fast 1.0が刺さる理由は、xAI自社の売り文句より先にStarlinkでの本番実績が出ている点にあります。
The Tech Outlookが4月23日付でまとめた内容はこう。
Starlink customer support line (+1 888 GO STARLINK) uses Grok Voice to handle hardware troubleshooting, replacement issuance, service credit approvals, new customer onboarding, and plan guidance — with a 70% automated resolution rate and 20% purchase conversion rate across dozens of distinct tools spanning hundreds of support and sales workflows.
出典: The Tech Outlook
整理するとこうなります。
- 自動解決率70%:電話10件のうち7件が人間オペレーター不介入で完了
- 契約成立率20%:5件に1件は電話のその場で購入・契約まで到達
- 連携ツール28種類(xAIは「dozens of distinct tools」と記載)
- タスク種別:ハードウェア診断、交換品発行、サービスクレジット承認、新規オンボーディング、プラン案内
ここで効いてくるのが「28」という数字です。
ハードウェア診断から決済まで回すのに必要な業務ツールの本数が、だいたいこのレンジ。
つまりCSの全工程をAIが一人で回せるラインに届いたという読み方ができます。
5〜10ツール止まりだと人間に引き継ぐ設計が前提ですが、28種連携でStarlink規模が回り始めた時点で、中小CSの1〜2回線くらいは理論上ほぼ自走します。
私なら週20件の電話業務から実証を始めます。
TeslaNorthは「Customers complete orders in under two minutes.」(2分未満で注文完了)と追加報道しています(TeslaNorth)。
2分で成約まで行く電話応対、人間のオペレーターでは非現実的な速度です。
Think Fast 1.0 vs OpenAI Realtime vs ElevenLabsの比較
3者を電話業務導入者目線で並べます。まず分単価のレンジ比較から。
| プロバイダー | 料金/分 | 料金構造 |
|---|---|---|
| Grok Voice Think Fast 1.0 | $0.05 | 分単位定額(ツール呼び出し別課金) |
| Deepgram Voice Agent | $0.08 | 分単位 |
| ElevenLabs Conversational AI | $0.088〜$0.15 | プラン・モデル依存 |
| Bland AI | $0.14 | 分単位 |
| OpenAI Realtime(gpt-realtime実測) | $0.16〜$1.63 | 音声token×入出力×テキスト二重課金 |
OpenAI Realtimeの上振れ($1.63/分)は、eesel.aiが1,000語のシステム指示込みで実測した数字(eesel.ai)。
本番環境ではシステム指示が数千トークンになりやすく、Think Fast 1.0はOpenAI Realtime実効の1/3〜1/30。
これ業務インパクトが大きい。
続いて機能比較マトリクス。
| 軸 | Grok Voice Think Fast 1.0 | OpenAI Realtime (gpt-realtime) | ElevenLabs Conversational AI |
|---|---|---|---|
| 料金 | $0.05/分 定額 | $0.16〜$1.63/分(実測) | $0.08〜$0.15/分 |
| 言語数(公式アナウンス) | 25+言語(日本語含む) | 多言語(数値未明確) | 70+言語(文字起こし・音声合成全体) |
| OpenAI Realtime API互換 | あり(docs.x.ai明記、部分的差異あり) | ネイティブ | なし(独自API) |
| τ-voice Bench順位 | 1位(xAIアナウンス時点) | Sierra比較対象 | 未参加 |
| Big Bench Audio精度 | 92.3%(1位) | 82.8%(最新) | 未測定 |
| 電話音声エンティティ認識エラー率 | 5.0% | 非公開 | 12.0% |
| ツール連携 | Web/X/File/カスタム、MCP対応 | 非同期function calling対応 | あり(設定は複雑との評) |
| 同時セッション(セルフサーブ) | 100/チーム | 制限撤廃済 | プラン依存 |
| 本番投入事例 | Starlink、Tesla | 多数(汎用アプリ) | 主に声優・ナレーション |
| コンプライアンス | SOC 2 Type II/HIPAA/GDPR | あり | あり |
読み解きのポイントは3つです。
1つめ、OpenAI Realtime API互換がxAI公式ドキュメントに明記されています(docs.x.ai Voice Agent)。
docs.x.aiの本文では「OpenAI's Realtime API」と互換性を持つこと、ただし一部イベント(conversation.item.retrieve等)が未対応であることが明記されています。
完全互換ではない。
ただし「接続先を向け替えて、イベント名の差分と未対応イベントだけ直せば動く」という移行コストの低さは、既存OpenAI Realtime実装を持つ事業者にとって決定打です。
2つめ、電話音声エンティティ認識エラー率の差。
xAI自社ベンチでGrok 5.0%、ElevenLabs 12.0%、Deepgram 13.5%、AssemblyAI 21.3%(xAI STT/TTS発表)。
自社ベンチである前提は差し引くとして、電話回線の圧縮・ノイズ環境下でメールアドレスや電話番号・アカウント番号を取り違えないことは、CS業務では致命的な評価軸。
ElevenLabsはこの文脈ではそもそも戦場が違います。
3つめ、ElevenLabsの強みは別軸。
表現力(声質・ナレーション品質)のゴールドスタンダードという立ち位置は変わりません。
電話業務で人間的な応対が最優先、かつコストより品質を取りたい局面では依然として有力。
ただし電話CSの置き換えという角度では、Think Fast 1.0に分があります。
月$1,500の試算:人件費との比較
導入検討者が一番気にする数字です。既存の試算ベースを置いておきます。
私の感覚では月23万円は人件費1人分です。
| 項目 | 数値 |
|---|---|
| 1日の電話件数 | 200件 |
| 1件の平均通話時間 | 5分 |
| 1分あたりのAPI料金 | $0.05 |
| 稼働日数 | 30日/月 |
| 月額APIコスト | $1,500(約23万円) |
これ、人件費と並べるとインパクトが見えてきます。
| 体制 | 月額コスト | 対応可能件数/日 |
|---|---|---|
| Think Fast 1.0(100同時セッション上限) | $1,500(約23万円) | 200件〜数千件 |
| オペレーター1名(時給1,500円・8時間・22日) | 約26万円+管理費・保険 | 30〜50件 |
| オペレーター3名体制(24時間) | 約80万円〜 | 90〜150件 |
注意点が2つあります。
ひとつ、上記$1,500にはツール呼び出しコストが含まれないこと。
Webサーチ$5/1,000回、ファイルサーチ$2.50/1,000回が別課金です。
Starlink級にツール連打するなら数百〜数千ドル上乗せを覚悟。
ふたつ、セルフサーブの100同時セッション上限。
200件/日を5分で回すなら同時性はほぼ問題ないですが、ピーク帯に集中する業種(通販・金融)だと100同時枠に当たる可能性があります。
エンタープライズ契約でカスタム上限設定が可能(xAI Voice API)。
文字起こし/音声合成の単体APIとの関係を整理する
ここは混乱が多い部分です。
xAIはThink Fast 1.0の5日前、2026年4月18日にGrok STT API(文字起こし専用)とGrok TTS API(音声合成専用)を別途GAしています。
3製品の棲み分けはこう。
| プロダクト | 用途 | 料金 |
|---|---|---|
| Grok STT API | 音声→文字起こし専用 | $0.10/時間(バッチ)/$0.20/時間(ストリーミング) |
| Grok TTS API | 文字→音声合成専用([laugh][sigh]等の表現タグ対応) | $4.20/100万文字 |
| Grok Voice Think Fast 1.0 | 双方向対話エージェント(聞き取り+推論+音声合成+ツール連携を1本で) | $0.05/分 |
xAIのSTT/TTS API発表ページは、STT/TTSとThink Fast 1.0が同じ基盤を共有していて、Teslaの車載音声やStarlinkのカスタマーサポート裏側も同じスタックで動いていると説明しています(xAI STT/TTS APIs)。
STT/TTSは部品、Think Fast 1.0は完成品。
電話CS自動化を1本で仕上げたいならThink Fast 1.0、既存の対話ロジック資産があってSTT/TTSだけ差し替えたいなら単体API、という切り分けになります。
既存のRealtime実装からThink Fast 1.0へ乗り換える手順
OpenAI Realtime API互換仕様の使い方を、実装例で見ていきます。
DataCampのチュートリアル(DataCamp Grok Voice Agent API)とdocs.x.ai/LiveKit公式プラグインドキュメントから再構成した導入フローです。
STEP1. APIキー取得と接続先の設定
- 操作:console.x.aiでアカウント作成、APIキーを発行する
- 期待結果:xAIダッシュボードでAPIキーが表示され、コピー可能になる
- 詰まりどころ:既存のOpenAI Realtime実装側で、接続先を
wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0に向け替え、認証ヘッダーをxAI APIキーのBearerに差し替える。クライアントサイドはエフェメラル(短期有効)トークン推奨
STEP2. イベント名の差分修正
- 操作:
response.output_text.deltaをresponse.text.deltaに置換する(差分はここが最大) - 期待結果:テキスト出力イベントが正しく拾えるようになり、画面表示やログ出力が動く
- 詰まりどころ:未サポートイベント
conversation.item.retrieveconversation.item.truncateへの依存コードは削除または条件分岐。レート制限更新通知に依存する処理は別経路(HTTPポーリング等)に切り替える
STEP3. LiveKit経由で接続するパターン
- 操作:Pythonは
pip install 'livekit-agents[xai]~=1.4'、Node.jsは@livekit/agents-plugin-xai@1.xを導入する - 期待結果:LiveKit Agent設定で
RealtimeModelをxAIプラグインに指定でき、接続が確立する - 詰まりどころ:xAI固有のプロバイダーツール(XSearch/WebSearch/FileSearch)を使う場合はPython SDKのみ対応(LiveKit xAIプラグインdocs)
STEP4. 音声フォーマットと無音検出の設定
- 操作:デフォルトは24 kHz PCM。電話系統と繋ぐなら
input_audio_format: "g711_ulaw"で8kHz µ-lawに切り替える - 期待結果:電話交換機(PSTN)経由の音声が劣化せずに正しく解釈される
- 詰まりどころ:サーバーサイドの無音検出(VAD)デフォルト値は閾値0.5/prefix_padding_ms=300/silence_duration_ms=200。日本語や高齢者応対では「自動無音検出が早すぎて発話が途切れる」報告がHacker Newsで上がっており(Hacker News)、silence_durationを長めに調整推奨。ツール連携はJSON Schemaで関数定義を渡すだけ(OpenAI Realtime互換仕様)
STEP5. 本番前の検証チェックリスト
- 操作:既存Realtime実装の全イベントハンドラを通してログ比較、差分を潰す
- 期待結果:xAI側で受信できるイベントの種類と、OpenAI側で受け取っていたイベントの差分が一覧化される
- 詰まりどころ:同時セッション100上限を超える見込みなら
sales@x.aiにエンタープライズ契約を打診。30分/セッション上限を超えるユースケース(長時間コンサル電話等)はセッション分割ロジックを組む
ここで引っかかりやすいのは2番目のイベント名差分です。
テキスト出力を拾うリスナーがサイレント失敗しやすく、テストでログを見ないとクライアント側のUI表示だけ死にます。
τ-voice BenchとBig Bench Audioの順位はどう読むか
ベンチマークの引用可能性を整理しておきます。
τ-voice BenchはSierra Researchが運営する、フルデュプレックス(同時双方向)音声エージェント評価です(Sierra tau3-bench発表)。
評価条件はノイズ環境、訛り、会話中の割り込み、ターンの受け渡し、本人確認フロー精度など。
Sierra側の記述はこう。
Voice agents struggle with multi-step request tracking and rarely recover from repeated failures. Authentication emerged as the critical failure point. Top agents reach ~54% task completion in clean conditions, dropping to 26–38% in realistic noise.
出典: Sierra Research
xAIはThink Fast 1.0発表時点でτ-voice Bench 1位と宣言しています(xAI公式)。
2位以下の具体的スコアは現時点で公開ソースに引用可能な数字がありません。
Sierra側の3者比較(OpenAI Realtime/Google Gemini Live/xAI Grok Voice)は「closely matched」との表現に留まっています。
Big Bench AudioはArtificial Analysis社の1,000問音声推論ベンチマーク。
xAI公式アナウンスによればGrok Voice Agent 92.3%(1位)、続いてGemini 2.5 Flash Native Audio、GPT Realtimeという順位(xAI News)。
タイムトゥファーストオーディオ(音が返り始めるまでの時間)は平均0.78秒と公表されています。
一方、digit.inは懐疑的です。
Self-reported benchmark numbers are, at the end of the day, self-reported.
出典: digit.in
私はこの懐疑を支持します。
ただし、Starlinkで実戦投入されているという事実は自社ベンチとは別軸の信頼度の裏付けで、MarkTechPostも「proven scale from millions of Tesla and Starlink transactions provides real-world validation」と評価しています(MarkTechPost)。
自社ベンチより実運用数字の方が重い。
中小CS運営者が選ぶなら、どれが本命か
3社の使い分けを、導入者の立場から言い切ります。
| こういう状況 | 本命 | 理由 |
|---|---|---|
| 電話CSを自動化したい(1日100〜数千件) | Think Fast 1.0 | 分単価$0.05、Starlink実戦、電話ノイズ環境で他より強い |
| 既存OpenAI Realtime実装を持っていてコスト削減したい | Think Fast 1.0 | Realtime API互換、最小改修で乗り換え可能 |
| 70+言語のグローバル対応が必須 | ElevenLabs | 言語カバレッジで現状優位(Think Fast 1.0は25+言語) |
| 声質・感情表現が商材価値になる(教育・ナレーション) | ElevenLabs | 表現力の蓄積がゴールドスタンダード |
| Microsoft/OpenAI連携の既存エコシステムに深く依存 | OpenAI Realtime | ネイティブ統合の安心感(ただしコスト注意) |
| 試作からスタート、最小コストで触りたい | Think Fast 1.0 | $0.05/分の明朗会計、ツール別課金も透明 |
私は電話業務置き換えという角度では、2026年4月時点でThink Fast 1.0が最有力と判断します。
根拠はベンチ順位より、Starlinkが本番で自動解決率70%を出している実績です。
ベンチ数字は自社発表、実運用数字はサードパーティの取材報告。
重みが違います。
ただし懸念も明記しておきます。
- xAIの大規模障害:2026年1月・3月・4月初旬に発生。Voice APIへの直接影響は確認できていませんが、ピーク帯にCSが止まるリスクを評価せずに全寄せは危険(IBTimes)
- 日本語対応:docs.x.aiの言語リストには日本語が含まれていますが、公式アナウンスの「25+言語」一覧で日本語を明示する文書は現時点で確認できていません。本番投入前に実音声で精度検証が必須
- ツール呼び出し別課金:$1,500試算には含まれない。実費はもっと乗ります
私は2026年後半、xAI vs OpenAI vs ElevenLabsの三つ巴で値下げ競争が加速する流れになると判断しています。
Think Fast 1.0の$0.05/分はその口火。
今から評価環境だけ組んでおけば、半年後に選択肢が増えても比較基盤を流用できます。
Grok Voice Think Fast 1.0に関するよくある質問
Grok Voice Think Fast 1.0とGrok Voice Modeは同じものですか?
別物です。
Think Fast 1.0はWebSocket APIで提供される事業者・開発者向けの音声エージェント(電話CS・営業用途)。
Grok Voice Modeはアプリ内の個人向け音声UI(Companion等)。
設計用途も料金体系も完全に別で、Think Fast 1.0は個人ユーザーが直接利用することはできません。
OpenAI Realtimeから乗り換える場合の工数はどのくらいですか?
docs.x.aiが「OpenAI Realtime API互換」と明記しており、接続先変更+イベント名の差分修正(response.output_text.delta→response.text.delta)+未サポートイベント(conversation.item.retrieve等)の条件分岐がメイン作業です。
完全な差し替えではないものの、改修は数日〜1週間規模に収まる事例が多く、xAI公式ドキュメントの移行ガイドにも沿った段取りで進められます。
日本語の電話対応は実用レベルですか?
docs.x.aiの言語対応リストに日本語が含まれる記述があります。
ただし公式アナウンスの「25+言語」で日本語を個別明示した文書は現時点で未確認。
Hacker Newsには「Lithuanianがサポートされていて驚いた」という反応もあり多言語対応の広さはうかがえますが、日本語の訛り・方言・高齢者の発話での精度は本番投入前に実音声でベンチを取る前提で進めるのが安全です。
月いくらから始められますか?
セルフサーブの公開料金は$0.05/分($3.00/時間)。
1日200件×平均5分×30日で月$1,500(約23万円)が目安です。
これにツール呼び出し別課金(Webサーチ$5/1,000回、ファイルサーチ$2.50/1,000回)が乗ります。
試作段階なら数十ドルから触れる明朗会計で、これは他社(OpenAI Realtime実測$0.16〜$1.63/分)と比べた時の大きな参入障壁低下要因。
Starlink以外の本番導入事例はありますか?
公式アナウンス時点で明示されている大規模事例はStarlinkとTesla(MarkTechPost記事「millions of Tesla and Starlink transactions」)です。
中小事業者の導入事例は現時点で公式・メディアとも詳細公開なし。
GAが2026年4月23日のため、日本国内の導入事例は今後数ヶ月で出てくる段階です。
同時セッション100の上限で足りますか?
セルフサーブのデフォルト上限は100セッション/チーム、1セッション30分。
1日200〜500件程度の中小CS規模なら、通話時間5分平均で同時性の問題はほぼ発生しません。
ピーク帯集中の業種(通販セール期・金融の決算期)や大規模運用はエンタープライズ契約(sales@x.ai)でカスタム上限設定が前提です。
このページに出てきた言葉
- GA(一般提供開始)
- 誰でも本番利用できる状態でリリースされること。ベータ版や限定公開の次の段階
- 音声エージェントAPI
- 電話の音声を聞き取り、AIが答えを考え、AI音声で返すまでを1本で提供する仕組み
- WebSocket
- クライアントとサーバーが繋がりっぱなしで、リアルタイムにデータを双方向に流せる通信方式
- カスタマーサポート(CS)
- 顧客からの問い合わせ・クレーム・購入相談を受ける窓口業務
- STT
- Speech to Textの略。音声を文字に変換する技術
- TTS
- Text to Speechの略。文字を音声として読み上げる技術
- OpenAI Realtime API
- OpenAIが提供する、音声をリアルタイムに聞いて答えるための双方向通信API
- MCP
- Model Context Protocolの略。AIエージェントが外部ツール・データと安全に繋がる共通仕様
- function calling
- AIが回答中に外部の関数を呼び出して、その結果を会話に組み込む機能
- PSTN
- Public Switched Telephone Networkの略。従来の電話回線網のこと
- VAD
- Voice Activity Detectionの略。相手が喋っているか黙っているかを判定する仕組み
- セルフサーブ
- Webサイト上で操作するだけでアカウントを作って即座に利用開始できる契約方式
- エンタープライズ契約
- 大企業向けに、料金・上限・サポートを個別交渉して結ぶ契約
- 同時セッション
- 同じ瞬間に並行して走らせられる通話の数
- スタック
- サービスを動かしている裏側のソフト・基盤の組み合わせ
参考リンク
- xAI公式アナウンス — Grok Voice Think Fast 1.0
- xAI Voice API 製品ページ
- Voice Agent API ドキュメント
- xAI STT/TTS API 発表
- LiveKit xAIプラグイン ドキュメント
- The Tech Outlook — Starlink事例詳報
- TeslaNorth — Starlink導入初期状況
- Sierra Research tau3-bench発表
- DataCamp — 実装チュートリアル
- digit.in — Grok vs ElevenLabs比較
- MarkTechPost — STT/TTS詳細
- eesel.ai — OpenAI Realtime実効コスト実測
- Hacker News — Voice API討論スレッド
- IBTimes — xAI障害動向
※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。