Grok Voice Think Fast 1.0(2026年4月23日GA)は、
xAIが電話業務・エンタープライズ対話向けに出した音声エージェントAPI。
料金は$0.05/分(約$3.00/時間)でOpenAI Realtime実測の1/3〜1/30。
τ-voice Benchで1位、
Big Bench Audioで92.3%のスコアをxAIが公表。
Starlink電話サポートが自動解決率70%・契約成立率20%・連携ツール28種で本番投入中。
OpenAI Realtime API互換仕様(docs.x.ai明記)なので既存Realtime実装から最小改修で乗り換え可能。
中小CSの意思決定材料として、
ElevenLabs/OpenAI Realtimeとの並びで数字を比較する。
Grok Voice Think Fast 1.0とは何か
xAIが2026年4月23日にGAした、
電話業務・エンタープライズ対話に特化したリアルタイム音声エージェントAPI。
モデル名はgrok-voice-think-fast-1.0で、
接続はWebSocketエンドポイントwss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0。
前世代のgrok-voice-fast-1.0は非推奨化された。
xAI公式アナウンスはこう書いている。
excels at complex, ambiguous, multi-step workflows across customer support, sales, and enterprise applications. It is especially well-suited for high-stakes scenarios that demand precise data entry and high-volume tool calling.
出典: xAI News — Grok Voice Think Fast 1.0
狙いがハッキリしている。
曖昧な複数ステップの問い合わせを、
CSと営業の両軸で、
ツール連打して処理する前提。
個人向けのGrok Voice Mode(Companion/恋愛モード)とは完全に別製品で、
同じ「Grok Voice」の名前だけで混ぜると意思決定を誤る。
私はこの区別を最初に置きたい。
なぜ電話業務置換の文脈で注目なのか
Think Fast 1.0が刺さる理由は、
xAI自社の売り文句より先にStarlinkの本番実績が出ている点にある。
The Tech Outlookが4月23日付でまとめた内容はこう。
Starlink customer support line (+1 888 GO STARLINK) uses Grok Voice to handle hardware troubleshooting, replacement issuance, service credit approvals, new customer onboarding, and plan guidance — with a 70% automated resolution rate and 20% purchase conversion rate across dozens of distinct tools spanning hundreds of support and sales workflows.
出典: The Tech Outlook
整理するとこうなる。
- 自動解決率70%:電話10件のうち7件が人間オペレーター不介入で完了
- 契約成立率20%:5件に1件は電話のその場で購入・契約まで到達
- 連携ツール28種類(xAIは「dozens of distinct tools」と記載)
- タスク種別:ハードウェア診断、交換品発行、サービスクレジット承認、新規オンボーディング、プラン案内
ここで効いてくるのが「28」という数字。
ハードウェア診断から決済まで回すのに必要な業務ツールの本数が、
だいたいこのレンジ。
つまりCS全工程をAIが一人で回せる閾値に届いたという読み方ができる。
5〜10ツール止まりだと人間に引き継ぐ設計が前提だが、
28種連携でStarlink規模が回り始めた時点で、
中小CSの1〜2回線くらいは理論上ほぼ自走する。
TeslaNorthは開始時期について「Customers complete orders in under two minutes.」(2分未満で注文完了)と追報している(TeslaNorth)。
2分で成約まで行く電話応対、
人間のオペレーターでは非現実的な速度です。
Think Fast 1.0 vs OpenAI Realtime vs ElevenLabs:機能比較
3者を電話業務導入者目線で並べる。まず分単価のレンジ比較から。
| プロバイダー | 料金/分 | 料金構造 |
|---|---|---|
| Grok Voice Think Fast 1.0 | $0.05 | 分単位定額(ツール呼び出し別課金) |
| Deepgram Voice Agent | $0.08 | 分単位 |
| ElevenLabs Conversational AI | $0.088〜$0.15 | プラン・モデル依存 |
| Bland AI | $0.14 | 分単位 |
| OpenAI Realtime(gpt-realtime実測) | $0.16〜$1.63 | 音声token×入出力×テキスト二重課金 |
OpenAI Realtimeの上振れ($1.63/分)は、
eesel.aiが1,000語のsystem prompt込みで実測した数字(eesel.ai)。
本番環境ではsystem promptが数千tokenになりやすく、
Think Fast 1.0はOpenAI Realtime実効の1/3〜1/30。
これ業務インパクト大きい。
続いて機能比較マトリクス。
| 軸 | Grok Voice Think Fast 1.0 | OpenAI Realtime (gpt-realtime) | ElevenLabs Conversational AI |
|---|---|---|---|
| 料金 | $0.05/分 定額 | $0.16〜$1.63/分(実測) | $0.08〜$0.15/分 |
| 言語数(公式アナウンス) | 25+言語(日本語含む) | 多言語(数値未明確) | 70+言語(TTS/STT全体) |
| OpenAI Realtime API互換 | あり(docs.x.ai明記、部分的差異あり) | ネイティブ | なし(独自API) |
| τ-voice Bench順位 | 1位(xAIアナウンス時点) | Sierra比較対象 | 未参加 |
| Big Bench Audio精度 | 92.3%(1位) | 82.8%(最新) | 未測定 |
| 電話音声エンティティ認識エラー率 | 5.0% | 非公開 | 12.0% |
| ツール連携 | Web/X/File/カスタム、MCP対応 | 非同期function calling対応 | あり(config複雑と評) |
| 同時セッション(セルフサーブ) | 100/チーム | 制限撤廃済 | プラン依存 |
| 本番投入事例 | Starlink、Tesla | 多数(汎用アプリ) | 主に声優・ナレーション |
| コンプライアンス | SOC 2 Type II/HIPAA/GDPR | あり | あり |
読み解きのポイントは3つ。
1つめ、
OpenAI Realtime API互換がxAI公式ドキュメントに明記されている。
LaoZhang AI Blogの開発者コメントはこう。
Your mental model transfers, but your first production pass should still validate event handling. It's not a perfect drop-in replacement — events like conversation.item.retrieve aren't supported, and response.text.delta differs from OpenAI's response.output_text.delta.
出典: LaoZhang AI Blog
完全互換ではない。
ただし「エンドポイントを向け替えて、
イベント名の差分と未対応イベントだけ直せば動く」という移行コストの低さは、
既存OpenAI Realtime実装を持つ事業者にとって決定打です。
2つめ、
電話音声エンティティ認識エラー率の差。
xAI自社ベンチでGrok 5.0%、
ElevenLabs 12.0%、
Deepgram 13.5%、
AssemblyAI 21.3%(xAI STT/TTS発表)。
自社ベンチである前提は差し引くとして、
電話回線の圧縮・ノイズ環境下でメールアドレスや電話番号・アカウント番号を取り違えないことは、
CS業務では致命的な評価軸。
ElevenLabsはこの文脈ではそもそも戦場が違う。
3つめ、
ElevenLabsの強みは別軸。
Glen Rhodesの批評が的確でした。
ElevenLabs brings decades of optimization for nuance and expressiveness that may not appear in phone recognition tests. STT and TTS are solved problems at this point — the real threat is integration convenience.
出典: Glen Rhodes
つまりElevenLabsは表現力(声質・ナレーション品質)のゴールドスタンダード。
電話業務で人間的な応対が最優先、
かつコストより品質を取りたい局面では依然として有力。
ただし電話CSの置換という角度では、
Think Fast 1.0に分がある。
月$1,500試算:人件費との比較
導入検討者が一番気にする数字。既存の試算ベースを置いておきます。
| 項目 | 数値 |
|---|---|
| 1日の電話件数 | 200件 |
| 1件の平均通話時間 | 5分 |
| 1分あたりのAPI料金 | $0.05 |
| 稼働日数 | 30日/月 |
| 月額APIコスト | $1,500(約23万円) |
これ、人件費と並べるとインパクトが見える。
| 体制 | 月額コスト | 対応可能件数/日 |
|---|---|---|
| Think Fast 1.0(100同時セッション上限) | $1,500(約23万円) | 200件〜数千件 |
| オペレーター1名(時給1,500円・8時間・22日) | 約26万円+管理費・保険 | 30〜50件 |
| オペレーター3名体制(24時間) | 約80万円+ | 90〜150件 |
注意点が2つあります。
ひとつ、
上記$1,500にはツール呼び出しコストが含まれない。
Webサーチ$5/1,000回、
ファイルサーチ$2.50/1,000回が別課金。
Starlink級にツール連打するなら数百〜数千ドル上乗せを覚悟。
ふたつ、
セルフサーブの100同時セッション上限。
200件/日を5分で回すなら同時性はほぼ問題ないけど、
ピーク帯に集中する業種(通販・金融)だと100同時枠に当たりうる。
エンタープライズ契約でカスタム上限設定が可能(xAI Voice API)。
STT/TTS単体APIとの関係を整理
ここ混乱が多い部分。
xAIはThink Fast 1.0の5日前、
2026年4月18日にGrok STT APIとGrok TTS APIを別途GAしている。
3製品の棲み分けはこう。
| プロダクト | 用途 | 料金 |
|---|---|---|
| Grok STT API | 音声→文字起こし専用 | $0.10/時間(バッチ)/$0.20/時間(ストリーミング) |
| Grok TTS API | 文字→音声合成専用([laugh][sigh]等の表現タグ対応) | $4.20/100万文字 |
| Grok Voice Think Fast 1.0 | 双方向対話エージェント(STT+推論+TTS+ツール連携を1本で) | $0.05/分 |
S.E. Robinson Jr.のポスト要旨が分かりやすい。
The APIs are built on the same stack powering Grok Voice, Tesla vehicles, and Starlink customer support.
出典: S.E. Robinson Jr. on X
STT/TTSは部品、
Think Fast 1.0は完成品。
電話CS自動化を1本で仕上げたいならThink Fast 1.0、
既存の対話ロジック資産があってSTT/TTSだけ差し替えたいなら単体API、
という切り分けになります。
Think Fast 1.0に既存Realtime実装から乗り換える手順
OpenAI Realtime API互換仕様を実装例で示します。
DataCampのチュートリアル(DataCamp Grok Voice Agent API)とdocs.x.ai/LiveKit公式プラグインドキュメントから再構成した導入フロー。
STEP1. APIキー取得とエンドポイント設定
- console.x.aiでアカウント作成、APIキーを発行
- 既存のOpenAI Realtime実装側で、接続先エンドポイントを
wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0に向ける - 認証ヘッダーをxAIのAPIキーBearerに差し替え(クライアントサイドはエフェメラルトークン推奨)
STEP2. イベント名の差分修正
response.output_text.deltaをresponse.text.deltaに置換(差分はここが最大)- 未サポートイベント
conversation.item.retrieveconversation.item.truncateへの依存コードを削除または条件分岐 - レート制限更新通知に依存する処理は別経路(HTTPポーリング等)に切り替え
STEP3. LiveKit経由で接続するパターン
- Python:
pip install 'livekit-agents[xai]~=1.4'、Node.js:@livekit/agents-plugin-xai@1.x - LiveKit Agent設定で
RealtimeModelをxAIプラグインに指定 - xAI固有のProviderツール(XSearch/WebSearch/FileSearch)を使う場合はPython SDKのみ対応(LiveKit xAI plugin docs)
STEP4. 音声フォーマットとVAD設定
- デフォルトは24 kHz PCM。電話系統と繋ぐなら
input_audio_format: "g711_ulaw"で8kHz µ-lawに切り替え - サーバーサイドVADのデフォルト値は閾値0.5/prefix_padding_ms=300/silence_duration_ms=200。HNユーザーから「自動無音検出が早すぎて発話が途切れる」という声があり(HN)、日本語や高齢者応対ではsilence_durationを長めに調整推奨
- ツール連携はJSON Schemaでファンクション定義を渡すだけ(OpenAI Realtime互換仕様)
STEP5. 本番前の検証チェックリスト
- 既存Realtime実装の全イベントハンドラを通してログ比較、差分を潰す
- 同時セッション100上限を超える見込みなら
sales@x.aiにエンタープライズ契約を打診 - 30分/セッション上限を超えるユースケース(長時間コンサル電話等)はセッション分割ロジックを組む
ここで引っかかりやすいのは2番目のイベント名差分。
LaoZhang AI Blogが繰り返し警告している通り、
テキスト出力を拾うリスナーがサイレント失敗しやすい部分。
dry-runでログを見ないとクライアント側のUI表示だけ死にます。
τ-voice BenchとBig Bench Audioの順位はどう読むか
ベンチの引用可能性を整理しておきます。
τ-voice BenchはSierra Researchが運営するフルデュプレックス音声エージェント評価(Sierra tau3-bench発表)。
評価条件はノイズ環境、
訛り、
会話中の割り込み、
ターンテイキング、
認証フロー精度など。
Sierra自身の記述はこう。
Voice agents struggle with multi-step request tracking and rarely recover from repeated failures. Authentication emerged as the critical failure point. Top agents reach ~54% task completion in clean conditions, dropping to 26–38% in realistic noise.
出典: Sierra Research
xAIはThink Fast 1.0発表時点でτ-voice Bench 1位と宣言。
2位以下の具体的スコアは現時点で公開ソースに引用可能な数字なし。
Sierra側の3者比較(OpenAI Realtime/Google Gemini Live/xAI Grok Voice)は「closely matched」との表現。
Big Bench AudioはArtificial Analysis社の1,000問音声推論ベンチ。
Rohan PaulのレポートによればGrok Voice Agent 92.3%(1位)、
2位Gemini 2.5 Flash Native Audio、
3位GPT Realtime。
タイムトゥファーストオーディオは平均0.78秒と記録(Rohan Paul)。
一方、digit.inは懐疑的です。
Self-reported benchmark numbers are, at the end of the day, self-reported.
出典: digit.in
私はこの懐疑を支持します。
ただし、
Starlinkで実戦投入されているという事実は自社ベンチとは別軸の信頼性担保で、
MarkTechPostも「proven scale from millions of Tesla and Starlink transactions provides real-world validation」と評価している(MarkTechPost)。
自社ベンチより実運用数字の方が重い。
中小CS運営者が選ぶなら、どれが本命か
3社の使い分けを、導入者の立場から言い切る。
| こういう状況 | 本命 | 理由 |
|---|---|---|
| 電話CSを自動化したい(1日100〜数千件) | Think Fast 1.0 | 分単価$0.05、Starlink実戦、電話ノイズ環境で他より強い |
| 既存OpenAI Realtime実装を持っていてコスト削減したい | Think Fast 1.0 | Realtime API互換、最小改修で乗り換え可能 |
| 70+言語のグローバル対応が必須 | ElevenLabs | 言語カバレッジで現状優位(Think Fast 1.0は25+言語) |
| 声質・感情表現が商材価値になる(教育・ナレーション) | ElevenLabs | 表現力の蓄積がゴールドスタンダード |
| Microsoft/OpenAI連携の既存エコシステムに深く依存 | OpenAI Realtime | ネイティブ統合の安心感(ただしコスト注意) |
| 試作からスタート、最小コストで触りたい | Think Fast 1.0 | $0.05/分の明朗会計、ツール別課金も透明 |
私は電話業務置換という角度では、
2026年4月時点でThink Fast 1.0が最有力と見ます。
根拠はベンチ順位より、
Starlinkが本番で自動解決率70%を出している実績。
ベンチ数字は自社発表、
実運用数字はサードパーティの取材報告。
重みが違う。
ただし懸念も明記しておきます。
- xAIの大規模障害(2026年1月・3月・4月初旬に発生)。Voice APIへの直接影響は確認できていないが、ピーク帯にCS止まるリスクを評価せずに全寄せは危険(IBTimes)
- 日本語対応:docs.x.aiの言語リストには日本語が含まれているが、公式アナウンスの「25+言語」一覧で日本語を明示する文書は現時点で確認できていない。本番投入前に実音声で精度検証必須
- ツール呼び出し別課金:$1,500試算には含まれない。実費はもっと乗る
個人的には、
2026年後半はxAI vs OpenAI vs ElevenLabsの三つ巴で値下げ競争が加速すると見ている。
Think Fast 1.0の$0.05/分はその口火。
今から評価環境だけ組んでおけば、
半年後に選択肢が増えても比較基盤を流用できます。
Grok Voice Think Fast 1.0に関するよくある質問
Grok Voice Think Fast 1.0とGrok Voice Modeは同じものですか?
別物です。
Think Fast 1.0はWebSocket APIで提供される事業者・開発者向けの音声エージェント(電話CS・営業用途)。
Grok Voice Modeはアプリ内の個人向け音声UI(Companion等)。
設計用途も料金体系も完全に別。
Think Fast 1.0は個人ユーザーが直接利用することはできません。
OpenAI Realtimeから乗り換える場合の工数はどのくらいですか?
docs.x.aiが「OpenAI Realtime API互換」と明記しており、
エンドポイント変更+イベント名の差分修正(response.output_text.delta→response.text.delta)+未サポートイベント(conversation.item.retrieve等)の条件分岐がメイン作業。
LaoZhang AI Blogは「メンタルモデルは移行できるが、
本番パスではイベントハンドリングの検証が必須」と注記。
完全drop-inではないが、
改修は数日〜1週間規模で収まるケースが多い想定です。
日本語の電話対応は実用レベルですか?
docs.x.aiの言語対応リストに日本語が含まれる記述が確認できます。
ただし公式アナウンスの「25+言語」で日本語を個別明示した文書は現時点で未確認。
HNユーザーの「Lithuanianがサポートされていて驚いた」などの反応から多言語対応の広さは確認できますが、
日本語の訛り・方言・高齢者の発話での精度は本番投入前に実音声でベンチ取る前提で進めるのが安全です。
月いくらから始められますか?
セルフサーブの公開料金は$0.05/分($3.00/時間)。
1日200件×平均5分×30日で月$1,500(約23万円)が目安。
これにツール呼び出し別課金(Webサーチ$5/1,000回、
ファイルサーチ$2.50/1,000回)が乗ります。
試作段階なら数十ドルから触れる明朗会計で、
これは他社(OpenAI Realtime実測$0.16〜$1.63/分)と比べた時の大きな参入障壁低下要因。
Starlink以外の本番導入事例はありますか?
公式アナウンス時点で明示されている大規模事例はStarlinkとTesla(MarkTechPost記事「millions of Tesla and Starlink transactions」)。
中小事業者の導入事例は現時点で公式・メディアとも詳細公開なし。
GAが2026年4月23日のため、
日本国内の導入事例は今後数ヶ月で出てくる段階と見ています。
同時セッション100の上限で足りますか?
セルフサーブのデフォルト上限は100セッション/チーム、
1セッション30分。
1日200〜500件程度の中小CS規模なら、
通話時間5分平均で同時性の問題はほぼ発生しません。
ピーク帯集中の業種(通販セール期・金融の決算期)や大規模運用はエンタープライズ契約(sales@x.ai)でカスタム上限設定が前提です。
参考リンク
- xAI公式アナウンス — Grok Voice Think Fast 1.0
- xAI Voice API 製品ページ
- Voice Agent API ドキュメント
- xAI STT/TTS API 発表
- LiveKit xAI plugin ドキュメント
- The Tech Outlook — Starlink事例詳報
- TeslaNorth — Starlink導入初期状況
- Sierra Research tau3-bench発表
- Rohan Paul — Big Bench Audio 92.3%スコア
- Glen Rhodes — 業界分析
- LaoZhang AI Blog — API詳細・互換性
- DataCamp — 実装チュートリアル
- digit.in — Grok vs ElevenLabs比較
- MarkTechPost — STT/TTS詳細
- eesel.ai — OpenAI Realtime実効コスト実測
※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。