この記事の要点
- xAIが2026年4月17日にGrok STT APIをGA。batch処理が$0.10/時間(日本円で約15円)、streamingが$0.20/時間。
- Deepgram $0.46、AssemblyAI $0.15〜0.45、ElevenLabs $0.22と並べると、batch同士でGrokが最安クラス。会議1時間15円は料金破壊の範囲。
- xAI公式ベンチマークでは電話通話エンティティ認識5.0% WERで首位を主張。ただし独立機関CodeSOTAではDeepgramが2.2%で首位と乖離あり。
- 音声データの越境移転は個人情報保護法28条の論点に触れる。機微情報を扱う案件は法務確認が要る。
2026年4月17日、
xAIがGrok STT APIを正式リリースしました。
batch処理$0.10/時間、
streaming $0.20/時間。
日本円で言うと、
1時間の会議を書き起こしても15円です。
Deepgramに毎月$30払っていた人なら、
単純計算で78%の圧縮。
ここまで露骨に価格を叩きつけてきた新規STT APIは、
2026年に入って初めてです。
会議1時間15円。
数字だけ見るとインパクトが強い。
ただ、
xAI自社ベンチマークと独立機関のベンチマークで言ってることが違う。
日本語対応の公式記載も直接確認が取れない箇所がある。
料金だけで飛びつくと刺さるので、
ここで5列マトリクスで整理します。
Grok STT APIの料金は他と比べてどのくらい安い?
まずは数字から。
2026年4月時点の主要STT API料金を1時間あたりで並べました。
| サービス | batch($/時) | streaming($/時) | 対応言語 | 話者分離 |
|---|---|---|---|---|
| Grok STT | $0.10 | $0.20 | 25+ | ○ |
| AssemblyAI Universal-2(base) | $0.15 | $0.15 | 99 | ○(アドオン $0.02) |
| AssemblyAI(全アドオン込み) | 約$0.45 | 約$0.45 | 99 | ○ |
| ElevenLabs Scribe v1/v2 | $0.22 | $0.39(Realtime v2) | 90+ | — |
| OpenAI gpt-4o-transcribe | $0.36 | $0.36 | 多数 | ○ |
| Deepgram Nova-3(PAYG) | $0.46(Mono) | $0.46 | 10+ | ○ |
| Google Cloud Speech-to-Text(標準) | $1.44 | $1.44 | 多数 | 要確認 |
batch同士で比べると、
GrokはDeepgramより78%安い、
ElevenLabsより55%安い、
AssemblyAIのbase料金と比べても33%安い。
Google STTに至っては93%の差。
ここまで来ると「安さ」ではなく「価格帯が違う」と言う方が近いです。
個人的には、
AssemblyAIのbase $0.15が今まで実質的な底値だったところに、
いきなり$0.10で殴り込んできた構図に見えます。
blockchain.newsは見出しで「xAI launches Grok speech APIs undercutting competitors by 60%」と書いていて、
60%割安という表現も誇張ではないです。
Grok STT is now generally available, offering transcription across 25 languages with both batch and streaming modes.
— xAI公式リリース(x.ai/news/grok-stt-and-tts-apis)
数字が冷静すぎる。
月20回1時間の会議を書き起こすと年間いくら?
取材ライター・ポッドキャスター・個人事業主のリアルな用途で試算します。
月20回×1時間の録音音声をbatchで書き起こすと仮定。
| サービス | 月額 | 年額(概算) |
|---|---|---|
| Grok STT | $2.00(約300円) | $24(約3,600円) |
| AssemblyAI(base) | $3.00(約450円) | $36(約5,400円) |
| ElevenLabs Scribe | $4.40(約660円) | $52.8(約7,900円) |
| OpenAI gpt-4o-transcribe | $7.20(約1,080円) | $86.4(約13,000円) |
| Deepgram Nova-3 | $9.20(約1,380円) | $110.4(約16,600円) |
| Google STT(標準) | $28.80(約4,320円) | $345.6(約51,800円) |
※為替は1ドル=150円換算。
Googleはデータログ非参加オプションで+40%追加になります。
Grokなら年3,600円。
ランチ1回分。
私がもし月20本のポッドキャストを回している立場なら、
これだけ差が出るなら乗り換えの稟議を切ります。
Grok STTの精度はどのくらい?他のSTT APIと比べてどう?
xAI公式が発表したベンチマークの数字です。
| サービス | 電話通話エンティティ認識(誤り率) | 動画/ポッドキャストWER |
|---|---|---|
| Grok STT | 5.0% | 2.4% |
| ElevenLabs | 12.0% | 2.4% |
| Deepgram | 13.5% | 3.0% |
| AssemblyAI | 21.3% | 3.2% |
出典: MarkTechPost(2026年4月18日)および xAI公式。
電話通話の数字が強烈です。
ウェールズ系の固有名詞(Anghared Llewelyn Bowen、
Oisin MacGiolla Phadraig等)と住宅ローン詳細の書き起こしでエンティティ認識を評価した、
とxAIは明言しています。
固有名詞と数字が混ざる通話で5.0%。
AssemblyAIの21.3%と比べると、
4倍の差。
ただ、この数字、鵜呑みにできるかは別問題。
独立ベンチマークとの食い違い
第三者機関のCodeSOTA Speech Leaderboardは全く別の順位を出しています。
Deepgram Nova-3: 2.2% WER(首位)/AssemblyAI Universal-2: 2.4% WER
xAIのGrokはランクインしていません(4月20日時点)。
つまり独立機関の測定では、
Deepgramが2.2%で首位、
AssemblyAIが2.4%で2位。
xAI公式ベンチマーク(AssemblyAI 3.2%)と桁が違う。
業界識者の指摘も同じ方向です。
Published WER benchmarks often use clean, well-recorded audio... a provider showing 5% WER on benchmarks might deliver 15-20% WER on challenging production audio.
— 複数の独立STTレビュー記事(hackceleration.com他)
公開ベンチマークの5% WERが、
ノイズ・訛り・重なりがある本番環境では15〜20%に跳ねる、
という話。
Grok STTの2.4%も同じ前提で見た方が安全です。
料金破壊は本物ですが、
精度の断定は公式数字だけで決めない方がいい。
Grok STTは日本語に対応してる?
xAI公式リリースは「25言語以上」とだけ明示しています。
具体的な言語リストはxAI公式ドキュメント(docs.x.ai/developers/model-capabilities/audio/voice)に掲載されていますが、
4月20日時点でこのURLは外部アクセス時に403応答を返す状態。
複数の海外メディアは「日本語を含むアジア太平洋言語に対応」と記載しています。
同じxAIのTTS API側の発表では「20+言語、
アジア太平洋カバー」の文脈で日本語が挙げられており、
STT側も同系統の言語カバレッジである確率は高いです。
ただし、
日本語精度の独立ベンチマーク数字は現状ありません。
参考になるのは別製品のGrok Voice Agent APIの人間ブラインド評価で、
こちらは日本語でOpenAIが優位(OpenAI 49.5% vs Grok 34.2%)という結果が出ています(出典: innovatopia.jp)。
STT単体とVoice Agentは別製品なので、
同じ傾向とは限らない。
日本語案件で本番投入するなら、
自社データでA/B測定する前提で見た方が無難です。
Grok STTにはどんな機能が入ってる?
公式が明示している主な機能を整理します。
- Speaker diarization(話者分離): 複数話者を自動で分ける。インタビュー・会議で必須。
- Word-level timestamps: 単語単位のタイムスタンプ。YouTube字幕(SRT)生成に直結。
- Inverse Text Normalization: 「いちまんえん」を「1万円」、「よんがつじゅうはちにち」を「4月18日」に自動変換。議事録のそのまま使えるレベルに近づきます。
- Multichannel対応: ステレオ録音の左右を別トラック扱いできる。コールセンターのオペレーター/顧客分離に使える。
- 医療・法律・金融分野の業界用語への高精度認識をxAIは強調。
対応音声フォーマットは12種類。
コンテナ9形式(WAV, MP3, OGG, Opus, FLAC, AAC, MP4, M4A, MKV)+ロー3形式(PCM, µ-law, A-law)。
最大ファイルサイズは1リクエストあたり500MB。
ここも競合と比べて不足がない。
取材のICレコーダーからYouTubeのmp4まで、
そのまま投げられる範囲が広いです。
Built on the same stack that powers Grok Voice, Tesla vehicles, and Starlink customer support.
— xAI公式アナウンス(MarkTechPost引用)
Tesla車両とStarlinkカスタマーサポートで既に大規模実戦投入されているスタック、
という主張。
これが本当なら、
実本番での音声多様性・ノイズ耐性は相当鍛えられている計算になります。
無料枠はある?APIキーの発行と課金はどう設定する?
ここがハマりポイントです。
Grok STT APIに無料ティアは存在しません。
サインアップ時の$25クレジットのみ。
APIキー発行にはxAIアカウントとクレジットカード登録が要ります。
無料で試したい派には刺さる条件。
ただbatch $0.10/時間なので、
$25あれば250時間分の書き起こしが試せる計算です。
事実上、
初心者でも数十本の音声を無料クレジット内で触れる幅は残っています。
APIキーと課金上限の設定手順
xAI公式ドキュメント(docs.x.ai/console/billing)に沿った流れ。
- コンソール(console.x.ai)にログイン。
- Billing → API Creditsでクレジット購入またはAuto top-up設定。
- 同画面のinvoiced billing limitを明示設定(デフォルト$0=プリペイド残高消化で停止)。
- APIキー発行画面でキーを生成。発行直後の1回しか全文表示されないので即コピー保存。
- daily/monthlyキャップを設定。80%到達で警告通知。
ここで設定を後回しにするとキー流出時の天井が$0にならない状態が続きます。
私がもし試すなら、
キー発行前にmonthly capを$10あたりで先に置きます。
これ必須作業。
日本企業で使う時のデータ保護はどうなってる?
音声データを海外APIに投げる論点、
特に機微情報(医療・法務)を扱う人は無視できません。
xAIエンタープライズAPI利用規約には以下の記載があります。
xAI shall not use any User Content for any of its internal AI or other training purposes.
API利用者のデータはxAIの学習には使われない、
という明示。
コンシューマー版Grok(Xアプリ上)はデフォルトで学習に使われるのでオプトアウトが要りますが、
API側は逆で、
デフォルトで学習非使用です。
ただ、
日本の個人情報保護法28条との関係では別論点が残ります。
「外国にある第三者への個人情報提供」には原則として①本人同意、
または②基準適合体制整備が必要(出典: 牛島総合法律事務所)。
クラウド利用が必ずしも「第三者提供」に該当するわけではありませんが、
外的環境把握義務(安全管理措置・当該国の制度確認)は発生します。
機微情報を含む音声(医療面談録、
法務ヒアリング、
顧客クレーム通話等)をGrok STTに投げる業務設計は、
社内法務のレビューを通してから進めるのが筋です。
料金の安さだけで法務を後回しにするとあとで大火傷します。
Grok STTを使うべき人・やめた方がいい人
ここまでの数字と出典を踏まえた仕分け。
| 向いている | 慎重に判断すべき |
|---|---|
|
|
apiscout.devのレビューは「No native Zapier or Make.com connectors yet」「documentation lacks the depth of OpenAI's extensive cookbook」と指摘しています(出典: apiscout.dev)。
エコシステム成熟度はOpenAIにまだ差がある、
という評価。
個人的には、
料金×ベンチマークの押し出しが強烈なので「毎月のSTT固定費が跳ねている人」は乗り換え試算をやる価値があると見ています。
一方、
ノーコード連携と既存ワークフローの安定を優先する人は、
半年くらい様子を見てから判断で十分。
Claude Codeから叩くならどんな流れになる?
非エンジニアでもClaude Code経由で触れる範囲の動線を1枚で。
- 音声ファイル(mp3/wav/m4a等)を用意。500MB以下。
- Claude Codeに「このファイルをGrok STT APIのbatchエンドポイントに投げて、話者分離と単語タイムスタンプ付きで返して」と依頼。
- 返ってきたJSONをClaude Codeに「議事録形式(発言者・時刻・本文)に整形して」と渡す。
- 必要なら「SRT字幕ファイルに変換して」で字幕ファイル生成。
curl 1行とjq 1行の世界。
1時間の会議音声を投げてbatch処理するAPIエンドポイントは/v1/stt、
認証はBearerトークン。
これ以上のコード詳細はxAI公式ドキュメント(docs.x.ai)に集約されています。
まとめ:Grok STT APIは「毎月のSTT固定費が重い人」にだけ刺さる
料金は破壊的です。
会議1時間15円、
streaming 30円。
Deepgram/AssemblyAI/ElevenLabsから単純乗り換えでコストが1/4〜1/5。
ここは数字がそのまま語っています。
精度はxAI自社ベンチマークでは首位主張、
独立ベンチマークでは未ランク入り。
日本語精度の独立数字はまだない。
機微情報を扱うなら越境移転論点を法務と詰める段階。
この3点は「安さに飛びつく前の確認リスト」として残ります。
私の見方としては、
料金破壊はこのレベルになると「試算するだけでもやる価値がある」局面。
月数千円〜数万円のSTT固定費を払っている人は、
$25の無料クレジット内で手元の音声を10本ほど投げて、
日本語精度を読者自身の案件で先に見てから本採用判断。
これが一番損しないルートだと見ています。
よくある質問(FAQ)
Q1. Grok STT APIはGrokチャットの音声入力と同じもの?
別物です。
Grokチャット(Xアプリ内)の音声入力やVoice Mode、
別製品のGrok Voice Agent API($0.05/分)とは切り離された単体API。
今回リリースされたのは「音声ファイルを文字起こしする専用API」で、
batch $0.10/時間、
streaming $0.20/時間の料金体系です。
Q2. 無料で試す方法はある?
無料ティアはありません。
ただしサインアップ時に$25のクレジットが付与されるので、
実質的にbatch処理で250時間分まで無料で触れます。
APIキー発行にはクレジットカード登録が必須。
Q3. 日本語の精度はDeepgramやOpenAI Whisperと比べてどう?
xAI公式の日本語WER数字は現状公開されていません。
xAI公式ベンチマークは英語中心の電話通話・動画・ポッドキャストで測定されたもの。
別製品のGrok Voice Agent APIの人間評価では日本語でOpenAIが優位(OpenAI 49.5% vs Grok 34.2%、
出典: innovatopia.jp)という結果があるため、
日本語案件では自社音声でのA/B比較が推奨されます。
Q4. speaker diarization(話者分離)の追加料金はかかる?
xAI公式の価格ページでは話者分離は標準機能として提示されており、
AssemblyAIのようなアドオン料金の記載は確認されていません。
batch $0.10/時間のまま話者分離が使える仕様。
仕様の最新はxAI公式ドキュメントで要確認。
Q5. Zapier/Make.com連携はできる?
2026年4月時点でネイティブコネクタは公開されていません(出典: apiscout.dev)。
Webhook/HTTPリクエスト経由で叩く運用が基本になります。
Q6. 最大ファイルサイズと対応形式は?
最大500MB/リクエスト。
対応形式は12種類(WAV, MP3, OGG, Opus, FLAC, AAC, MP4, M4A, MKV+PCM, µ-law, A-law)。
ICレコーダー音声からYouTube mp4まで、
主要フォーマットはそのまま投げられます。
参考リンク
- xAI公式STT/TTSリリース発表: https://x.ai/news/grok-stt-and-tts-apis
- xAI公式Voice APIドキュメント: https://docs.x.ai/developers/model-capabilities/audio/voice
- xAIコンソール課金管理: https://docs.x.ai/console/billing
- MarkTechPost(ベンチマーク数字ソース): MarkTechPost 2026/04/18
- blockchain.news(60%割安見出し): blockchain.news
- CodeSOTA Speech Leaderboard(独立ベンチマーク): codesota.com/speech
- Deepgram料金: deepgram.com/pricing
- AssemblyAI料金: assemblyai.com/pricing
- ElevenLabs API料金: elevenlabs.io/pricing/api
- Google STT料金: cloud.google.com/speech-to-text/pricing
- 個人情報保護法 越境移転(牛島総合法律事務所): ushijima-law.gr.jp
- innovatopia.jp(Grokボイス日本語評価): innovatopia.jp
※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。