AI活用全般

Grok STT APIは会議1時間15円|Deepgram/AssemblyAI/ElevenLabsと精度・日本語・越境移転を3論点比較

この記事の結論

  • xAIが2026年4月17日にGrok STT APIを正式公開。バッチ処理が$0.10/時間(1ドル150円換算で約15円)、リアルタイム処理が$0.20/時間。
  • Deepgram $0.46、AssemblyAI $0.15〜0.45、ElevenLabs $0.22と並べると、バッチ同士でGrokが最安水準。会議1時間15円は料金破壊の幅。
  • xAI公式の社内ベンチでは電話通話の固有名詞認識5.0%誤り率で首位を主張。第三者測定(CodeSOTA)ではDeepgramが2.2%で首位、Grokは未掲載という食い違いがある。
  • 音声データの海外送信は個人情報保護法28条にかかる。医療・法務・金融の機微情報を扱うなら社内法務の確認を先にやる。

この記事はSTT(音声を文字に起こすサービス)の固定費を下げたい個人・小規模チーム向け(API・WER・越境移転といった用語は本文内のセクション末ブロックで都度説明します)。

2026年4月17日、xAIがGrok STT APIを正式公開しました。

バッチ処理$0.10/時間、リアルタイム処理$0.20/時間。

日本円なら1時間の会議を書き起こして15円です。

Deepgramに毎月$30払っていた人なら、単純計算で78%の圧縮になります。

ここまで露骨に価格を叩きつけてきた新規STT APIは、2026年に入って初めてです。

会議1時間15円

数字だけ見るとインパクトが強い。

ただ、xAI自社ベンチと第三者ベンチで言ってることが違います。

日本語対応の公式記載も直接確認が取れない箇所がある。

料金だけで飛びつくと刺さるので、ここで5列マトリクスで整理します。

Grok STT APIの料金は他と比べてどのくらい安い?

まずは数字から。

2026年4月時点の主要STT API料金を1時間あたりで並べました。

サービスバッチ($/時)リアルタイム($/時)対応言語話者分離
Grok STT$0.10$0.2025+
AssemblyAI Universal-2(base)$0.15$0.1599○(アドオン $0.02)
AssemblyAI(全アドオン込み)約$0.45約$0.4599
ElevenLabs Scribe v1/v2$0.22$0.39(Realtime v2)90+
OpenAI gpt-4o-transcribe$0.36$0.36多数
Deepgram Nova-3(PAYG)$0.46(Mono)$0.4610+
Google Cloud Speech-to-Text(標準)$1.44$1.44多数要確認

バッチ同士で比べると、GrokはDeepgramより78%安い、ElevenLabsより55%安い、AssemblyAIのbase料金と比べても33%安い。

Google STTに至っては93%の差。

ここまで来ると「安さ」ではなく「価格帯が違う」と言う方が近いです。

私の見方では、AssemblyAIのbase $0.15が今まで実質的な底値だったところに、いきなり$0.10で殴り込んできた構図です。

blockchain.newsは見出しで「xAI launches Grok speech APIs undercutting competitors by 60%」と書いていて、60%割安という表現も誇張ではないです。

Grok STT is now generally available, offering transcription across 25 languages with both batch and streaming modes.

— xAI公式リリース(x.ai/news/grok-stt-and-tts-apis

数字が冷静すぎる。

月20回1時間の会議を書き起こすと年間いくら?

取材ライター・ポッドキャスター・個人事業主のリアルな用途で試算します。

月20回×1時間の録音音声をバッチで書き起こすと仮定。

サービス月額年額(概算)
Grok STT$2.00(約300円)$24(約3,600円)
AssemblyAI(base)$3.00(約450円)$36(約5,400円)
ElevenLabs Scribe$4.40(約660円)$52.8(約7,900円)
OpenAI gpt-4o-transcribe$7.20(約1,080円)$86.4(約13,000円)
Deepgram Nova-3$9.20(約1,380円)$110.4(約16,600円)
Google STT(標準)$28.80(約4,320円)$345.6(約51,800円)

※為替は1ドル=150円換算。

Googleはデータログ非参加オプションで+40%追加になります。

Grokなら年3,600円。

ランチ1回分。

私がもし月20本のポッドキャストを回している立場なら、これだけ差が出るなら乗り換えの稟議を切ります。

Grok STTの精度はどのくらい?他のSTT APIと比べてどう?

xAI公式が発表したベンチマークの数字です。

サービス電話通話エンティティ認識(誤り率)動画/ポッドキャストWER
Grok STT5.0%2.4%
ElevenLabs12.0%2.4%
Deepgram13.5%3.0%
AssemblyAI21.3%3.2%

出典: MarkTechPost(2026年4月18日)および xAI公式

電話通話の数字が強烈です。

ウェールズ系の固有名詞と住宅ローン詳細の書き起こしでエンティティ認識を評価した、とxAIは明言しています。

固有名詞と数字が混ざる通話で5.0%。

AssemblyAIの21.3%と比べると、4倍の差。

ただ、この数字、鵜呑みにできるかは別問題。

独立ベンチマークとの食い違い

第三者機関のCodeSOTA Speech Leaderboardは全く別の順位を出しています。

Deepgram Nova-3: 2.2% WER(首位)/AssemblyAI Universal-2: 2.4% WER

CodeSOTA Speech Leaderboard(2026年4月)

xAIのGrokはランクインしていません(4月20日時点)。

独立機関の測定では、Deepgramが2.2%で首位、AssemblyAIが2.4%で2位。

xAI公式ベンチ(AssemblyAI 3.2%)と桁が違います。

業界識者の指摘も同じ方向です。

Published WER benchmarks often use clean, well-recorded audio... a provider showing 5% WER on benchmarks might deliver 15-20% WER on challenging production audio.

— 複数の独立STTレビュー記事(hackceleration.com他)

公開ベンチの5% WERが、ノイズ・訛り・重なりがある本番環境では15〜20%に跳ねる、という話。

Grok STTの2.4%も同じ前提で見た方が安全です。

料金破壊は本物ですが、精度の断定は公式数字だけで決めない方がいい。

Grok STTは日本語に対応してる?

xAI公式リリースは「25言語以上」とだけ明示しています。

具体的な言語リストはxAI公式ドキュメント(docs.x.ai/developers/model-capabilities/audio/voice)に掲載されていますが、4月20日時点でこのURLは外部アクセス時に403応答を返す状態です。

複数の海外メディアは「日本語を含むアジア太平洋言語に対応」と記載しています。

同じxAIのTTS API側の発表では「20+言語、アジア太平洋カバー」の文脈で日本語が挙げられており、STT側も同系統の言語カバレッジになっています。

日本語精度の独立ベンチ数字は現状ありません。

参考になるのは別製品のGrok Voice Agent APIの人間ブラインド評価で、こちらは日本語でOpenAIが優位(OpenAI 49.5% vs Grok 34.2%)という結果が出ています(出典: innovatopia.jp)。

STT単体とVoice Agentは別製品なので、同じ傾向とは限りません。

日本語案件で本番投入するなら、自社データでA/B測定する前提で見た方が無難です。

Grok STTにはどんな機能が入ってる?

公式が明示している主な機能を整理します。

  • Speaker diarization(話者分離): 複数話者を自動で分ける。インタビュー・会議で必須。
  • Word-level timestamps: 単語単位のタイムスタンプ。YouTube字幕(SRT)生成に直結。
  • Inverse Text Normalization: 「いちまんえん」を「1万円」、「よんがつじゅうはちにち」を「4月18日」に自動変換。議事録のそのまま使えるレベルに近づきます。
  • Multichannel対応: ステレオ録音の左右を別トラック扱いできる。コールセンターのオペレーター/顧客分離に使える。
  • 医療・法律・金融分野の業界用語への高精度認識をxAIは強調。

対応音声フォーマットは12種類

コンテナ9形式(WAV, MP3, OGG, Opus, FLAC, AAC, MP4, M4A, MKV)+ロー3形式(PCM, µ-law, A-law)。

1リクエストあたり最大ファイルサイズは500MBです。

ここも競合と比べて不足がない。

取材のICレコーダーからYouTubeのmp4まで、そのまま投げられる範囲が広いです。

Built on the same stack that powers Grok Voice, Tesla vehicles, and Starlink customer support.

— xAI公式アナウンス(MarkTechPost引用

Tesla車両とStarlinkカスタマーサポートで既に大規模実戦投入されているスタック、という主張。

これが本当なら、実本番での音声多様性・ノイズ耐性は相当鍛えられている計算になります。

無料枠はある?APIキーの発行と課金はどう設定する?

ここがハマりポイントです。

Grok STT APIに無料ティアは存在しません

サインアップ時の$25クレジットのみ。

APIキー発行にはxAIアカウントとクレジットカード登録が要ります。

無料で試したい派には刺さる条件。

ただバッチ$0.10/時間なので、$25あれば250時間分の書き起こしが試せる計算です。

事実上、初心者でも数十本の音声を無料クレジット内で触れる幅は残っています。

APIキーと課金上限の設定手順

xAI公式ドキュメント(docs.x.ai/console/billing)に沿った流れです。

各ステップに操作と詰まりどころを書きます。

  1. コンソール(console.x.ai)にログイン: xAIアカウントがなければ先にメール認証で作る。Xアカウントとは別物なので注意。
  2. Billing → API Creditsでクレジット購入: 最初は$10〜25で十分。Auto top-up(自動補充)はオフのままが安全。
  3. invoiced billing limitを明示設定: デフォルト$0=プリペイド残高消化で停止する仕様。残高超過の請求書発行を許す場合だけここを上げる。
  4. APIキー発行画面でキーを生成: 発行直後の1回しか全文表示されないので即パスワードマネージャに保存。閉じてしまったら再発行になる。
  5. daily/monthlyキャップを設定: 月$10程度を上限にしておくと、流出時の被害が天井で止まる。80%到達でメール警告。

ここで設定を後回しにするとキー流出時の天井が$0にならない状態が続きます。

私がもし試すなら、キー発行前にmonthly capを$10あたりで先に置きます。

これ必須作業。

日本企業で使う時のデータ保護はどうなってる?

音声データを海外APIに投げる論点、特に機微情報(医療・法務)を扱う人は無視できません。

xAIエンタープライズAPI利用規約には以下の記載があります。

xAI shall not use any User Content for any of its internal AI or other training purposes.

xAI Terms of Service - Enterprise

API利用者のデータはxAIの学習には使われない、という明示です。

コンシューマー版Grok(Xアプリ上)はデフォルトで学習に使われるのでオプトアウトが要りますが、API側は逆で、デフォルトで学習非使用です。

ただ、日本の個人情報保護法28条との関係では別論点が残ります。

「外国にある第三者への個人情報提供」には原則として①本人同意、または②基準適合体制整備が必要(出典: 牛島総合法律事務所)。

クラウド利用が必ずしも「第三者提供」に該当するわけではありませんが、外的環境把握義務(安全管理措置・当該国の制度確認)は発生します。

機微情報を含む音声(医療面談録、法務ヒアリング、顧客クレーム通話等)をGrok STTに投げる業務設計は、社内法務のレビューを通してから進めるのが筋です。

料金の安さだけで法務を後回しにするとあとで大火傷します。

Grok STTを使うべき人・やめた方がいい人

ここまでの数字と出典を踏まえた仕分け。

向いている慎重に判断すべき
  • 会議録・インタビューを月10〜100時間規模で書き起こしたい個人・小規模チーム
  • YouTube字幕(SRT)を大量に量産したい動画クリエイター
  • コールセンター録音を話者分離付きで社内分析したい企業
  • Deepgram/AssemblyAIから乗り換えでコストを1/4〜1/5にしたい人
  • 医療・法務・金融の機微情報を扱う業務(越境移転の法務確認先行)
  • 日本語精度を自社データで事前検証せずに本番投入する案件
  • Zapier/Make.com等のノーコード連携を主軸にしたいライト層(まだ公式コネクタなし)
  • APIドキュメントとコミュニティの厚みを重視する人(OpenAI比で薄め)

apiscout.devのレビューは「No native Zapier or Make.com connectors yet」「documentation lacks the depth of OpenAI's extensive cookbook」と指摘しています(出典: apiscout.dev)。

エコシステム成熟度はOpenAIにまだ差がある、という評価です。

私の見方では、料金×ベンチの押し出しが強烈なので「毎月のSTT固定費が跳ねている人」は乗り換え試算をやる価値があります。

一方、ノーコード連携と既存ワークフローの安定を優先する人は、半年くらい様子を見てから判断で十分。

Claude Codeから叩くならどんな流れになる?

非エンジニアでもClaude Code経由で触れる範囲の動線を1枚で。

3ステップで完結します。

  1. 音声ファイルを用意: mp3/wav/m4a等で500MB以下。長時間の会議は事前に区切っておく。詰まりどころ: 大きすぎるファイルはアップロードでタイムアウトする。
  2. Claude Codeに依頼: 「このファイルをGrok STT APIのバッチエンドポイントに投げて、話者分離と単語タイムスタンプ付きで返して」と頼む。結果はJSON形式で返ってくる。詰まりどころ: APIキーが未設定だと401エラーで止まる。事前に環境変数に入れておく。
  3. 整形を続けて依頼: 「返ってきたJSONを議事録形式(発言者・時刻・本文)に整形して」と渡す。字幕が要るなら「SRT字幕ファイルに変換して」で終了。詰まりどころ: 話者ラベルが「Speaker 1」のままなので、名前への置き換えは手動。

curl 1行とjq 1行の世界です。

1時間の会議音声を投げてバッチ処理するAPIエンドポイントは/v1/stt、認証はBearerトークン方式。

これ以上のコード詳細はxAI公式ドキュメント(docs.x.ai)に集約されています。

まとめ:Grok STT APIは「毎月のSTT固定費が重い人」にだけ刺さる

料金は破壊的です。

会議1時間15円、リアルタイム30円。

Deepgram/AssemblyAI/ElevenLabsから単純乗り換えでコストが1/4〜1/5。

ここは数字がそのまま語っています。

精度はxAI自社ベンチでは首位主張、独立ベンチでは未ランク入り。

日本語精度の独立数字はまだない。

機微情報を扱うなら越境移転論点を法務と詰める段階。

この3点は「安さに飛びつく前の確認リスト」です。

私の見方では、料金破壊はこのレベルになると「試算するだけでもやる価値がある」局面です。

月数千円〜数万円のSTT固定費を払っている人は、$25の無料クレジット内で手元の音声を10本ほど投げて、日本語精度を手元の案件で先に見てから本採用判断。

これが一番損しないルートです。

よくある質問(FAQ)

Q1. Grok STT APIはGrokチャットの音声入力と同じもの?

別物です。

Grokチャット(Xアプリ内)の音声入力やVoice Mode、別製品のGrok Voice Agent API($0.05/分)とは切り離された単体API。

今回リリースされたのは「音声ファイルを文字起こしする専用API」で、バッチ$0.10/時間、リアルタイム$0.20/時間の料金体系です。

Q2. 無料で試す方法はある?

無料ティアはありません。

ただしサインアップ時に$25のクレジットが付与されるので、実質的にバッチ処理で250時間分まで無料で触れます。

APIキー発行にはクレジットカード登録が必須。

Q3. 日本語の精度はDeepgramやOpenAI Whisperと比べてどう?

xAI公式の日本語WER数字は現状公開されていません。

xAI公式ベンチは英語中心の電話通話・動画・ポッドキャストで測定されたもの。

別製品のGrok Voice Agent APIの人間評価では日本語でOpenAIが優位(OpenAI 49.5% vs Grok 34.2%、出典: innovatopia.jp)という結果があるため、日本語案件では自社音声でのA/B比較が推奨されます。

Q4. speaker diarization(話者分離)の追加料金はかかる?

xAI公式の価格ページでは話者分離は標準機能として提示されており、AssemblyAIのようなアドオン料金の記載は確認されていません。

バッチ$0.10/時間のまま話者分離が使える仕様。

仕様の最新はxAI公式ドキュメントで要確認。

Q5. Zapier/Make.com連携はできる?

2026年4月時点でネイティブコネクタは公開されていません(出典: apiscout.dev)。

Webhook/HTTPリクエスト経由で叩く運用が基本になります。

Q6. 最大ファイルサイズと対応形式は?

最大500MB/リクエスト。

対応形式は12種類(WAV, MP3, OGG, Opus, FLAC, AAC, MP4, M4A, MKV+PCM, µ-law, A-law)。

ICレコーダー音声からYouTube mp4まで、主要フォーマットはそのまま投げられます。

このページに出てきた言葉

STT(Speech-to-Text)
音声を文字に書き起こすサービス
TTS(Text-to-Speech)
STTの逆で、文字を音声化するサービス
API
他社のサービスをプログラムから呼び出す窓口
バッチ処理
録音済みファイルをまとめて投げて、後から結果を受け取る方式
リアルタイム処理(streaming)
話している声を流し込みながら、その場で文字を返す方式
WER(Word Error Rate)
単語誤り率。書き起こしのうち何%の単語が間違っていたかを示す
エンティティ認識
人名・地名・金額・日付など固有要素を正しく書き取れたかの評価
話者分離(diarization)
録音内で誰が話しているかを自動で区切る機能
越境移転
日本国内の個人情報を海外に送ること。個人情報保護法28条の対象
機微情報
病歴・犯罪歴・人種など、漏れると不利益が大きい個人情報
APIキー
APIを呼ぶときに「呼び出している側はこのアカウント」と証明する合言葉
エンドポイント
APIが用意している宛先URL(例: /v1/stt
Bearerトークン
APIキーをヘッダーに添えて認証するHTTPの標準方式
SRT
動画字幕の標準フォーマット。時刻と字幕本文が並んだテキストファイル
PAYG
Pay As You Goの略。使った分だけ後払いの従量課金

参考リンク

※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。

-AI活用全般
-, , , ,

← 戻る