Googleの最新AI音声「Gemini 3.1 Flash TTS」は、テキストを自然な音声に変えてくれます。
しかも[whispers]って書くとささやき声に、[excitedly]って書くと興奮した声になる。
200種類以上の「Audio Tags」で、声の感情・速度・スタイルを1文単位で操れます。
70以上の言語に対応。
日本語もOK。
Google AI Studioで無料で試せます。
この記事はポッドキャストや動画ナレーションをAI音声で作りたい人向け(録音や編集ソフトを触ったことがなくても読めます)。
「AIの読み上げって、棒読みで使えない」
「感情のある音声を作りたいけど、録音するのは面倒」
このAudio Tagsがあれば、テキストに[happy]とか[very slowly]って書き込むだけ。
映画の監督みたいに、声の演技指導ができます。
ポッドキャストを作りたい人。
動画にナレーションを入れたい人。
多言語の音声コンテンツが必要な人。
そんな人向けの記事です。
Gemini TTSは従来のAI読み上げと何が違う?
従来のAI読み上げと比べてみます。
| 項目 | 従来のAI読み上げ | Gemini 3.1 Flash TTS |
|---|---|---|
| 感情の制御 | スライダーで調整 or 固定 | テキスト内に[happy]等のタグを埋め込む |
| 制御の粒度 | 全体の声質を変える | 1文ごとに感情・速度を切り替え可能 |
| 操作方法 | UIでパラメータをいじる | テキストに自然言語で指示を書くだけ |
| 多言語 | 言語ごとに声を設定 | 70言語以上、自動検出 |
| 透かし | ツールによる | SynthID自動付与(AI生成が検出可能) |
一番の違いは「制御方法」です。
従来のツールは、声の感情をスライダーやプリセットで変えてた。
全体を「明るめ」にするか「落ち着き」にするか。
でも1文目は嬉しそうで、2文目は真面目に、みたいなことはできなかった。
Gemini TTSは違います。
テキストの中に[excitedly]とか[serious]って書くだけ。
その場所から声のトーンが変わる。
映画の台本に「(嬉しそうに)」って書くのと同じ感覚です。
しかもタグは200種類以上。
[whispers](ささやく)、[sarcastic](皮肉っぽく)、[panicked](パニック風に)。
さらに[like dracula](ドラキュラ風に)、[singing](歌うように)、[asmr](ASMR風に)。
公式が「使えるタグに制限はない。クリエイティブに使って」と言ってるレベル。
テキスト内にインラインで演技指導を埋め込めるTTSは、かなり独特です。
Gemini TTSのAudio Tagsはどう使う?
Audio Tagsの使い方はとてもシンプルです。
テキストの中に角カッコ[ ]でタグを挟むだけ。
実際の例を見たほうが早いです。
「[neutral] こんにちは。
City航空からの自動メッセージです。
[short pause] お客様のフライト、[slow] C A 4 2 7 便は変更されました。
[positive] 新しい出発時刻は午前8時45分、ゲートB12です。
[fast] ただちにゲートにお進みください。
搭乗は5分以内に開始します。
」
最初は普通のトーン。
便名はゆっくり読み上げ。
新しい時刻は明るいトーン。
最後は急いでる感じで速く。
1つのテキストの中で、感情がどんどん変わる。
これがAudio Tagsの力です。
Gemini TTSでよく使うAudio Tagsは?
使えるタグのジャンルは大きく3つ。
感情系
[happy]、[sad]、[angry]、[excited]、[nervous]。
[amazed](驚き)、[curious](好奇心)、[tired](疲れた)。
[sarcastic](皮肉っぽく)、[mischievously](いたずらっぽく)。
速度・間
[very fast]、[very slowly]。
[short pause]、[long pause]。
[one painfully slow word at a time](1語ずつめちゃくちゃゆっくり)。
効果音・特殊
[whispers]、[shouting]、[singing]。
[gasp](息を飲む)、[sighs](ため息)、[giggles](くすくす笑い)。
[cough](咳)、[snorts](鼻で笑う)。
しかもこれ、公式リストだけじゃない。
[like dracula]とか[asmr]とか、オリジナルのタグも通ります。
公式が「クリエイティブに使って」と言ってるので、試す価値あり。
Gemini TTSの3層制御(Audio Profile・Scene・Director's Notes)とは?
キャラ設定(声の人物像)
場面の雰囲気
全体のスタイル指示
Audio Tagsは「インラインの演技指導」。
でもGemini TTSにはもう2つ、声を制御する仕組みがある。
合わせて3層で、声の全体像をコントロールできます。
| 層 | 役割 | 例 |
|---|---|---|
| Audio Profile | キャラクター設定(声の人物像) | 「30代の女性ラジオDJ。声は明るくてテンポが速い」 |
| Scene | 場面の雰囲気 | 「明るいスタジオ」「静かな夜のカフェ」「緊迫したニュース速報」 |
| Director's Notes | 全体のスタイル指示 | 「テンポ速め」「イギリス英語のアクセント」「落ち着いた語り口」 |
たとえばポッドキャストを作るなら、Audio Profileで「30代男性、落ち着いた声のニュースキャスター」と設定。
Sceneで「静かなラジオブース」。
Director's Notesで「テンポはゆっくり、間を大事に」。
この3つで全体の雰囲気を固めて、個別の強調にAudio Tags([excited]や[pause])を使う。
映画に例えるなら、Audio Profileがキャスティング、Sceneがロケ地、Director's Notesが監督の演出方針。
Audio Tagsは台本の中の演技指導。
全部を設定しなくてもAudio Tagsだけで十分動きます。
でもこの3層を使うと、一貫性のある「キャラクターの声」が作れる。
Gemini TTSでポッドキャストの原稿を読み上げられる?
これが一番実用的な使い方。
ポッドキャストの台本を書いて、Audio Tagsで感情を指定する。
たとえばニュース系のポッドキャスト。
「[neutral] 今日のAIニュースです。
[short pause] まず1つ目。
[excitedly] Googleが新しいTTSモデルを発表しました。
[serious] ただし、いくつかの注意点があります。
」
これだけで、抑揚のあるナレーションが作れる。
録音の必要がない。
編集ソフトで音量やテンポを調整する手間もない。
テキストにタグを書き込むだけで「完成品」が出てくる。
しかも70言語対応なので、同じ台本を英語版、中国語版と展開できます。
マルチスピーカーにも対応してて、最大2人の話者を設定して対話形式の音声が作れます。
ポッドキャストの対談形式にも使える。
Gemini TTSで動画のナレーションは作れる?
作れます。YouTubeやTikTokのナレーション用途にも使える。
たとえば料理動画。
「[calm] まず卵を3つ、ボウルに割ります。
[short pause] [cheerful] 混ぜ方のコツは、手首を使ってリズミカルに。
[whispers] ここ、実は一番大事なポイントです。
」
プロっぽい抑揚のナレーションが、テキスト入力だけで作れる。
声に自信がない人にとっては、ありがたい機能です。
私はTikTokのナレーションに使いたいと思って試した。
Audio Tagsで感情を入れた読み上げは確かに自然。
ただ日本語でのタグの効き方は英語ほど繊細じゃない。
[excited]や[whispers]は効くけど、[sarcastic]みたいなニュアンス系は英語のほうが断然うまい。
日本語メインで使うなら、感情系より速度・間のタグ([slow]、[pause])のほうが確実に効きます。
Gemini TTSで多言語の音声コンテンツは作れる?
ここがGemini TTSの強み。
70以上の言語に対応してて、日本語も含まれてます。
言語の自動検出機能があるので、日本語のテキストを入れれば日本語で読み上げてくれる。
英語を入れれば英語で読み上げる。
切り替えの手間がない。
海外向けのコンテンツを作ってる人にとっては、これだけで価値がある。
同じ台本を各言語に翻訳して、全部Gemini TTSに読ませれば、多言語音声コンテンツが一気にできます。
Gemini TTSに必要なものは?
| 項目 | 内容 |
|---|---|
| ツール | Google AI Studio(aistudio.google.com) |
| 料金 | プレビュー期間中は無料で試せる |
| アカウント | Googleアカウント(必須) |
| 日本語 | 対応。70以上の言語をサポート |
| モデル名 | gemini-3.1-flash-tts-preview |
| 必要スキル | なし。テキストを書くだけ |
| 透かし | SynthIDが自動付与(AI生成検出用) |
Googleアカウントがあれば誰でも試せます。
プレビュー段階なので、正式版になった時の料金は未確定。
でも今は無料で使える。
プレビュー期間中に触っておくのがおすすめです。
Gemini TTSの使い方は?ステップで解説
ステップ1:Google AI Studioにアクセス
aistudio.google.com/generate-speech にアクセスします。
Googleアカウントでログイン。
ステップ2:テキストを入力する
読み上げたいテキストを入力欄に貼ります。
Audio Tagsを入れたい場所に角カッコでタグを書く。
例:「[cheerful] おはようございます。
[short pause] 今日もいい天気ですね。
」
ステップ3:3層設定を使う(任意)
もっとこだわりたいなら、Audio Profile・Scene・Director's Notesの3層を設定できます。
まずはAudio Tagsだけで十分。
慣れてきたら3層を使ってキャラクターの一貫性を出す。
ステップ4:音声を生成する
「Generate」ボタンを押すと音声が生成されます。
プレビューで聴いてみて、気になるところがあればタグを調整。
[happy]が強すぎたら[slightly happy]にしてみるとか。
ステップ5:ダウンロードする
気に入った音声をダウンロード。動画編集ソフトやポッドキャスト配信に使えます。
生成された音声にはSynthIDの透かしが自動で入ります。
これはAIが作った音声であることを検出するための仕組みで、聴いてもわかりません。
Gemini TTSのよくある疑問は?
Q. 日本語の音声は自然?
日本語は対応言語に含まれていて、自動検出で認識します。
基本的な読み上げは自然。
ただしAudio Tagsの効き方は英語に比べると差がある。
感情系のニュアンスタグ([sarcastic]、[mischievously]等)は英語のほうが効きがいい。
日本語では[happy]、[sad]などの基本感情と、速度・間のタグを中心に使うのが実用的です。
Q. 商用利用できる?
プレビュー段階の利用規約はGoogle AI Studioの規約に従います。
正式リリース後の商用利用条件は未確定。
商用で使う予定なら、正式版のライセンス条件を確認してから使ってください。
Q. ElevenLabsとどっちがいい?
得意分野が違います。
| 観点 | Gemini TTS | ElevenLabs |
|---|---|---|
| 最大の強み | Audio Tagsで1文ごとに感情制御 | 声のクローン(手元で録音した声をAIに覚えさせる) |
| 操作方法 | テキストにタグを書く | UIでパラメータ調整 |
| 多言語 | 70言語以上 | 32言語 |
| 料金 | プレビュー中は無料 | 無料枠あり、Pro月$5〜 |
| 向いてる用途 | 台本ベースのナレーション | 声を持ち主そっくりに合成したい場合 |
「テキストだけで感情豊かな音声を作りたい」→ Gemini TTS。
「手元の声で読み上げたい」→ ElevenLabs。
両方試して使い分けるのがベスト。
Q. マルチスピーカー対応してる?
対応してます。
最大2人の話者を設定して、対話形式の音声が作れます。
ポッドキャストの対談形式に使えます。
Gemini TTSの注意点と限界は?
まだプレビュー段階です。正式リリースまでに仕様が変わる可能性があります。
Audio Tagsの効き方は言語によって差がある。
英語では完璧に効くタグが、日本語だとニュアンスが弱い場合がある。
これは実際に試して確認するしかない。
生成できる音声の長さに制限があります。
1セッションのコンテキストは32,000トークン。
長い原稿を一気に読ませるのは難しいので、章ごとに分けて生成するのが現実的。
そしてSynthIDの透かしが全音声に入ります。
聴いても気づかないレベルですが、AI生成音声だと検出される仕組み。
悪いことじゃないけど、知っておいたほうがいい。
私が使ってみた限りでの正直な評価をまとめるとこう。
| ポイント | 評価 |
|---|---|
| 英語の感情表現 | ◎ 非常に自然。タグがよく効く |
| 日本語の基本読み上げ | ○ 十分使える |
| 日本語の感情タグ | △ 基本感情は効くが、ニュアンス系は弱い |
| 速度・間のタグ | ○ 言語問わず安定 |
| 3層制御 | ○ 一貫性のある声が作れる |
Gemini TTSが広まると何が変わる?
「声」のハードルが消える。
今まで音声コンテンツを作るには、録音環境とか声の良さとか、いろいろ必要だった。
でもGemini TTSがあれば、テキストを書くだけ。
しかも感情まで指定できる。
つまり「文章が書ける人は、音声コンテンツも作れる」ようになる。
ポッドキャスト、ナレーション、教材の読み上げ。
全部テキストベースで制作できる時代が来てます。
私の場合、TikTokのナレーションに使おうと考えてます。
台本にAudio Tagsを入れて、感情のある読み上げを付ける。
多言語展開も、同じ台本を翻訳してGemini TTSに読ませるだけで済む。
「声がないから音声コンテンツは無理」という壁が、なくなりつつあります。
まとめ
Gemini 3.1 Flash TTSは、Audio Tagsで声の感情・速度・スタイルを文ごとに制御できるAI音声ツールです。
70言語対応、日本語OK、Google AI Studioで無料で試せます。
まずはaistudio.google.com/generate-speechにアクセスして、短いテキストに[happy]や[whispers]を入れて生成してみてください。
3回試せば、Audio Tagsのコツがつかめます。
このページに出てきた言葉
- TTS(Text-to-Speech)
- テキストを音声に変換する技術。読み上げソフトやスマホの音声ナビ機能はこれで動いている
- Audio Tags
- テキストに [happy] [whispers] のような角カッコ付きキーワードを埋め込むと、その場所から声のトーンや速度を切り替えられる仕組み
- Audio Profile
- 声を出す「人物」の設定。年齢・性別・職業・声質などを言葉で指定すると、その人物像に合った声で読み上げてくれる
- Scene
- 場面の雰囲気指定。「明るいスタジオ」「夜のカフェ」など、どんな空間で話している声かを決めると音声の雰囲気が変わる
- Director's Notes
- 直訳すると「監督の指示書」。テンポ・アクセント・全体の語り口など、読み上げ全体のスタイルを文章でまとめて指定する欄
- マルチスピーカー
- 1つの音声ファイルの中で複数の話者の声を切り替える機能。Gemini TTSは最大2人まで対応
- SynthID
- Googleの電子透かし技術。AIが生成した音声・画像に、肉眼や耳では気づかない印を埋め込んで「これはAI製」と検出できるようにする
- プレビュー段階
- 正式リリース前の「お試し公開」期間。機能・料金・利用規約が今後変わる可能性がある状態。逆に言うと、この時期は無料で使える機能が多い
- モデル名
- AIの個体識別名。Geminiは用途別に複数のモデルが並行運用されていて、TTS用は「gemini-3.1-flash-tts-preview」
- トークン
- AIがテキストを処理するときの最小単位。日本語だと1文字あたり1〜2トークン換算が目安。32,000トークンは2万〜3万字相当
- ボイスクローン
- 人間の話し声を数十秒〜数分のサンプル録音から学習させて、その声で別の文章を読み上げさせる技術。ElevenLabsの看板機能
参考リンク
※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。