Googleの最新AI音声「Gemini 3.1 Flash TTS」は、
テキストを自然な音声に変えてくれます。
しかも[whispers]って書くとささやき声に、
[excitedly]って書くと興奮した声になる。
200種類以上の「Audio Tags」で、
声の感情・速度・スタイルを1文単位で操れます。
70以上の言語に対応。
日本語もOK。
Google AI Studioで無料で試せます。
「AIの読み上げって、棒読みで使えない」
「感情のある音声を作りたいけど、録音するのは面倒」
このAudio Tagsがあれば、
テキストに[happy]とか[very slowly]って書き込むだけ。
映画の監督みたいに、
声の演技指導ができます。
ポッドキャストを作りたい人。
動画にナレーションを入れたい人。
多言語の音声コンテンツが必要な人。
そんな人向けの記事です。
Gemini TTSは従来のAI読み上げと何が違う?
従来のAI読み上げと比べてみます。
| 項目 | 従来のAI読み上げ | Gemini 3.1 Flash TTS |
|---|---|---|
| 感情の制御 | スライダーで調整 or 固定 | テキスト内に[happy]等のタグを埋め込む |
| 制御の粒度 | 全体の声質を変える | 1文ごとに感情・速度を切り替え可能 |
| 操作方法 | UIでパラメータをいじる | テキストに自然言語で指示を書くだけ |
| 多言語 | 言語ごとに声を設定 | 70言語以上、自動検出 |
| 透かし | ツールによる | SynthID自動付与(AI生成が検出可能) |
一番の違いは「制御方法」です。
従来のツールは、
声の感情をスライダーやプリセットで変えてた。
全体を「明るめ」にするか「落ち着き」にするか。
でも1文目は嬉しそうで、
2文目は真面目に、
みたいなことはできなかった。
Gemini TTSは違います。
テキストの中に[excitedly]とか[serious]って書くだけ。
その場所から声のトーンが変わる。
映画の台本に「(嬉しそうに)」って書くのと同じ感覚です。
しかもタグは200種類以上。
[whispers](ささやく)、
[sarcastic](皮肉っぽく)、
[panicked](パニック風に)。
さらに[like dracula](ドラキュラ風に)、
[singing](歌うように)、
[asmr](ASMR風に)。
公式が「使えるタグに制限はない。クリエイティブに使って」と言ってるレベル。
テキスト内にインラインで演技指導を埋め込めるTTSは、かなり独特です。
Gemini TTSのAudio Tagsはどう使う?
Audio Tagsの使い方はとてもシンプルです。
テキストの中に角カッコ[ ]でタグを挟むだけ。
実際の例を見たほうが早いです。
「[neutral] こんにちは。
City航空からの自動メッセージです。
[short pause] お客様のフライト、
[slow] C A 4 2 7 便は変更されました。
[positive] 新しい出発時刻は午前8時45分、
ゲートB12です。
[fast] ただちにゲートにお進みください。
搭乗は5分以内に開始します。
」
最初は普通のトーン。
便名はゆっくり読み上げ。
新しい時刻は明るいトーン。
最後は急いでる感じで速く。
1つのテキストの中で、
感情がどんどん変わる。
これがAudio Tagsの力です。
Gemini TTSでよく使うAudio Tagsは?
使えるタグのジャンルは大きく3つ。
感情系
[happy]、
[sad]、
[angry]、
[excited]、
[nervous]。
[amazed](驚き)、
[curious](好奇心)、
[tired](疲れた)。
[sarcastic](皮肉っぽく)、
[mischievously](いたずらっぽく)。
速度・間
[very fast]、
[very slowly]。
[short pause]、
[long pause]。
[one painfully slow word at a time](1語ずつめちゃくちゃゆっくり)。
効果音・特殊
[whispers]、
[shouting]、
[singing]。
[gasp](息を飲む)、
[sighs](ため息)、
[giggles](くすくす笑い)。
[cough](咳)、
[snorts](鼻で笑う)。
しかもこれ、
公式リストだけじゃない。
[like dracula]とか[asmr]とか、
オリジナルのタグも通ります。
公式が「クリエイティブに使って」と言ってるので、
試す価値あり。
Gemini TTSの3層制御(Audio Profile・Scene・Director's Notes)とは?
キャラ設定(声の人物像)
場面の雰囲気
全体のスタイル指示
Audio Tagsは「インラインの演技指導」。
でもGemini TTSにはもう2つ、
声を制御する仕組みがある。
合わせて3層で、声の全体像をコントロールできます。
| 層 | 役割 | 例 |
|---|---|---|
| Audio Profile | キャラクター設定(声の人物像) | 「30代の女性ラジオDJ。声は明るくてテンポが速い」 |
| Scene | 場面の雰囲気 | 「明るいスタジオ」「静かな夜のカフェ」「緊迫したニュース速報」 |
| Director's Notes | 全体のスタイル指示 | 「テンポ速め」「イギリス英語のアクセント」「落ち着いた語り口」 |
たとえばポッドキャストを作るなら、
Audio Profileで「30代男性、
落ち着いた声のニュースキャスター」と設定。
Sceneで「静かなラジオブース」。
Director's Notesで「テンポはゆっくり、
間を大事に」。
この3つで全体の雰囲気を固めて、
個別の強調にAudio Tags([excited]や[pause])を使う。
映画に例えるなら、
Audio Profileがキャスティング、
Sceneがロケ地、
Director's Notesが監督の演出方針。
Audio Tagsは台本の中の演技指導。
全部を設定しなくてもAudio Tagsだけで十分動きます。
でもこの3層を使うと、
一貫性のある「キャラクターの声」が作れる。
Gemini TTSでポッドキャストの原稿を読み上げられる?
これが一番実用的な使い方。
ポッドキャストの台本を書いて、Audio Tagsで感情を指定する。
たとえばニュース系のポッドキャスト。
「[neutral] 今日のAIニュースです。
[short pause] まず1つ目。
[excitedly] Googleが新しいTTSモデルを発表しました。
[serious] ただし、
いくつかの注意点があります。
」
これだけで、
抑揚のあるナレーションが作れる。
録音の必要がない。
編集ソフトで音量やテンポを調整する手間もない。
テキストにタグを書き込むだけで「完成品」が出てくる。
しかも70言語対応なので、同じ台本を英語版、中国語版と展開できます。
マルチスピーカーにも対応してて、
最大2人の話者を設定して対話形式の音声が作れます。
ポッドキャストの対談形式にも使える。
Gemini TTSで動画のナレーションは作れる?
作れます。YouTubeやTikTokのナレーション用途にも使える。
たとえば料理動画。
「[calm] まず卵を3つ、
ボウルに割ります。
[short pause] [cheerful] 混ぜ方のコツは、
手首を使ってリズミカルに。
[whispers] ここ、
実は一番大事なポイントです。
」
プロっぽい抑揚のナレーションが、
テキスト入力だけで作れる。
声に自信がない人にとっては、
ありがたい機能です。
私はTikTokのナレーションに使いたいと思って試した。
Audio Tagsで感情を入れた読み上げは確かに自然。
ただ正直に言うと、
日本語でのタグの効き方は英語ほど繊細じゃない。
[excited]や[whispers]は効くけど、
[sarcastic]みたいなニュアンス系は英語のほうが断然うまい。
日本語メインで使うなら、
感情系より速度・間のタグ([slow]、
[pause])のほうが確実に効きます。
Gemini TTSで多言語の音声コンテンツは作れる?
ここがGemini TTSの強み。
70以上の言語に対応してて、
日本語も含まれてます。
言語の自動検出機能があるので、
日本語のテキストを入れれば日本語で読み上げてくれる。
英語を入れれば英語で読み上げる。
切り替えの手間がない。
海外向けのコンテンツを作ってる人にとっては、
これだけで価値がある。
同じ台本を各言語に翻訳して、
全部Gemini TTSに読ませれば、
多言語音声コンテンツが一気にできます。
Gemini TTSに必要なものは?
| 項目 | 内容 |
|---|---|
| ツール | Google AI Studio(aistudio.google.com) |
| 料金 | プレビュー期間中は無料で試せる |
| アカウント | Googleアカウント(必須) |
| 日本語 | 対応。70以上の言語をサポート |
| モデル名 | gemini-3.1-flash-tts-preview |
| 必要スキル | なし。テキストを書くだけ |
| 透かし | SynthIDが自動付与(AI生成検出用) |
Googleアカウントがあれば誰でも試せます。
プレビュー段階なので、
正式版になった時の料金は未確定。
でも今は無料で使える。
プレビュー期間中に触っておくのがおすすめです。
Gemini TTSの使い方は?ステップで解説
ステップ1:Google AI Studioにアクセス
aistudio.google.com/generate-speech にアクセスします。
Googleアカウントでログイン。
ステップ2:テキストを入力する
読み上げたいテキストを入力欄に貼ります。
Audio Tagsを入れたい場所に角カッコでタグを書く。
例:「[cheerful] おはようございます。
[short pause] 今日もいい天気ですね。
」
ステップ3:3層設定を使う(任意)
もっとこだわりたいなら、
Audio Profile・Scene・Director's Notesの3層を設定できます。
まずはAudio Tagsだけで十分。
慣れてきたら3層を使ってキャラクターの一貫性を出す。
ステップ4:音声を生成する
「Generate」ボタンを押すと音声が生成されます。
プレビューで聴いてみて、
気になるところがあればタグを調整。
[happy]が強すぎたら[slightly happy]にしてみるとか。
ステップ5:ダウンロードする
気に入った音声をダウンロード。動画編集ソフトやポッドキャスト配信に使えます。
生成された音声にはSynthIDの透かしが自動で入ります。
これはAIが作った音声であることを検出するための仕組みで、
聴いてもわかりません。
Gemini TTSのよくある疑問は?
Q. 日本語の音声は自然?
日本語は対応言語に含まれていて、
自動検出で認識します。
基本的な読み上げは自然。
ただしAudio Tagsの効き方は英語に比べると差がある。
感情系のニュアンスタグ([sarcastic]、
[mischievously]等)は英語のほうが効きがいい。
日本語では[happy]、
[sad]などの基本感情と、
速度・間のタグを中心に使うのが実用的です。
Q. 商用利用できる?
プレビュー段階の利用規約はGoogle AI Studioの規約に従います。
正式リリース後の商用利用条件は未確定。
商用で使う予定なら、
正式版のライセンス条件を確認してから使ってください。
Q. ElevenLabsとどっちがいい?
得意分野が違います。
| 観点 | Gemini TTS | ElevenLabs |
|---|---|---|
| 最大の強み | Audio Tagsで1文ごとに感情制御 | 声のクローン(自分の声をAIに覚えさせる) |
| 操作方法 | テキストにタグを書く | UIでパラメータ調整 |
| 多言語 | 70言語以上 | 32言語 |
| 料金 | プレビュー中は無料 | 無料枠あり、Pro月$5〜 |
| 向いてる用途 | 台本ベースのナレーション | 自分の声で読み上げたい場合 |
「テキストだけで感情豊かな音声を作りたい」→ Gemini TTS。
「自分の声で読み上げたい」→ ElevenLabs。
両方試して使い分けるのがベスト。
Q. マルチスピーカー対応してる?
対応してます。
最大2人の話者を設定して、
対話形式の音声が作れます。
ポッドキャストの対談形式に使えます。
Gemini TTSの注意点と限界は?
まだプレビュー段階です。正式リリースまでに仕様が変わる可能性があります。
Audio Tagsの効き方は言語によって差がある。
英語では完璧に効くタグが、
日本語だとニュアンスが弱い場合がある。
これは実際に試して確認するしかない。
生成できる音声の長さに制限があります。
1セッションのコンテキストは32,000トークン。
長い原稿を一気に読ませるのは難しいので、
章ごとに分けて生成するのが現実的。
そしてSynthIDの透かしが全音声に入ります。
聴いても気づかないレベルですが、
AI生成音声だと検出される仕組み。
悪いことじゃないけど、
知っておいたほうがいい。
私が使ってみた限りでの正直な評価をまとめるとこう。
| ポイント | 評価 |
|---|---|
| 英語の感情表現 | ◎ 非常に自然。タグがよく効く |
| 日本語の基本読み上げ | ○ 十分使える |
| 日本語の感情タグ | △ 基本感情は効くが、ニュアンス系は弱い |
| 速度・間のタグ | ○ 言語問わず安定 |
| 3層制御 | ○ 一貫性のある声が作れる |
Gemini TTSが広まると何が変わる?
「声」のハードルが消える。
今まで音声コンテンツを作るには、
録音環境とか声の良さとか、
いろいろ必要だった。
でもGemini TTSがあれば、
テキストを書くだけ。
しかも感情まで指定できる。
つまり「文章が書ける人は、音声コンテンツも作れる」ようになる。
ポッドキャスト、
ナレーション、
教材の読み上げ。
全部テキストベースで制作できる時代が来てます。
私の場合、
TikTokのナレーションに使おうと考えてます。
台本にAudio Tagsを入れて、
感情のある読み上げを付ける。
多言語展開も、
同じ台本を翻訳してGemini TTSに読ませるだけで済む。
「声がないから音声コンテンツは無理」という壁が、なくなりつつあります。
まとめ
Gemini 3.1 Flash TTSは、
Audio Tagsで声の感情・速度・スタイルを文ごとに制御できるAI音声ツールです。
70言語対応、日本語OK、Google AI Studioで無料で試せます。
まずはaistudio.google.com/generate-speechにアクセスして、
短いテキストに[happy]や[whispers]を入れて生成してみてください。
3回試せば、Audio Tagsのコツがつかめます。
参考リンク
※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。