AI活用全般

Gemini 3.1 Flash TTSの使い方|Audio Tagsで声の感情まで操れるAI音声

Googleの最新AI音声「Gemini 3.1 Flash TTS」は、
テキストを自然な音声に変えてくれます。
しかも[whispers]って書くとささやき声に、
[excitedly]って書くと興奮した声になる。
200種類以上の「Audio Tags」で、
声の感情・速度・スタイルを1文単位で操れます。

70以上の言語に対応。
日本語もOK。
Google AI Studioで無料で試せます。

「AIの読み上げって、棒読みで使えない」

「感情のある音声を作りたいけど、録音するのは面倒」

このAudio Tagsがあれば、
テキストに[happy]とか[very slowly]って書き込むだけ。
映画の監督みたいに、
声の演技指導ができます。

ポッドキャストを作りたい人。
動画にナレーションを入れたい人。
多言語の音声コンテンツが必要な人。
そんな人向けの記事です。

Gemini TTSは従来のAI読み上げと何が違う?

従来のAI読み上げ
スライダーやプリセットで声質を調整。全体の雰囲気を「明るめ」「落ち着き」に変えるだけ。1文ごとの感情切り替えはできない。
Gemini 3.1 Flash TTS
テキストに[happy]や[whispers]を書くだけ。1文単位で感情・速度・スタイルを切り替え可能。200種類以上のAudio Tags。

従来のAI読み上げと比べてみます。

項目従来のAI読み上げGemini 3.1 Flash TTS
感情の制御スライダーで調整 or 固定テキスト内に[happy]等のタグを埋め込む
制御の粒度全体の声質を変える1文ごとに感情・速度を切り替え可能
操作方法UIでパラメータをいじるテキストに自然言語で指示を書くだけ
多言語言語ごとに声を設定70言語以上、自動検出
透かしツールによるSynthID自動付与(AI生成が検出可能)

一番の違いは「制御方法」です。

従来のツールは、
声の感情をスライダーやプリセットで変えてた。
全体を「明るめ」にするか「落ち着き」にするか。
でも1文目は嬉しそうで、
2文目は真面目に、
みたいなことはできなかった。

Gemini TTSは違います。
テキストの中に[excitedly]とか[serious]って書くだけ。
その場所から声のトーンが変わる。

映画の台本に「(嬉しそうに)」って書くのと同じ感覚です。

しかもタグは200種類以上。
[whispers](ささやく)、
[sarcastic](皮肉っぽく)、
[panicked](パニック風に)。
さらに[like dracula](ドラキュラ風に)、
[singing](歌うように)、
[asmr](ASMR風に)。

公式が「使えるタグに制限はない。クリエイティブに使って」と言ってるレベル。

テキスト内にインラインで演技指導を埋め込めるTTSは、かなり独特です。

Gemini TTSのAudio Tagsはどう使う?

STEP 1
テキストを書く
読み上げたい原稿
STEP 2
[タグ]を埋め込む
角カッコで感情を指定
STEP 3
1文ごとに声が変わる
感情・速度が自在に

Audio Tagsの使い方はとてもシンプルです。
テキストの中に角カッコ[ ]でタグを挟むだけ。

実際の例を見たほうが早いです。

「[neutral] こんにちは。
City航空からの自動メッセージです。
[short pause] お客様のフライト、
[slow] C A 4 2 7 便は変更されました。
[positive] 新しい出発時刻は午前8時45分、
ゲートB12です。
[fast] ただちにゲートにお進みください。
搭乗は5分以内に開始します。

最初は普通のトーン。
便名はゆっくり読み上げ。
新しい時刻は明るいトーン。
最後は急いでる感じで速く。

1つのテキストの中で、
感情がどんどん変わる。
これがAudio Tagsの力です。

Gemini TTSでよく使うAudio Tagsは?

😊
感情系
[happy] [sad] [excited]
声のトーンを切り替え
速度・間
[very fast] [slow] [pause]
テンポと間を制御
🎤
効果音・特殊
[whispers] [singing] [gasp]
演技・効果を追加

使えるタグのジャンルは大きく3つ。

感情系

[happy]、
[sad]、
[angry]、
[excited]、
[nervous]。
[amazed](驚き)、
[curious](好奇心)、
[tired](疲れた)。
[sarcastic](皮肉っぽく)、
[mischievously](いたずらっぽく)。

速度・間

[very fast]、
[very slowly]。
[short pause]、
[long pause]。
[one painfully slow word at a time](1語ずつめちゃくちゃゆっくり)。

効果音・特殊

[whispers]、
[shouting]、
[singing]。
[gasp](息を飲む)、
[sighs](ため息)、
[giggles](くすくす笑い)。
[cough](咳)、
[snorts](鼻で笑う)。

しかもこれ、
公式リストだけじゃない。
[like dracula]とか[asmr]とか、
オリジナルのタグも通ります。
公式が「クリエイティブに使って」と言ってるので、
試す価値あり。

Gemini TTSの3層制御(Audio Profile・Scene・Director's Notes)とは?

🎭 Audio Profile
キャラ設定(声の人物像)
🎬 Scene
場面の雰囲気
🎜 Director's Notes
全体のスタイル指示
🎤 Audio Tags ─ 台本内の演技指導(1文ごと)

Audio Tagsは「インラインの演技指導」。
でもGemini TTSにはもう2つ、
声を制御する仕組みがある。

合わせて3層で、声の全体像をコントロールできます。

役割
Audio Profileキャラクター設定(声の人物像)「30代の女性ラジオDJ。声は明るくてテンポが速い」
Scene場面の雰囲気「明るいスタジオ」「静かな夜のカフェ」「緊迫したニュース速報」
Director's Notes全体のスタイル指示「テンポ速め」「イギリス英語のアクセント」「落ち着いた語り口」

たとえばポッドキャストを作るなら、
Audio Profileで「30代男性、
落ち着いた声のニュースキャスター」と設定。
Sceneで「静かなラジオブース」。
Director's Notesで「テンポはゆっくり、
間を大事に」。

この3つで全体の雰囲気を固めて、
個別の強調にAudio Tags([excited]や[pause])を使う。

映画に例えるなら、
Audio Profileがキャスティング、
Sceneがロケ地、
Director's Notesが監督の演出方針。
Audio Tagsは台本の中の演技指導。

全部を設定しなくてもAudio Tagsだけで十分動きます。
でもこの3層を使うと、
一貫性のある「キャラクターの声」が作れる。

Gemini TTSでポッドキャストの原稿を読み上げられる?

ポッドキャスト制作でできること
台本にAudio Tagsを書くだけで抑揚のあるナレーション
録音不要・編集ソフトでの音量調整も不要
70言語対応で多言語版の展開が即可能
最大2人のマルチスピーカーで対談形式にも対応

これが一番実用的な使い方。

ポッドキャストの台本を書いて、Audio Tagsで感情を指定する。

たとえばニュース系のポッドキャスト。

「[neutral] 今日のAIニュースです。
[short pause] まず1つ目。
[excitedly] Googleが新しいTTSモデルを発表しました。
[serious] ただし、
いくつかの注意点があります。

これだけで、
抑揚のあるナレーションが作れる。
録音の必要がない。
編集ソフトで音量やテンポを調整する手間もない。
テキストにタグを書き込むだけで「完成品」が出てくる。

しかも70言語対応なので、同じ台本を英語版、中国語版と展開できます。

マルチスピーカーにも対応してて、
最大2人の話者を設定して対話形式の音声が作れます。
ポッドキャストの対談形式にも使える。

Gemini TTSで動画のナレーションは作れる?

STEP 1
台本を書く
動画のナレーション原稿
STEP 2
Audio Tagsで感情指定
[calm] [cheerful] [whispers]
STEP 3
プロ品質のナレーション完成
YouTube / TikTokに使える

作れます。YouTubeやTikTokのナレーション用途にも使える。

たとえば料理動画。

「[calm] まず卵を3つ、
ボウルに割ります。
[short pause] [cheerful] 混ぜ方のコツは、
手首を使ってリズミカルに。
[whispers] ここ、
実は一番大事なポイントです。

プロっぽい抑揚のナレーションが、
テキスト入力だけで作れる。
声に自信がない人にとっては、
ありがたい機能です。

私はTikTokのナレーションに使いたいと思って試した。
Audio Tagsで感情を入れた読み上げは確かに自然。
ただ正直に言うと、
日本語でのタグの効き方は英語ほど繊細じゃない。
[excited]や[whispers]は効くけど、
[sarcastic]みたいなニュアンス系は英語のほうが断然うまい。
日本語メインで使うなら、
感情系より速度・間のタグ([slow]、
[pause])のほうが確実に効きます。

Gemini TTSで多言語の音声コンテンツは作れる?

🌐
対応言語
70言語以上
🇯🇵
日本語
対応済み
🔄
言語切り替え
自動検出
📄
運用
同じ台本を翻訳するだけ

ここがGemini TTSの強み。

70以上の言語に対応してて、
日本語も含まれてます。
言語の自動検出機能があるので、
日本語のテキストを入れれば日本語で読み上げてくれる。
英語を入れれば英語で読み上げる。
切り替えの手間がない。

海外向けのコンテンツを作ってる人にとっては、
これだけで価値がある。
同じ台本を各言語に翻訳して、
全部Gemini TTSに読ませれば、
多言語音声コンテンツが一気にできます。

Gemini TTSに必要なものは?

💻
ツール
Google AI Studio
💰
料金
プレビュー中は無料
👤
必要スキル
なし(テキスト入力のみ)
🔒
透かし
SynthID自動付与
項目内容
ツールGoogle AI Studio(aistudio.google.com)
料金プレビュー期間中は無料で試せる
アカウントGoogleアカウント(必須)
日本語対応。70以上の言語をサポート
モデル名gemini-3.1-flash-tts-preview
必要スキルなし。テキストを書くだけ
透かしSynthIDが自動付与(AI生成検出用)

Googleアカウントがあれば誰でも試せます。
プレビュー段階なので、
正式版になった時の料金は未確定。
でも今は無料で使える。
プレビュー期間中に触っておくのがおすすめです。

Gemini TTSの使い方は?ステップで解説

STEP 1
AI Studioにアクセス
STEP 2
テキスト+タグ入力
STEP 3
3層設定(任意)
STEP 4
生成+プレビュー
STEP 5
ダウンロード

ステップ1:Google AI Studioにアクセス

aistudio.google.com/generate-speech にアクセスします。
Googleアカウントでログイン。

ステップ2:テキストを入力する

読み上げたいテキストを入力欄に貼ります。
Audio Tagsを入れたい場所に角カッコでタグを書く。

例:「[cheerful] おはようございます。
[short pause] 今日もいい天気ですね。

ステップ3:3層設定を使う(任意)

もっとこだわりたいなら、
Audio Profile・Scene・Director's Notesの3層を設定できます。
まずはAudio Tagsだけで十分。
慣れてきたら3層を使ってキャラクターの一貫性を出す。

ステップ4:音声を生成する

「Generate」ボタンを押すと音声が生成されます。
プレビューで聴いてみて、
気になるところがあればタグを調整。
[happy]が強すぎたら[slightly happy]にしてみるとか。

ステップ5:ダウンロードする

気に入った音声をダウンロード。動画編集ソフトやポッドキャスト配信に使えます。

生成された音声にはSynthIDの透かしが自動で入ります。
これはAIが作った音声であることを検出するための仕組みで、
聴いてもわかりません。

Gemini TTSのよくある疑問は?

Q. 日本語の音声は自然?

日本語は対応言語に含まれていて、
自動検出で認識します。
基本的な読み上げは自然。
ただしAudio Tagsの効き方は英語に比べると差がある。
感情系のニュアンスタグ([sarcastic]、
[mischievously]等)は英語のほうが効きがいい。
日本語では[happy]、
[sad]などの基本感情と、
速度・間のタグを中心に使うのが実用的です。

Q. 商用利用できる?

プレビュー段階の利用規約はGoogle AI Studioの規約に従います。
正式リリース後の商用利用条件は未確定。
商用で使う予定なら、
正式版のライセンス条件を確認してから使ってください。

Q. ElevenLabsとどっちがいい?

得意分野が違います。

観点Gemini TTSElevenLabs
最大の強みAudio Tagsで1文ごとに感情制御声のクローン(自分の声をAIに覚えさせる)
操作方法テキストにタグを書くUIでパラメータ調整
多言語70言語以上32言語
料金プレビュー中は無料無料枠あり、Pro月$5〜
向いてる用途台本ベースのナレーション自分の声で読み上げたい場合

「テキストだけで感情豊かな音声を作りたい」→ Gemini TTS。
「自分の声で読み上げたい」→ ElevenLabs。
両方試して使い分けるのがベスト。

Q. マルチスピーカー対応してる?

対応してます。
最大2人の話者を設定して、
対話形式の音声が作れます。
ポッドキャストの対談形式に使えます。

Gemini TTSの注意点と限界は?

⚠ 知っておくべき注意点
プレビュー段階 ─ 仕様が変わる可能性あり
日本語のニュアンス系タグは英語より効きが弱い
1セッション32,000トークン ─ 長い原稿は章ごとに分割
全音声にSynthID透かし ─ AI生成と検出される仕組み

まだプレビュー段階です。正式リリースまでに仕様が変わる可能性があります。

Audio Tagsの効き方は言語によって差がある。
英語では完璧に効くタグが、
日本語だとニュアンスが弱い場合がある。
これは実際に試して確認するしかない。

生成できる音声の長さに制限があります。
1セッションのコンテキストは32,000トークン。
長い原稿を一気に読ませるのは難しいので、
章ごとに分けて生成するのが現実的。

そしてSynthIDの透かしが全音声に入ります。
聴いても気づかないレベルですが、
AI生成音声だと検出される仕組み。
悪いことじゃないけど、
知っておいたほうがいい。

私が使ってみた限りでの正直な評価をまとめるとこう。

ポイント評価
英語の感情表現◎ 非常に自然。タグがよく効く
日本語の基本読み上げ○ 十分使える
日本語の感情タグ△ 基本感情は効くが、ニュアンス系は弱い
速度・間のタグ○ 言語問わず安定
3層制御○ 一貫性のある声が作れる

Gemini TTSが広まると何が変わる?

これまで
録音環境・マイク・声の良さが必要。音声コンテンツは制作ハードルが高かった。
これから
文章が書ける人は音声コンテンツも作れる。ポッドキャスト・ナレーション・教材、全てテキストベースで制作可能。

「声」のハードルが消える。

今まで音声コンテンツを作るには、
録音環境とか声の良さとか、
いろいろ必要だった。
でもGemini TTSがあれば、
テキストを書くだけ。
しかも感情まで指定できる。

つまり「文章が書ける人は、音声コンテンツも作れる」ようになる。

ポッドキャスト、
ナレーション、
教材の読み上げ。
全部テキストベースで制作できる時代が来てます。

私の場合、
TikTokのナレーションに使おうと考えてます。
台本にAudio Tagsを入れて、
感情のある読み上げを付ける。
多言語展開も、
同じ台本を翻訳してGemini TTSに読ませるだけで済む。

「声がないから音声コンテンツは無理」という壁が、なくなりつつあります。

まとめ

Gemini 3.1 Flash TTSは、
Audio Tagsで声の感情・速度・スタイルを文ごとに制御できるAI音声ツールです。

70言語対応、日本語OK、Google AI Studioで無料で試せます。

まずはaistudio.google.com/generate-speechにアクセスして、
短いテキストに[happy]や[whispers]を入れて生成してみてください。

3回試せば、Audio Tagsのコツがつかめます。

参考リンク

※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。

-AI活用全般
-

← 戻る