AI活用全般

Gemini 3.1 Flash TTSの使い方|Audio Tagsで声の感情まで操れるAI音声

Googleの最新AI音声「Gemini 3.1 Flash TTS」は、テキストを自然な音声に変えてくれます。

しかも[whispers]って書くとささやき声に、[excitedly]って書くと興奮した声になる。

200種類以上の「Audio Tags」で、声の感情・速度・スタイルを1文単位で操れます。

70以上の言語に対応。

日本語もOK。

Google AI Studioで無料で試せます。

この記事はポッドキャストや動画ナレーションをAI音声で作りたい人向け(録音や編集ソフトを触ったことがなくても読めます)。

「AIの読み上げって、棒読みで使えない」

「感情のある音声を作りたいけど、録音するのは面倒」

このAudio Tagsがあれば、テキストに[happy]とか[very slowly]って書き込むだけ。

映画の監督みたいに、声の演技指導ができます。

ポッドキャストを作りたい人。

動画にナレーションを入れたい人。

多言語の音声コンテンツが必要な人。

そんな人向けの記事です。

Gemini TTSは従来のAI読み上げと何が違う?

従来のAI読み上げ
スライダーやプリセットで声質を調整。全体の雰囲気を「明るめ」「落ち着き」に変えるだけ。1文ごとの感情切り替えはできない。
Gemini 3.1 Flash TTS
テキストに[happy]や[whispers]を書くだけ。1文単位で感情・速度・スタイルを切り替え可能。200種類以上のAudio Tags。

従来のAI読み上げと比べてみます。

項目 従来のAI読み上げ Gemini 3.1 Flash TTS
感情の制御 スライダーで調整 or 固定 テキスト内に[happy]等のタグを埋め込む
制御の粒度 全体の声質を変える 1文ごとに感情・速度を切り替え可能
操作方法 UIでパラメータをいじる テキストに自然言語で指示を書くだけ
多言語 言語ごとに声を設定 70言語以上、自動検出
透かし ツールによる SynthID自動付与(AI生成が検出可能)

一番の違いは「制御方法」です。

従来のツールは、声の感情をスライダーやプリセットで変えてた。

全体を「明るめ」にするか「落ち着き」にするか。

でも1文目は嬉しそうで、2文目は真面目に、みたいなことはできなかった。

Gemini TTSは違います。

テキストの中に[excitedly]とか[serious]って書くだけ。

その場所から声のトーンが変わる。

映画の台本に「(嬉しそうに)」って書くのと同じ感覚です。

しかもタグは200種類以上。

[whispers](ささやく)、[sarcastic](皮肉っぽく)、[panicked](パニック風に)。

さらに[like dracula](ドラキュラ風に)、[singing](歌うように)、[asmr](ASMR風に)。

公式が「使えるタグに制限はない。クリエイティブに使って」と言ってるレベル。

テキスト内にインラインで演技指導を埋め込めるTTSは、かなり独特です。

Gemini TTSのAudio Tagsはどう使う?

STEP 1
テキストを書く
読み上げたい原稿
STEP 2
[タグ]を埋め込む
角カッコで感情を指定
STEP 3
1文ごとに声が変わる
感情・速度が自在に

Audio Tagsの使い方はとてもシンプルです。

テキストの中に角カッコ[ ]でタグを挟むだけ。

実際の例を見たほうが早いです。

「[neutral] こんにちは。

City航空からの自動メッセージです。

[short pause] お客様のフライト、[slow] C A 4 2 7 便は変更されました。

[positive] 新しい出発時刻は午前8時45分、ゲートB12です。

[fast] ただちにゲートにお進みください。

搭乗は5分以内に開始します。

最初は普通のトーン。

便名はゆっくり読み上げ。

新しい時刻は明るいトーン。

最後は急いでる感じで速く。

1つのテキストの中で、感情がどんどん変わる。

これがAudio Tagsの力です。

Gemini TTSでよく使うAudio Tagsは?

😊
感情系
[happy] [sad] [excited]
声のトーンを切り替え
速度・間
[very fast] [slow] [pause]
テンポと間を制御
🎤
効果音・特殊
[whispers] [singing] [gasp]
演技・効果を追加

使えるタグのジャンルは大きく3つ。

感情系

[happy]、[sad]、[angry]、[excited]、[nervous]。

[amazed](驚き)、[curious](好奇心)、[tired](疲れた)。

[sarcastic](皮肉っぽく)、[mischievously](いたずらっぽく)。

速度・間

[very fast]、[very slowly]。

[short pause]、[long pause]。

[one painfully slow word at a time](1語ずつめちゃくちゃゆっくり)。

効果音・特殊

[whispers]、[shouting]、[singing]。

[gasp](息を飲む)、[sighs](ため息)、[giggles](くすくす笑い)。

[cough](咳)、[snorts](鼻で笑う)。

しかもこれ、公式リストだけじゃない。

[like dracula]とか[asmr]とか、オリジナルのタグも通ります。

公式が「クリエイティブに使って」と言ってるので、試す価値あり。

Gemini TTSの3層制御(Audio Profile・Scene・Director's Notes)とは?

🎭 Audio Profile
キャラ設定(声の人物像)
🎬 Scene
場面の雰囲気
🎜 Director's Notes
全体のスタイル指示
🎤 Audio Tags ─ 台本内の演技指導(1文ごと)

Audio Tagsは「インラインの演技指導」。

でもGemini TTSにはもう2つ、声を制御する仕組みがある。

合わせて3層で、声の全体像をコントロールできます。

役割
Audio Profile キャラクター設定(声の人物像) 「30代の女性ラジオDJ。声は明るくてテンポが速い」
Scene 場面の雰囲気 「明るいスタジオ」「静かな夜のカフェ」「緊迫したニュース速報」
Director's Notes 全体のスタイル指示 「テンポ速め」「イギリス英語のアクセント」「落ち着いた語り口」

たとえばポッドキャストを作るなら、Audio Profileで「30代男性、落ち着いた声のニュースキャスター」と設定。

Sceneで「静かなラジオブース」。

Director's Notesで「テンポはゆっくり、間を大事に」。

この3つで全体の雰囲気を固めて、個別の強調にAudio Tags([excited]や[pause])を使う。

映画に例えるなら、Audio Profileがキャスティング、Sceneがロケ地、Director's Notesが監督の演出方針。

Audio Tagsは台本の中の演技指導。

全部を設定しなくてもAudio Tagsだけで十分動きます。

でもこの3層を使うと、一貫性のある「キャラクターの声」が作れる。

Gemini TTSでポッドキャストの原稿を読み上げられる?

ポッドキャスト制作でできること
台本にAudio Tagsを書くだけで抑揚のあるナレーション
録音不要・編集ソフトでの音量調整も不要
70言語対応で多言語版の展開が即可能
最大2人のマルチスピーカーで対談形式にも対応

これが一番実用的な使い方。

ポッドキャストの台本を書いて、Audio Tagsで感情を指定する。

たとえばニュース系のポッドキャスト。

「[neutral] 今日のAIニュースです。

[short pause] まず1つ目。

[excitedly] Googleが新しいTTSモデルを発表しました。

[serious] ただし、いくつかの注意点があります。

これだけで、抑揚のあるナレーションが作れる。

録音の必要がない。

編集ソフトで音量やテンポを調整する手間もない。

テキストにタグを書き込むだけで「完成品」が出てくる。

しかも70言語対応なので、同じ台本を英語版、中国語版と展開できます。

マルチスピーカーにも対応してて、最大2人の話者を設定して対話形式の音声が作れます。

ポッドキャストの対談形式にも使える。

Gemini TTSで動画のナレーションは作れる?

STEP 1
台本を書く
動画のナレーション原稿
STEP 2
Audio Tagsで感情指定
[calm] [cheerful] [whispers]
STEP 3
プロ品質のナレーション完成
YouTube / TikTokに使える

作れます。YouTubeやTikTokのナレーション用途にも使える。

たとえば料理動画。

「[calm] まず卵を3つ、ボウルに割ります。

[short pause] [cheerful] 混ぜ方のコツは、手首を使ってリズミカルに。

[whispers] ここ、実は一番大事なポイントです。

プロっぽい抑揚のナレーションが、テキスト入力だけで作れる。

声に自信がない人にとっては、ありがたい機能です。

私はTikTokのナレーションに使いたいと思って試した。

Audio Tagsで感情を入れた読み上げは確かに自然。

ただ日本語でのタグの効き方は英語ほど繊細じゃない。

[excited]や[whispers]は効くけど、[sarcastic]みたいなニュアンス系は英語のほうが断然うまい。

日本語メインで使うなら、感情系より速度・間のタグ([slow]、[pause])のほうが確実に効きます。

Gemini TTSで多言語の音声コンテンツは作れる?

🌐
対応言語
70言語以上
🇯🇵
日本語
対応済み
🔄
言語切り替え
自動検出
📄
運用
同じ台本を翻訳するだけ

ここがGemini TTSの強み。

70以上の言語に対応してて、日本語も含まれてます。

言語の自動検出機能があるので、日本語のテキストを入れれば日本語で読み上げてくれる。

英語を入れれば英語で読み上げる。

切り替えの手間がない。

海外向けのコンテンツを作ってる人にとっては、これだけで価値がある。

同じ台本を各言語に翻訳して、全部Gemini TTSに読ませれば、多言語音声コンテンツが一気にできます。

Gemini TTSに必要なものは?

💻
ツール
Google AI Studio
💰
料金
プレビュー中は無料
👤
必要スキル
なし(テキスト入力のみ)
🔒
透かし
SynthID自動付与
項目 内容
ツール Google AI Studio(aistudio.google.com)
料金 プレビュー期間中は無料で試せる
アカウント Googleアカウント(必須)
日本語 対応。70以上の言語をサポート
モデル名 gemini-3.1-flash-tts-preview
必要スキル なし。テキストを書くだけ
透かし SynthIDが自動付与(AI生成検出用)

Googleアカウントがあれば誰でも試せます。

プレビュー段階なので、正式版になった時の料金は未確定。

でも今は無料で使える。

プレビュー期間中に触っておくのがおすすめです。

Gemini TTSの使い方は?ステップで解説

STEP 1
AI Studioにアクセス
STEP 2
テキスト+タグ入力
STEP 3
3層設定(任意)
STEP 4
生成+プレビュー
STEP 5
ダウンロード

ステップ1:Google AI Studioにアクセス

aistudio.google.com/generate-speech にアクセスします。

Googleアカウントでログイン。

ステップ2:テキストを入力する

読み上げたいテキストを入力欄に貼ります。

Audio Tagsを入れたい場所に角カッコでタグを書く。

例:「[cheerful] おはようございます。

[short pause] 今日もいい天気ですね。

ステップ3:3層設定を使う(任意)

もっとこだわりたいなら、Audio Profile・Scene・Director's Notesの3層を設定できます。

まずはAudio Tagsだけで十分。

慣れてきたら3層を使ってキャラクターの一貫性を出す。

ステップ4:音声を生成する

「Generate」ボタンを押すと音声が生成されます。

プレビューで聴いてみて、気になるところがあればタグを調整。

[happy]が強すぎたら[slightly happy]にしてみるとか。

ステップ5:ダウンロードする

気に入った音声をダウンロード。動画編集ソフトやポッドキャスト配信に使えます。

生成された音声にはSynthIDの透かしが自動で入ります。

これはAIが作った音声であることを検出するための仕組みで、聴いてもわかりません。

Gemini TTSのよくある疑問は?

Q. 日本語の音声は自然?

日本語は対応言語に含まれていて、自動検出で認識します。

基本的な読み上げは自然。

ただしAudio Tagsの効き方は英語に比べると差がある。

感情系のニュアンスタグ([sarcastic]、[mischievously]等)は英語のほうが効きがいい。

日本語では[happy]、[sad]などの基本感情と、速度・間のタグを中心に使うのが実用的です。

Q. 商用利用できる?

プレビュー段階の利用規約はGoogle AI Studioの規約に従います。

正式リリース後の商用利用条件は未確定。

商用で使う予定なら、正式版のライセンス条件を確認してから使ってください。

Q. ElevenLabsとどっちがいい?

得意分野が違います。

観点 Gemini TTS ElevenLabs
最大の強み Audio Tagsで1文ごとに感情制御 声のクローン(手元で録音した声をAIに覚えさせる)
操作方法 テキストにタグを書く UIでパラメータ調整
多言語 70言語以上 32言語
料金 プレビュー中は無料 無料枠あり、Pro月$5〜
向いてる用途 台本ベースのナレーション 声を持ち主そっくりに合成したい場合

「テキストだけで感情豊かな音声を作りたい」→ Gemini TTS。

「手元の声で読み上げたい」→ ElevenLabs。

両方試して使い分けるのがベスト。

Q. マルチスピーカー対応してる?

対応してます。

最大2人の話者を設定して、対話形式の音声が作れます。

ポッドキャストの対談形式に使えます。

Gemini TTSの注意点と限界は?

⚠ 知っておくべき注意点
プレビュー段階 ─ 仕様が変わる可能性あり
日本語のニュアンス系タグは英語より効きが弱い
1セッション32,000トークン ─ 長い原稿は章ごとに分割
全音声にSynthID透かし ─ AI生成と検出される仕組み

まだプレビュー段階です。正式リリースまでに仕様が変わる可能性があります。

Audio Tagsの効き方は言語によって差がある。

英語では完璧に効くタグが、日本語だとニュアンスが弱い場合がある。

これは実際に試して確認するしかない。

生成できる音声の長さに制限があります。

1セッションのコンテキストは32,000トークン。

長い原稿を一気に読ませるのは難しいので、章ごとに分けて生成するのが現実的。

そしてSynthIDの透かしが全音声に入ります。

聴いても気づかないレベルですが、AI生成音声だと検出される仕組み。

悪いことじゃないけど、知っておいたほうがいい。

私が使ってみた限りでの正直な評価をまとめるとこう。

ポイント 評価
英語の感情表現 ◎ 非常に自然。タグがよく効く
日本語の基本読み上げ ○ 十分使える
日本語の感情タグ △ 基本感情は効くが、ニュアンス系は弱い
速度・間のタグ ○ 言語問わず安定
3層制御 ○ 一貫性のある声が作れる

Gemini TTSが広まると何が変わる?

これまで
録音環境・マイク・声の良さが必要。音声コンテンツは制作ハードルが高かった。
これから
文章が書ける人は音声コンテンツも作れる。ポッドキャスト・ナレーション・教材、全てテキストベースで制作可能。

「声」のハードルが消える。

今まで音声コンテンツを作るには、録音環境とか声の良さとか、いろいろ必要だった。

でもGemini TTSがあれば、テキストを書くだけ。

しかも感情まで指定できる。

つまり「文章が書ける人は、音声コンテンツも作れる」ようになる。

ポッドキャスト、ナレーション、教材の読み上げ。

全部テキストベースで制作できる時代が来てます。

私の場合、TikTokのナレーションに使おうと考えてます。

台本にAudio Tagsを入れて、感情のある読み上げを付ける。

多言語展開も、同じ台本を翻訳してGemini TTSに読ませるだけで済む。

「声がないから音声コンテンツは無理」という壁が、なくなりつつあります。

まとめ

Gemini 3.1 Flash TTSは、Audio Tagsで声の感情・速度・スタイルを文ごとに制御できるAI音声ツールです。

70言語対応、日本語OK、Google AI Studioで無料で試せます。

まずはaistudio.google.com/generate-speechにアクセスして、短いテキストに[happy]や[whispers]を入れて生成してみてください。

3回試せば、Audio Tagsのコツがつかめます。

このページに出てきた言葉

TTS(Text-to-Speech)
テキストを音声に変換する技術。読み上げソフトやスマホの音声ナビ機能はこれで動いている
Audio Tags
テキストに [happy] [whispers] のような角カッコ付きキーワードを埋め込むと、その場所から声のトーンや速度を切り替えられる仕組み
Audio Profile
声を出す「人物」の設定。年齢・性別・職業・声質などを言葉で指定すると、その人物像に合った声で読み上げてくれる
Scene
場面の雰囲気指定。「明るいスタジオ」「夜のカフェ」など、どんな空間で話している声かを決めると音声の雰囲気が変わる
Director's Notes
直訳すると「監督の指示書」。テンポ・アクセント・全体の語り口など、読み上げ全体のスタイルを文章でまとめて指定する欄
マルチスピーカー
1つの音声ファイルの中で複数の話者の声を切り替える機能。Gemini TTSは最大2人まで対応
SynthID
Googleの電子透かし技術。AIが生成した音声・画像に、肉眼や耳では気づかない印を埋め込んで「これはAI製」と検出できるようにする
プレビュー段階
正式リリース前の「お試し公開」期間。機能・料金・利用規約が今後変わる可能性がある状態。逆に言うと、この時期は無料で使える機能が多い
モデル名
AIの個体識別名。Geminiは用途別に複数のモデルが並行運用されていて、TTS用は「gemini-3.1-flash-tts-preview」
トークン
AIがテキストを処理するときの最小単位。日本語だと1文字あたり1〜2トークン換算が目安。32,000トークンは2万〜3万字相当
ボイスクローン
人間の話し声を数十秒〜数分のサンプル録音から学習させて、その声で別の文章を読み上げさせる技術。ElevenLabsの看板機能

参考リンク

※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。

-AI活用全般
-,

← 戻る