Gemini 3.1 Flash TTSの使い方｜Audio Tagsで声の感情まで操れるAI音声

2026年4月29日

公開日: 2026年4月16日／最終更新: 2026年4月29日

Googleの最新AI音声「Gemini 3.1 Flash TTS」は、テキストを自然な音声に変えてくれます。

しかも[whispers]って書くとささやき声に、[excitedly]って書くと興奮した声になる。

200種類以上の「Audio Tags」で、声の感情・速度・スタイルを1文単位で操れます。

70以上の言語に対応。

日本語もOK。

Google AI Studioで無料で試せます。

この記事はポッドキャストや動画ナレーションをAI音声で作りたい人向け（録音や編集ソフトを触ったことがなくても読めます）。

「AIの読み上げって、棒読みで使えない」

「感情のある音声を作りたいけど、録音するのは面倒」

このAudio Tagsがあれば、テキストに[happy]とか[very slowly]って書き込むだけ。

映画の監督みたいに、声の演技指導ができます。

ポッドキャストを作りたい人。

動画にナレーションを入れたい人。

多言語の音声コンテンツが必要な人。

そんな人向けの記事です。

Gemini TTSは従来のAI読み上げと何が違う？

従来のAI読み上げ

スライダーやプリセットで声質を調整。全体の雰囲気を「明るめ」「落ち着き」に変えるだけ。1文ごとの感情切り替えはできない。

Gemini 3.1 Flash TTS

テキストに[happy]や[whispers]を書くだけ。1文単位で感情・速度・スタイルを切り替え可能。200種類以上のAudio Tags。

従来のAI読み上げと比べてみます。

項目	従来のAI読み上げ	Gemini 3.1 Flash TTS
感情の制御	スライダーで調整 or 固定	テキスト内に[happy]等のタグを埋め込む
制御の粒度	全体の声質を変える	1文ごとに感情・速度を切り替え可能
操作方法	UIでパラメータをいじる	テキストに自然言語で指示を書くだけ
多言語	言語ごとに声を設定	70言語以上、自動検出
透かし	ツールによる	SynthID自動付与（AI生成が検出可能）

一番の違いは「制御方法」です。

従来のツールは、声の感情をスライダーやプリセットで変えてた。

全体を「明るめ」にするか「落ち着き」にするか。

でも1文目は嬉しそうで、2文目は真面目に、みたいなことはできなかった。

Gemini TTSは違います。

テキストの中に[excitedly]とか[serious]って書くだけ。

その場所から声のトーンが変わる。

映画の台本に「（嬉しそうに）」って書くのと同じ感覚です。

しかもタグは200種類以上。

[whispers]（ささやく）、[sarcastic]（皮肉っぽく）、[panicked]（パニック風に）。

さらに[like dracula]（ドラキュラ風に）、[singing]（歌うように）、[asmr]（ASMR風に）。

公式が「使えるタグに制限はない。クリエイティブに使って」と言ってるレベル。

テキスト内にインラインで演技指導を埋め込めるTTSは、かなり独特です。

Gemini TTSのAudio Tagsはどう使う？

STEP 1

テキストを書く

読み上げたい原稿

→

STEP 2

[タグ]を埋め込む

角カッコで感情を指定

→

STEP 3

1文ごとに声が変わる

感情・速度が自在に

Audio Tagsの使い方はとてもシンプルです。

テキストの中に角カッコ[ ]でタグを挟むだけ。

実際の例を見たほうが早いです。

「[neutral] こんにちは。

City航空からの自動メッセージです。

[short pause] お客様のフライト、[slow] C A 4 2 7 便は変更されました。

[positive] 新しい出発時刻は午前8時45分、ゲートB12です。

[fast] ただちにゲートにお進みください。

搭乗は5分以内に開始します。

」

最初は普通のトーン。

便名はゆっくり読み上げ。

新しい時刻は明るいトーン。

最後は急いでる感じで速く。

1つのテキストの中で、感情がどんどん変わる。

これがAudio Tagsの力です。

Gemini TTSでよく使うAudio Tagsは？

😊

感情系

[happy] [sad] [excited]

声のトーンを切り替え

⏱

速度・間

[very fast] [slow] [pause]

テンポと間を制御

🎤

効果音・特殊

[whispers] [singing] [gasp]

演技・効果を追加

使えるタグのジャンルは大きく3つ。

感情系

[happy]、[sad]、[angry]、[excited]、[nervous]。

[amazed]（驚き）、[curious]（好奇心）、[tired]（疲れた）。

[sarcastic]（皮肉っぽく）、[mischievously]（いたずらっぽく）。

速度・間

[very fast]、[very slowly]。

[short pause]、[long pause]。

[one painfully slow word at a time]（1語ずつめちゃくちゃゆっくり）。

効果音・特殊

[whispers]、[shouting]、[singing]。

[gasp]（息を飲む）、[sighs]（ため息）、[giggles]（くすくす笑い）。

[cough]（咳）、[snorts]（鼻で笑う）。

しかもこれ、公式リストだけじゃない。

[like dracula]とか[asmr]とか、オリジナルのタグも通ります。

公式が「クリエイティブに使って」と言ってるので、試す価値あり。

Gemini TTSの3層制御（Audio Profile・Scene・Director's Notes）とは？

🎭 Audio Profile
キャラ設定（声の人物像）

🎬 Scene
場面の雰囲気

🎜 Director's Notes
全体のスタイル指示

▼

🎤 Audio Tags ─ 台本内の演技指導（1文ごと）

Audio Tagsは「インラインの演技指導」。

でもGemini TTSにはもう2つ、声を制御する仕組みがある。

合わせて3層で、声の全体像をコントロールできます。

層	役割	例
Audio Profile	キャラクター設定（声の人物像）	「30代の女性ラジオDJ。声は明るくてテンポが速い」
Scene	場面の雰囲気	「明るいスタジオ」「静かな夜のカフェ」「緊迫したニュース速報」
Director's Notes	全体のスタイル指示	「テンポ速め」「イギリス英語のアクセント」「落ち着いた語り口」

たとえばポッドキャストを作るなら、Audio Profileで「30代男性、落ち着いた声のニュースキャスター」と設定。

Sceneで「静かなラジオブース」。

Director's Notesで「テンポはゆっくり、間を大事に」。

この3つで全体の雰囲気を固めて、個別の強調にAudio Tags（[excited]や[pause]）を使う。

映画に例えるなら、Audio Profileがキャスティング、Sceneがロケ地、Director's Notesが監督の演出方針。

Audio Tagsは台本の中の演技指導。

全部を設定しなくてもAudio Tagsだけで十分動きます。

でもこの3層を使うと、一貫性のある「キャラクターの声」が作れる。

Gemini TTSでポッドキャストの原稿を読み上げられる？

ポッドキャスト制作でできること

✓台本にAudio Tagsを書くだけで抑揚のあるナレーション

✓録音不要・編集ソフトでの音量調整も不要

✓70言語対応で多言語版の展開が即可能

✓最大2人のマルチスピーカーで対談形式にも対応

これが一番実用的な使い方。

ポッドキャストの台本を書いて、Audio Tagsで感情を指定する。

たとえばニュース系のポッドキャスト。

「[neutral] 今日のAIニュースです。

[short pause] まず1つ目。

[excitedly] Googleが新しいTTSモデルを発表しました。

[serious] ただし、いくつかの注意点があります。

」

これだけで、抑揚のあるナレーションが作れる。

録音の必要がない。

編集ソフトで音量やテンポを調整する手間もない。

テキストにタグを書き込むだけで「完成品」が出てくる。

しかも70言語対応なので、同じ台本を英語版、中国語版と展開できます。

マルチスピーカーにも対応してて、最大2人の話者を設定して対話形式の音声が作れます。

ポッドキャストの対談形式にも使える。

Gemini TTSで動画のナレーションは作れる？

STEP 1

台本を書く

動画のナレーション原稿

→

STEP 2

Audio Tagsで感情指定

[calm] [cheerful] [whispers]

→

STEP 3

プロ品質のナレーション完成

YouTube / TikTokに使える

作れます。YouTubeやTikTokのナレーション用途にも使える。

たとえば料理動画。

「[calm] まず卵を3つ、ボウルに割ります。

[short pause] [cheerful] 混ぜ方のコツは、手首を使ってリズミカルに。

[whispers] ここ、実は一番大事なポイントです。

」

プロっぽい抑揚のナレーションが、テキスト入力だけで作れる。

声に自信がない人にとっては、ありがたい機能です。

私はTikTokのナレーションに使いたいと思って試した。

Audio Tagsで感情を入れた読み上げは確かに自然。

ただ日本語でのタグの効き方は英語ほど繊細じゃない。

[excited]や[whispers]は効くけど、[sarcastic]みたいなニュアンス系は英語のほうが断然うまい。

日本語メインで使うなら、感情系より速度・間のタグ（[slow]、[pause]）のほうが確実に効きます。

Gemini TTSで多言語の音声コンテンツは作れる？

🌐

対応言語

70言語以上

🇯🇵

日本語

対応済み

🔄

言語切り替え

自動検出

📄

運用

同じ台本を翻訳するだけ

ここがGemini TTSの強み。

70以上の言語に対応してて、日本語も含まれてます。

言語の自動検出機能があるので、日本語のテキストを入れれば日本語で読み上げてくれる。

英語を入れれば英語で読み上げる。

切り替えの手間がない。

海外向けのコンテンツを作ってる人にとっては、これだけで価値がある。

同じ台本を各言語に翻訳して、全部Gemini TTSに読ませれば、多言語音声コンテンツが一気にできます。

Gemini TTSに必要なものは？

💻

ツール

Google AI Studio

💰

料金

プレビュー中は無料

👤

必要スキル

なし（テキスト入力のみ）

🔒

透かし

SynthID自動付与

項目	内容
ツール	Google AI Studio（aistudio.google.com）
料金	プレビュー期間中は無料で試せる
アカウント	Googleアカウント（必須）
日本語	対応。70以上の言語をサポート
モデル名	gemini-3.1-flash-tts-preview
必要スキル	なし。テキストを書くだけ
透かし	SynthIDが自動付与（AI生成検出用）

Googleアカウントがあれば誰でも試せます。

プレビュー段階なので、正式版になった時の料金は未確定。

でも今は無料で使える。

プレビュー期間中に触っておくのがおすすめです。

Gemini TTSの使い方は？ステップで解説

STEP 1

AI Studioにアクセス

→

STEP 2

テキスト+タグ入力

→

STEP 3

3層設定（任意）

→

STEP 4

生成+プレビュー

→

STEP 5

ダウンロード

ステップ1：Google AI Studioにアクセス

aistudio.google.com/generate-speech にアクセスします。

Googleアカウントでログイン。

ステップ2：テキストを入力する

読み上げたいテキストを入力欄に貼ります。

Audio Tagsを入れたい場所に角カッコでタグを書く。

例：「[cheerful] おはようございます。

[short pause] 今日もいい天気ですね。

」

ステップ3：3層設定を使う（任意）

もっとこだわりたいなら、Audio Profile・Scene・Director's Notesの3層を設定できます。

まずはAudio Tagsだけで十分。

慣れてきたら3層を使ってキャラクターの一貫性を出す。

ステップ4：音声を生成する

「Generate」ボタンを押すと音声が生成されます。

プレビューで聴いてみて、気になるところがあればタグを調整。

[happy]が強すぎたら[slightly happy]にしてみるとか。

ステップ5：ダウンロードする

気に入った音声をダウンロード。動画編集ソフトやポッドキャスト配信に使えます。

生成された音声にはSynthIDの透かしが自動で入ります。

これはAIが作った音声であることを検出するための仕組みで、聴いてもわかりません。

Gemini TTSのよくある疑問は？

Q. 日本語の音声は自然？

日本語は対応言語に含まれていて、自動検出で認識します。

基本的な読み上げは自然。

ただしAudio Tagsの効き方は英語に比べると差がある。

感情系のニュアンスタグ（[sarcastic]、[mischievously]等）は英語のほうが効きがいい。

日本語では[happy]、[sad]などの基本感情と、速度・間のタグを中心に使うのが実用的です。

Q. 商用利用できる？

プレビュー段階の利用規約はGoogle AI Studioの規約に従います。

正式リリース後の商用利用条件は未確定。

商用で使う予定なら、正式版のライセンス条件を確認してから使ってください。

Q. ElevenLabsとどっちがいい？

得意分野が違います。

観点	Gemini TTS	ElevenLabs
最大の強み	Audio Tagsで1文ごとに感情制御	声のクローン（手元で録音した声をAIに覚えさせる）
操作方法	テキストにタグを書く	UIでパラメータ調整
多言語	70言語以上	32言語
料金	プレビュー中は無料	無料枠あり、Pro月$5〜
向いてる用途	台本ベースのナレーション	声を持ち主そっくりに合成したい場合

「テキストだけで感情豊かな音声を作りたい」→ Gemini TTS。

「手元の声で読み上げたい」→ ElevenLabs。

両方試して使い分けるのがベスト。

Q. マルチスピーカー対応してる？

対応してます。

最大2人の話者を設定して、対話形式の音声が作れます。

ポッドキャストの対談形式に使えます。

Gemini TTSの注意点と限界は？

⚠ 知っておくべき注意点

●プレビュー段階 ─ 仕様が変わる可能性あり

●日本語のニュアンス系タグは英語より効きが弱い

●1セッション32,000トークン ─ 長い原稿は章ごとに分割

●全音声にSynthID透かし ─ AI生成と検出される仕組み

まだプレビュー段階です。正式リリースまでに仕様が変わる可能性があります。

Audio Tagsの効き方は言語によって差がある。

英語では完璧に効くタグが、日本語だとニュアンスが弱い場合がある。

これは実際に試して確認するしかない。

生成できる音声の長さに制限があります。

1セッションのコンテキストは32,000トークン。

長い原稿を一気に読ませるのは難しいので、章ごとに分けて生成するのが現実的。

そしてSynthIDの透かしが全音声に入ります。

聴いても気づかないレベルですが、AI生成音声だと検出される仕組み。

悪いことじゃないけど、知っておいたほうがいい。

私が使ってみた限りでの正直な評価をまとめるとこう。

ポイント	評価
英語の感情表現	◎ 非常に自然。タグがよく効く
日本語の基本読み上げ	○ 十分使える
日本語の感情タグ	△ 基本感情は効くが、ニュアンス系は弱い
速度・間のタグ	○ 言語問わず安定
3層制御	○ 一貫性のある声が作れる

Gemini TTSが広まると何が変わる？

これまで

録音環境・マイク・声の良さが必要。音声コンテンツは制作ハードルが高かった。

これから

文章が書ける人は音声コンテンツも作れる。ポッドキャスト・ナレーション・教材、全てテキストベースで制作可能。

「声」のハードルが消える。

今まで音声コンテンツを作るには、録音環境とか声の良さとか、いろいろ必要だった。

でもGemini TTSがあれば、テキストを書くだけ。

しかも感情まで指定できる。

つまり「文章が書ける人は、音声コンテンツも作れる」ようになる。

ポッドキャスト、ナレーション、教材の読み上げ。

全部テキストベースで制作できる時代が来てます。

私の場合、TikTokのナレーションに使おうと考えてます。

台本にAudio Tagsを入れて、感情のある読み上げを付ける。

多言語展開も、同じ台本を翻訳してGemini TTSに読ませるだけで済む。

「声がないから音声コンテンツは無理」という壁が、なくなりつつあります。

まとめ

Gemini 3.1 Flash TTSは、Audio Tagsで声の感情・速度・スタイルを文ごとに制御できるAI音声ツールです。

70言語対応、日本語OK、Google AI Studioで無料で試せます。

まずはaistudio.google.com/generate-speechにアクセスして、短いテキストに[happy]や[whispers]を入れて生成してみてください。

3回試せば、Audio Tagsのコツがつかめます。

このページに出てきた言葉

TTS（Text-to-Speech）: テキストを音声に変換する技術。読み上げソフトやスマホの音声ナビ機能はこれで動いている
Audio Tags: テキストに [happy] [whispers] のような角カッコ付きキーワードを埋め込むと、その場所から声のトーンや速度を切り替えられる仕組み
Audio Profile: 声を出す「人物」の設定。年齢・性別・職業・声質などを言葉で指定すると、その人物像に合った声で読み上げてくれる
Scene: 場面の雰囲気指定。「明るいスタジオ」「夜のカフェ」など、どんな空間で話している声かを決めると音声の雰囲気が変わる
Director's Notes: 直訳すると「監督の指示書」。テンポ・アクセント・全体の語り口など、読み上げ全体のスタイルを文章でまとめて指定する欄
マルチスピーカー: 1つの音声ファイルの中で複数の話者の声を切り替える機能。Gemini TTSは最大2人まで対応
SynthID: Googleの電子透かし技術。AIが生成した音声・画像に、肉眼や耳では気づかない印を埋め込んで「これはAI製」と検出できるようにする
プレビュー段階: 正式リリース前の「お試し公開」期間。機能・料金・利用規約が今後変わる可能性がある状態。逆に言うと、この時期は無料で使える機能が多い
モデル名: AIの個体識別名。Geminiは用途別に複数のモデルが並行運用されていて、TTS用は「gemini-3.1-flash-tts-preview」
トークン: AIがテキストを処理するときの最小単位。日本語だと1文字あたり1〜2トークン換算が目安。32,000トークンは2万〜3万字相当
ボイスクローン: 人間の話し声を数十秒〜数分のサンプル録音から学習させて、その声で別の文章を読み上げさせる技術。ElevenLabsの看板機能

参考リンク

この記事を書いた人

aisola

Aisola Lab 運営者

AIツールを使ったコンテンツ制作・リサーチ・WordPress運用を日常的にやっています。自分で動かせるものは実際に触って書き、触っていないものは公式ドキュメントと一次情報をもとに書き分けています。

運営者情報 X（@ai_sola27）note

※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。

-AI活用全般
-Gemini, 音声・音楽

AI活用全般

2026/7/15

ChatGPT Sitesで家計簿・進捗ボードを作ってURLで配る手順｜サーバー契約もコードも不要

課金中のChatGPTに、プロンプトからWebサイトを作ってURLで配れる「ChatGPT Sites」が入り始めました。サーバー契約もコードも要らず、家計簿・進捗ボード・イベント案内級の小さいサイトを作って共有できるのが売りです。ただしパブリックベータで、容量やデータの保存地域など公式が数字を出していない部分もあります。この記事は課金中のChatGPTで小さなWebサイトを作って誰かに配りたい非エンジニア向け（HTMLを触ったことがなくても読めます）。 ChatGPT Sitesとは？プロンプトか ...

AI活用全般

2026/7/15

ChatGPTに絵コンテを頼むと文字の表しか出ない時｜GPT Image 2で12コマ・秒数つきの撮影設計図を画像1枚で出すプロンプト全文

ChatGPTに「絵コンテを作って」と頼むと、返ってくるのは文字だけの表がほとんどです。でも海外で拡散したあるプロンプトを貼ると、12コマ・秒数つきの撮影設計図が画像1枚で出てきます。 GPT Image 2なら無料プランでも試せて、書き換えるのは商品名の1箇所だけ。この記事は短尺動画を1人で撮っている非エンジニア向け（英語のプロンプトはコピペで大丈夫です）。そもそもこの「12コマ絵コンテ」プロンプトって何？ TikTokやInstagramの短尺動画を撮るとき、多くの人は段取りを頭の中だけで組みま ...

AI活用全般

2026/7/14

Gemini 3.5 Flashは本当に安いのか｜「Proより安い」の裏で前のFlashは3〜6倍値上げ、自分が損か得か見極める

Gemini 3.5 Flashは「3.1 Proより40%安い」も「前のFlashより3〜6倍高い」も、両方ほんとです。無料のGeminiアプリで使う人は前と同じ月額で性能アップ、APIで使う開発者は同じ処理で請求が跳ね上がる。同じモデルなのに損得が逆になります。飛びつく前に、手元の使い方が「無料アプリ側」か「API課金側」かだけは確認しといた方がいい。この記事はGeminiを業務で使い、ChatGPTやClaudeと使い分けているAPIコストが気になる人向け（モデルの料金とトークンの基本が分かれ ...

AI活用全般

2026/7/14

Perplexity ComputerがWord・Excel・Outlookに対応｜会社員の調べ物コピペ往復が消える（月20ドルProから）

WordやExcelの横で調べ物が完結する仕組みが、2026年5月29日に動き出しました。資料を別タブで調べてコピペで戻す、あの往復が消えるという話です。月20ドルのProプランから使えると、Perplexity公式が発表しました。この記事はWord・Excel・Outlookを毎日触る事務・営業・企画職の人向け（関数やプログラミングが分からなくても読めます）。 Perplexity Computerという調べ物AIが、Microsoftのオフィスソフトの中に入りました。Word、Excel、Pow ...

AI活用全般

2026/7/14

Gemini 3.5 Live Translateで旅行・接客・家族の会話を画面見せ合いなしで進める｜Google翻訳に無料で入った同時通訳

スマホの画面を相手に見せ合って、打ち込んで、また見せて。あのもどかしいやり取りが、会話のまま進むようになりました。 Gemini 3.5 Live Translate は、いつものGoogle翻訳アプリに無料で追加された同時通訳機能です。70以上の言語に対応し、サインアップも新アプリも要りません。ただし、契約や医療みたいに誤訳が命取りになる場面では、まだ人の通訳を残したほうがいい。旅行・接客・家族との会話で使い倒すのが、いまの正解だと私は思っています。この記事は英語が苦手で、海外旅行や外国人の接客に不 ...

Claudeの「MAGAZINE」ハック｜1行で要約が雑誌レイアウトに変わる

Midjourney V8.1の使い方｜HD 3倍速・3倍安い＋V7の美しさが復活