その他

動画の中の文字を崩さない新モデル「Gemini Omni」がリーク|Google I/O 2026で発表見込み

Geminiアプリに「Gemini Omni」という未発表モデルのカードが一瞬出ました。

Veo 3.1の隣に並んだ別物で、現時点での目玉は「動画の中の文字が崩れない」点に集中しています。

2026年5月19〜20日のGoogle I/O 2026で答え合わせされる見込みで、その前に「何が変わるか」を1点に絞って棚卸ししておきます。

判断主軸は「動画内テキスト整合性」の1点だけ。

教育動画・EC商品紹介・チャット内編集の3場面で何が起きるかを、リーク報道の出典付きで読み解きます。

この記事はAI動画生成を触ってる個人クリエイター・EC運用者・教育コンテンツ制作者向け(Veo、Nano Banana、Gemini を名前は知ってるレベルでOK)。

そもそもGemini Omniって何のこと?

Gemini Omniは、Geminiアプリの中に「Veo 3.1とは別の新しい動画モデル」として2026年5月初旬に姿を見せた未発表モデルです。

Googleからの正式アナウンスはまだ無い段階。

最初にUIで発見されたのは2026年5月2日、TestingCatalogが「Start with an idea or try a template. Powered by Omni.」という文字列をGemini動画生成タブの中に確認しています。

私はこの「Powered by Omni」がGoogleの命名規則として目立つと見ています。

「Meet our new video generation model. Remix your videos, edit directly in chat, try a template, and more.」

― Geminiアプリ内モデルの仕様カードに記載されていた説明文(出典: 9to5Google

つまり「動画を作るだけ」じゃなく、チャット画面の中で動画を編集してまわす想定の作りになっています。

これ正直やばい。

9to5Googleによれば、5月11日にRedditのr/GeminiAIユーザーが実際の生成デモを取得して投稿、その日のうちに複数メディアが報道しました。

XユーザーのリーカーがOmniの初期出力を見て次のように投げています。

「Holllllyyyyyyyy @GeminiApp cooked. Gemini Omni: New video model. Here is the first output and see the text coherence, if this is not nano banana moment of video then what is??」

― リーカーのXポスト(出典: Xユーザー @chetaslua の2026年5月11日投稿。

9to5Googleが同日記事化)

「nano banana moment of video」という言い方が今回の核です。

画像生成のNano Banana 2が画像内テキスト精度98%以上を叩き出して空気を変えたのと同じ衝撃が、動画でも来るのか?というのが評価軸になっています。

注目しているのは「動画の中の文字が崩れない」1点だけ

機能予想を全部並べると焦点がぼけます。

私が見ているのは1点、動画内テキスト整合性です。

これまでの動画モデルは、動画の中に文字(黒板の数式、商品ラベル、ボタンのキャプション、字幕の埋め込み等)を入れるのが極端に苦手でした。

Veo 3.1も「readable text in videos remains challenging」と評価されてきた領域です。

そこに2026年5月11日、Omniの数学証明デモが出てきました。

プロンプトは「a professor writes out a mathematical proof for trigonometric identities on a traditional chalkboard」。

教授が黒板に三角関数の恒等式を書きながら解説する10秒動画で、各メディアが次のように記録しています。

「Text consistency has always been the 'Achilles' heel' of video generation models. In this Omni demo, the formulas are correct, the derivation is coherent, and the handwriting is natural.」

― 36kr英語版(出典: 36kr

「The Omni model not only got the reasoning correct but also generated a video that is very lifelike.」

― Android Authority(出典: Android Authority

黒板に書かれた公式が正しい、導出が一貫している、筆跡が自然。

動画生成モデルが「アキレス腱」と呼ばれてきた領域でここまで来たのは、私の見方では今年最大の動画モデル系トピックです。

ただ、ベタ褒めだけで終わらせるとミスリードになります。

同じデモで指摘された苦手面も並べておきます。

「Writing actions didn't consistently match chalk output. Vanishing chalk demonstrated inconsistency.」

― Android Authority(出典: Android Authority

手の動きとチョークの軌跡が常に一致するわけではなく、チョークが消える瞬間もある。

スパゲッティを食べるデモでは「空の皿に突然パスタが出現する」「噛む回数が食べた量と合わない」といったAI特有の不自然さも残っているとAndroid Authorityが記録しています。

つまり「映像のフィデリティ」では現在の首位ByteDance Seedance 2.0(Eloスコア1218)に届かない一方で、「文字の整合性」では明確に1ランク上がった、というのが一次評価者の共通認識です。

ここが効きどころ。

教育・EC・チャット内編集の3場面で何が変わるか

動画の中の文字が崩れなくなると、現実に何が変わるのか。3つの場面に絞ります。

教育コンテンツ(数式・図解・ラベル付き解説)

これまで教育系のYouTube動画やオンライン講座でAI動画生成を使おうとしても、数式・化学式・図解のラベルがすぐ崩壊して使い物にならない、という壁がありました。

手書き動画やKeynoteで作り直す方が速い、という声が個人クリエイターから多く出ていた領域です。

36krとAndroid Authorityが揃って「三角関数の恒等式の導出が一貫している」と評価したことは、ここに直撃します。

私の見方では、Omniが正式公開されたら教育系コンテンツ制作のワークフローは1段階変わります。

10秒の解説クリップを1日に数本量産できる前提が成立し得るからです。

EC商品紹介(パッケージのロゴ・成分表・価格表示)

EC運用で動画モデルを商品紹介に使おうとすると、パッケージのロゴ・成分表・サイズ表示が動画内で歪んで読めない、という致命的な弱点がありました。

これは「商品の信頼性」に直結する領域で、AI動画導入が止まっていた最大の理由です。

Nano Banana 2は静止画では98%以上のテキスト精度を叩き出しています(出典: glbgpt)。

Omniがこの精度を動画に持ってこられるなら、商品パッケージを軸にしたショート動画の量産がEC側に開きます。

98%の壁が動画でも崩れたら効きます。

チャット内編集(透かし削除・オブジェクト差し替え・シーン書き直し)

3つ目はOmni自体が新しく持ち込む編集ワークフロー。

TestingCatalogが次のように書いています。

「the model stood out in editing: removing watermarks, swapping objects within clips, and rewriting scenes via chat instructions all worked unusually well for a first public glimpse.」

― TestingCatalog(出典: TestingCatalog

動画にチャットで「ここの透かし消して」「この椅子を別のに差し替えて」「このシーンを書き直して」と指示する、いわゆる動画版インペイント+テキスト編集が、初公開段階で「unusually well」と評価された。

これが効くと、編集者は別ソフト(Runway、Pika、Adobe)に動画を持ち込み直す必要が薄くなります。

料金面の補足を1つ。

9to5Google等の複数ソースが「Google AI Proのユーザーが2本の動画生成で1日の使用量の86%を消費した」と記録しています。

リーク段階のレートですが、ヘビーに回す前提だとAI Ultra($249.99/月、初回3ヶ月$124.99/月)にステップアップする必要が出そうです。

2本で86%消費、これだとPro単独はキツいです。

Gemini OmniとVeo 3.1・他社モデルの位置づけ

競合と並べて見ます。

Eloスコアは現在公開されているartificialanalysis.aiのリーダーボード値、Omniはランキング未掲載のためリーク報道の定性評価を引用形で入れます。

モデル 提供元 Elo(2026年5月時点) 強み(出典付き) 弱み(出典付き)
Gemini Omni(リーク段階) Google 未掲載 動画内テキスト整合性で1ランク上と紹介されている(36kr / Android Authority) 純粋フィデリティはSeedance 2に劣ると紹介されている(TestingCatalog / WaveSpeed)
Veo 3.1 Google 1100 複数シーン指示の追従が改善(Google公式) 動画内テキストはchallengingと評価されている(複数ソース)
Seedance 2.0 ByteDance 1218(首位) 純粋な1ショット映画的クオリティで首位と紹介されている 編集ワークフローはOmniに分があると見られている
Kling 3.0 Pro Kuaishou 1104 ストーリー作成・モーション制御が強いと紹介されている テキスト整合性は未公表
Sora 2 OpenAI 非公開 フォトリアルと物理演算で強みありと紹介されている ウェブ/アプリ版は2026年4月26日に提供終了済み

純粋に「映像が映画的に綺麗か」だけ見るならSeedance 2.0が1218で先頭。

ただOmniが狙っている戦場は別のところで、「動画の中の情報伝達(文字・図解・編集指示)」をチャット内で完結させる方向です。

差別化軸が違う。

WaveSpeedはOmniの正体について3仮説を出しています。

①Veo 3.xか4のリブランド、②Veoとは別アーキテクチャの独自モデル、③画像・動画・音声を1モデルで扱う統合(GPT-4o相当)の3つ。

私の見方では、UIに「Powered by Omni.」と書かれていることと、現行の「Toucan(Veo 3.1)」のカードと別カードで並んでいることから、最低でも②、有力には③に近い設計と読めます。

答え合わせはI/O 2026本番です。

料金とGemini Omniに必要なプラン

2026年5月13日時点のGoogle AIプラン構成です。

Omniの正式料金はI/O 2026以降の発表待ちで、現行のVeo 3.1の扱いがそのまま当てはまる可能性が高いとAndroid Authority等が示唆しています。

プラン 月額(米国) Veo 3.1の扱い Omniが乗ると見られているプラン
Google AI Plus $7.99 制限あり 未確定
Google AI Pro $19.99 制限あり(2本生成で86%消費というリーク値あり) Omni先行アクセスがUIで見えていたとの報告あり
Google AI Ultra $249.99(初回3ヶ月$124.99) 1日3〜5生成上限(Ultra加入者でも) Omniもここに乗る見込みと紹介されている

個人クリエイターが手を出すなら、まずはGoogle AI Proの$19.99で本数を試して、月10本以上回すならUltraに上げる、というのが現実的なライン。

AI Ultraの初回3ヶ月50%オフ($124.99/月)は使うべきところで、I/O 2026直後の検証期間にぶつけるとちょうど効きます。

初月125ドルで3ヶ月、これは確実に元取れます。

出典: Google One AI Plans公式 / Gemini プラン公式

I/O 2026発表前にやっておきたい準備(再現できる手順)

ここまでの内容を実際に動かせる形にします。

Google I/O 2026は日本時間で2026年5月20日 午前2時にキーノートが始まり、Omniが正式アナウンスされる場合はその時間帯に発表されます。

発表前にやっておくと差がつく準備を、再現可能な手順として5ステップに落とします。

  1. Google公式I/O 2026ページで登録を済ませる: io.google/2026 にアクセスし、メール登録でセッションのリマインダーを受け取れるように設定する。Developer Keynote(日本時間5月20日 午前5時30分)も合わせて押さえる
  2. Geminiアプリで現状のモデル切替UIを確認しておく: スマホ/PCのGeminiアプリを開き、動画生成タブで現在表示されているモデル名(Toucan = Veo 3.1ベース)を確認しておく。発表後にOmniのカードが追加された時点で差分が一目で分かる
  3. 「動画内テキスト整合性」の検証プロンプトを用意しておく: 取り扱う業界に直結するプロンプトを2〜3本書いておく。例: 教育系なら「a teacher writes the chemical formula H2O on a whiteboard」、EC運用なら「a product package with the label '500ml Vitamin C' on a wooden table」、編集デモなら手元の既存動画を1本準備して「remove the watermark in the bottom-right corner」
  4. Google AI Proに加入しておく(または無料枠でアカウントを起動しておく): Omniが先行アクセスでProプランから配信される可能性をリーク報道が示唆している。gemini.google/subscriptions から$19.99/月で登録し、5月19日のキーノート直後に試せる状態を作っておく
  5. YouTube公式チャンネルでキーノート配信を予約する: Google公式YouTubeチャンネル でキーノートのライブ配信に「通知をオン」設定。日本時間5月20日 午前2時開始、Developer Keynoteは同日 午前5時30分から

1点だけ前提条件。

Omniが正式発表されない可能性も残っています。

WaveSpeedも「Early outputs drew mixed reactions」と中立的にまとめており、I/O 2026で全く別の名前で出る・あるいは秋まで延期される未来もあり得ます。

準備した検証プロンプトはVeo 3.1でも使えるので、無駄打ちにはなりません。

Gemini OmniのFAQ

Gemini OmniはVeo 3.1の後継ですか?

Googleの正式発表前のため確定はしていません。

WaveSpeedの分析では3仮説(リブランド/独自モデル/統合マルチモーダル)が並んでおり、UIでは現行のToucan(Veo 3.1)カードと別カードで並んでいたと9to5Google・TestingCatalogが報告しています。

I/O 2026の発表で答え合わせされる見込みです。

Gemini Omniはいつ使えるようになりますか?

Google I/O 2026のキーノート(日本時間2026年5月20日 午前2時)で正式アナウンスされる可能性が高いと、Android AuthorityとChrome Unboxedが見ています。

先行アクセスはGoogle AI ProまたはUltra加入者から段階配信される可能性があると報じられています。

料金はいくらですか?

Omni自体の料金は未発表です。

現行のVeo 3.1がGoogle AI Ultra($249.99/月、初回3ヶ月$124.99/月)の限定機能になっていることから、Omniも同じ位置づけに乗ると複数ソースが示唆しています。

Google AI Pro($19.99/月)でも先行アクセスがUIで見えていたという報告があります。

Seedance 2.0の方が高評価のようですが、Omniを追う意味はありますか?

純粋な映像フィデリティ(Eloスコア1218)ではSeedance 2.0が首位ですが、Omniの差別化は「動画の中の文字が崩れない」「チャット内で透かし削除・オブジェクト差し替え・シーン書き直しまで完結する」点に寄っています。

教育コンテンツ・EC商品紹介・既存動画の編集を回す層には、Omni側のメリットが効きます。

動画生成1本にどれくらい時間がかかりますか?

リーク段階のデモでは10秒の動画が1280×720で生成されたと36krが記録しています。

生成時間の公式数値は未発表で、Google AI Proユーザーが2本生成で1日使用量の86%を消費したというリーク報道が出ています。

本数を回す前提ならAI Ultraへの加入が現実的なラインです。

参考リンク

このページに出てきた言葉

Gemini Omni
Geminiアプリの動画生成タブに2026年5月上旬に出現した未発表モデル。I/O 2026で正式発表されるかが焦点
Veo 3.1
2026年5月時点のGemini動画モデル。Eloスコア1100。Omniはこの隣のカードで現れた
Nano Banana 2
Geminiの画像生成モデル。画像内テキスト精度98%以上で空気を変えた。Omniの「動画版」と期待されている
Seedance 2.0
ByteDanceの動画モデル。Eloスコア1218で2026年5月時点の純粋映像品質首位
Eloスコア
「どちらの出力が好まれたか」の投票結果からモデルの相対強さを数値化したスコア
動画内テキスト整合性
動画の中の文字(数式・ラベル・字幕等)が綴り・形・前後フレームで崩れない性質
Toucan
Geminiアプリ内のVeo 3.1動画ツールの内部コードネーム
インペイント
画像・動画の一部だけを指定して「ここを書き直して」と編集する作業
マルチモーダル
テキスト・画像・動画・音声などを1つのAIモデルでまとめて扱うこと
キーノート
カンファレンスのメイン基調講演。Google I/Oのキーノートで主要発表が行われる

※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。

-その他
-, , , , ,

← 戻る