Gemini OmniにGoogle Mapsのスクショを渡すだけ｜現地に行かずその道を歩く一人称動画を作る方法

Q: Gemini Omniは「Google Maps連携機能」を公式に持っているの？

いいえ。公式が発表したのは画像を入力して動画を作れるという汎用機能です。Mapsのスクショをその画像として使うのはユーザーが見つけた応用の使い方で、公式がMaps連携と名づけている機能ではありません。

Q: 元デモの動画は実写と見分けがつかないレベルなの？

いいえ。元の投稿者本人はpretty close to the real thing（かなり本物に近い）と表現しています。実写と見分けがつかない、完全再現という評価は一次ソースには存在しません。雰囲気の再現と捉えるのが正確です。

Q: 日本の道で試したら、ちゃんと再現される？

2026年5月時点で日本の街並みで試したレポートは見当たりません。学習データの少ない小都市は精度が落ちる、背景の文字が崩れるという海外の指摘から、日本の住宅街や日本語看板も苦戦する確率が高く、観光地の特徴的なスポットほど成功しやすいと考えられます。

Q: 作った動画はYouTubeやTikTokに上げて稼いでいい？

商用利用は禁止されていません。ただし生成動画にはSynthIDの電子透かしが入り、YouTubeはそれを検出してAI生成ラベルを自動付与します。リアルな映像でラベル開示を怠ると非収益化のリスクがあるので、AI生成だと明示して出すのが安全です。

Q: 料金はいくらから使える？

YouTube ShortsとYouTube Create Appでは無料で使えると複数メディアが報じています。有料はGoogle AI Plusが月7.99ドルからとされますが、これは報道ベースで公式ブログ本文には価格数字の記載がありません。

2026年6月6日

公開日: 2026年6月6日

Google Mapsのスクショ1枚を渡すだけで、撮りに行かなくても「その道を歩く・走る一人称動画」が作れる、という使い方が海外で話題です。

これはGemini Omniの「画像を入力して動画にする」機能を、地図のスクショに応用したもの。

公式が「Maps連携」と謳っている機能ではありません。

元デモの再現度は本人いわく「pretty close（かなり近い）」止まりで、実写と見分けがつくレベルではない、というのが正直なところです。

この記事は動画AIに月額課金していて「Gemini Omniを手元のどんな作業に使えるか」を探している個人クリエイター・不動産仲介の現場担当向け（動画生成AIを使ったことがあれば読めます）。

Google Mapsのスクショ1枚で、その道の一人称動画が作れるって本当？

きっかけは、ある海外ユーザーが2026年5月21日にXへ投稿した1本のデモでした。

やったことはシンプルです。

Google Mapsでルートを引いたスクショを用意して、Gemini Omniに渡す。

そして「この道をタクシーで走る一人称視点の動画にして」と頼む。

それだけ。

結果は2.7M回再生されて、リポスト2,591件まで伸びました。

これ、地味にすごい数字です。

Google Mapsのスクリーンショット（ルートを描いたもの）をGemini Omniにアップロードし、「参照画像のルートに沿ってタクシーを運転する人の一人称視点を作って」と指示した。

結果はpretty close to the real thing（かなり本物に近い）だった。

— 元デモ投稿者（X、2026年5月21日／digg.comが転載・集計）

ここで誤解しないでほしいのが、これは「公式のMaps連携機能」ではないという点です。

Googleが正式に発表したのは「テキスト・画像・音声・動画をまとめて1プロンプトで入力できる」という汎用の入力機能（公式ブログ）。

そこに含まれる「画像入力」を、ユーザーがMapsスクショに使った応用例というのが正確な立て付けです。

私が面白いと思ったのは、まさにここ。

公式が想定してない使い方が伸びてる構図です。

なぜこのMaps活用が、わざわざ注目されているのか？

正直、ただの「動画AIで動画を作りました」なら、ここまで話題にはなりません。

注目された理由は、大きく2つです。

1つ目は、実在の場所を入力に使えること。

多くの動画生成AIは、テキストや適当な画像から「それっぽい街並み」を作ります。

でもGemini Omniは、地図という実在の場所情報をスタート地点にできる。

技術解説では、Street ViewとYouTubeの長年の映像データで訓練されている点が背景として挙げられています。

Project Genie ＋ Street Viewの接地、約20年分の地図画像（が下支えになっている）。

— AIニュースまとめ（latent.space）

2つ目は、会話で何度も編集できること。

これは競合が持っていない強みとされています。

生成したあとに「ライトを変えて」「雨にして」と自然な言葉で直せる。

海外のレビューでも、生の映像品質では他社に及ばないものの、この会話編集は頭ひとつ抜けていると評価されています。

会話編集（in-chat editing）では他社に「not close（追いつけない差）」で圧倒している。

一方で生の映像品質はSeedance 2.0が優位。

— 海外の比較レビュー（複数記事が同趣旨を報告）

映像のなめらかさだけならByteDanceのSeedance 2.0などが上、という評価です。

ただ「実在の場所 × 会話で何度も編集」の組み合わせは、いまのところOmniにしかない。

個人的には、ここがクリエイターにとっての本命だと思っています。

海外クリエイターは実際どう評価しているのか？

賛否は割れています。

元デモへの反応は肯定が約73.7%、否定が約26.3%でした。

両方拾います。

肯定側で多かったのが「remarkable result（目を見張る結果）」という声。

あるユーザーは「これを使ったゲームを作るべきだ」とまで書いていました。

発想が一気に飛んでいくタイプの反応です。

一方で、否定側の指摘はかなり実務的でした。

一貫性・正確さ・小都市での性能に失敗が見られる（smaller citiesは学習データが少なく再現精度が落ちる）。

— 元デモへの批判コメント（digg.com）

実機テストの記事でも、似た弱点が報告されています。

背景のテクスチャが歪んだり、服の色が微妙に変わったり、フレーム間でディテアルがちらつくことがある。

背景の看板やテキストにスペルミスが出る。

— 実機テスト（digit.in）

つまり、特徴的な建物がある観光地は再現されやすく、没個性の住宅街や細い路地は「一般的な街並み」に丸められやすい。

看板の文字も崩れがちです。

日本の街並みで試した記事は2026年5月時点で見当たらないので、ここは正直やってみないと分からない部分。

ただ「小都市は弱い」「文字が崩れる」という傾向から、日本の住宅街や日本語看板も苦戦しそう、というのが私の見立てです。

Google Mapsスクショから一人称POV動画を作る手順は？

帰省路、推しのライブ会場までの道、旅行先の下見、物件から駅までの徒歩ルート。

実在の道を動画にする用途は意外と広いです。

元デモと公式product pageの記載をもとに、同じことを再現する手順をまとめます。

公式のQuickstartはまだ公開されていない（APIは「coming weeks」表記）ので、ここは元デモの手順と公式product pageの入力仕様を組み合わせた再構成です。

STEP1：Google Mapsでルートのスクショを撮る。動画にしたい道を地図上で表示して、ルートが見える状態でスクリーンショットを保存します。元デモはルートを描いた地図画像を使っていました。
STEP2：Gemini Omniにそのスクショを画像として渡す。Gemini app（またはYouTube Create App）を開いて、撮ったスクショをアップロード。公式product pageでは参照画像を最大5枚まで渡せると記載されています。
STEP3：一人称視点で動かす指示を出す。元デモのプロンプトは「create a first person view of someone driving a taxi cab along the route in the reference image（参照画像のルートに沿ってタクシーを運転する一人称視点を作って）」でした。歩く動画にしたいなら driving を walking に変えるイメージです。
STEP4：会話で微調整する。生成後に「change the lighting（光を変えて）」「夕方にして」のように自然な言葉で修正します。視点・時刻・天気・季節を言葉で足すと出力が変わる、と複数のチュートリアル記事が示しています。

引っかかりやすいのは、住宅街や地方の道だと精度が落ちる点。

前提として、特徴的な建物やランドマークが映る区間ほどうまくいきます。

あと音声の差し替え編集は、deepfake防止のため今は使えません（DeepMindモデルカードに明記）。

手順に入れていないのはそのためです。

料金はいくら？10秒という制限はどこまで本当？

ここは数字の出どころで分けて書きます。盛らないのがこの記事の生命線なので。

項目	内容	出どころ
動画の長さ	1本あたり10秒（音声つき）	公式product pageに記載
無料で使える場所	YouTube Shorts／YouTube Create App	複数メディアが一致して報道
Google AI Plus	月$7.99とされる	報道ベース（公式ブログに価格数字なし）
Google AI Pro	月$19.99とされる	報道ベース
Google AI Ultra	月$99.99〜$200	公式発表あり

10秒上限については公式product pageに「10秒間の動画を作成」と記載があります。

なので、ここは公式に書いてあると言ってよさそうです。

ただ、なぜ10秒なのかの理由はステージ発言の引用でしか確認できません。

これはモデルの限界ではなく、より多くの人に届けたいという狙いと、今のところほとんどのユーザーはそれほど長い動画を作りたがらないだろうという見込みに基づく判断だ。

— Google I/Oでの発言として引用（WaveSpeed）

価格の$7.99は、私が確認した範囲では公式ブログ本文に数字が出ていません。

Yahoo Tech・WaveSpeed・FindSkill.aiなど複数メディアが一致して「AI Plusは月$7.99」と報じている、という状態です。

なので断定はしません。

もう1つ無視できないのがクオータの消費の速さ。

AI Proプランで2プロンプト生成したら1日の枠の86%を使った、という報告もあります（9to5google）。

ここは正直きつい。

何本も作るVlog制作だと、上位プランでもすぐ枠が尽きる計算になります。

SNSや仕事で使う前に知っておきたい注意点は？

使い道がイメージできたところで、配信前に詰まりやすいポイントを3つ。

ここを知らずに上げると、地味に痛い目を見ます。

まず、生成した動画には全部、電子透かしが入ります。

Omniで作られたすべての動画には、目には見えないSynthIDの電子透かしが含まれる。

— Google公式ブログ

これは商用利用を禁止するものではありません。

人の目には見えず、再エンコードやリサイズしても残ります。

問題はその先で、YouTubeはこの透かしを検出して「AI生成コンテンツ」のラベルを自動でつけます。

リアルな合成映像でラベル開示をサボると、非収益化や警告のリスクがある、というのが2026年のYouTubeルールです（YouTubeのAI開示ポリシー）。

ラベルを付けても収益化資格そのものは失われません。

なので、隠さず出すのが結局いちばん安全です。

次に、日本の街並みの再現精度。

さっき書いたとおり、地方や住宅街、日本語の看板は崩れる前提でいたほうがいい。

観光地の特徴的なスポットを狙うのが無難です。

最後に、Google Mapsの利用規約。

地図のスクショを入力に使い、生成された動画を配信する場合、地図画像そのものは動画に映らないので規約に触れる範囲は薄いと考えられます。

ただしMapsのスクショ自体を直接SNSに載せるなら、利用規約の確認が必要です。

仕事で使うなら、ここは一度目を通しておくのをおすすめします。

よくある質問（FAQ）

Gemini Omniは「Google Maps連携機能」を公式に持っているの？

いいえ。

公式が発表したのは「画像を入力して動画を作れる」という汎用機能です。

Mapsのスクショをその画像として使うのは、ユーザーが見つけた応用の使い方。

公式が「Maps連携」と名づけている機能ではありません。

元デモの動画は実写と見分けがつかないレベルなの？

いいえ。

元の投稿者本人は「pretty close to the real thing（かなり本物に近い）」と表現しています。

「実写と見分けがつかない」「完全再現」という評価は一次ソースには存在しません。

雰囲気の再現、と捉えるのが正確です。

日本の道で試したら、ちゃんと再現される？

2026年5月時点で、日本の街並みで試したレポートは見当たりません。

ただ「学習データの少ない小都市は精度が落ちる」「背景の文字が崩れる」という海外の指摘があります。

同じ理屈なら、日本の住宅街や日本語看板も苦戦する確率が高い。

観光地の特徴的なスポットほど成功しやすい、と私は読んでいます。

作った動画はYouTubeやTikTokに上げて稼いでいい？

商用利用は禁止されていません。

ただし生成動画にはSynthIDの電子透かしが入り、YouTubeはそれを検出してAI生成ラベルを自動付与します。

リアルな映像でラベル開示を怠ると非収益化のリスクがあるので、AI生成だと明示して出すのが安全です。

料金はいくらから使える？

YouTube ShortsとYouTube Create Appでは無料で使える、と複数メディアが報じています。

有料はGoogle AI Plusが月$7.99から、とされますが、これは報道ベースで公式ブログ本文には価格数字の記載がありません。

このページに出てきた言葉

Gemini Omni: Googleが2026年5月に発表した動画生成AI。画像などから10秒の動画を音声つきで作る。正式名はGemini Omni Flash
画像入力（image-to-video）: 画像を1枚渡して、それを動かした動画を生成させる使い方。今回は地図スクショを使う
一人称視点（POV）: 見ている本人の目線。運転席や歩く本人から見えている映像
プロンプト: AIに出す指示文。「このルートを走る一人称動画にして」がそれ
会話編集: 作った動画を、チャットで話しかけて修正していく編集方式
クオータ: 1日や1か月に使える上限の枠。超えるとその日は生成できなくなる
SynthID: Googleが動画に埋め込む、目に見えない電子透かし。AI生成だと機械が判別するための印
収益化: YouTubeなどで動画に広告がついて、再生に応じてお金が入る仕組み

参考リンク

この記事を書いた人

aisola

Aisola Lab 運営者

AIツールを使ったコンテンツ制作・リサーチ・WordPress運用を日常的にやっています。自分で動かせるものは実際に触って書き、触っていないものは公式ドキュメントと一次情報をもとに書き分けています。

運営者情報 X（@ai_sola27）note

※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。

-AI活用全般
-Gemini, 動画作り

AI活用全般

2026/7/15

ChatGPT Sitesで家計簿・進捗ボードを作ってURLで配る手順｜サーバー契約もコードも不要

課金中のChatGPTに、プロンプトからWebサイトを作ってURLで配れる「ChatGPT Sites」が入り始めました。サーバー契約もコードも要らず、家計簿・進捗ボード・イベント案内級の小さいサイトを作って共有できるのが売りです。ただしパブリックベータで、容量やデータの保存地域など公式が数字を出していない部分もあります。この記事は課金中のChatGPTで小さなWebサイトを作って誰かに配りたい非エンジニア向け（HTMLを触ったことがなくても読めます）。 ChatGPT Sitesとは？プロンプトか ...

AI活用全般

2026/7/15

ChatGPTに絵コンテを頼むと文字の表しか出ない時｜GPT Image 2で12コマ・秒数つきの撮影設計図を画像1枚で出すプロンプト全文

ChatGPTに「絵コンテを作って」と頼むと、返ってくるのは文字だけの表がほとんどです。でも海外で拡散したあるプロンプトを貼ると、12コマ・秒数つきの撮影設計図が画像1枚で出てきます。 GPT Image 2なら無料プランでも試せて、書き換えるのは商品名の1箇所だけ。この記事は短尺動画を1人で撮っている非エンジニア向け（英語のプロンプトはコピペで大丈夫です）。そもそもこの「12コマ絵コンテ」プロンプトって何？ TikTokやInstagramの短尺動画を撮るとき、多くの人は段取りを頭の中だけで組みま ...

AI活用全般

2026/7/14

Gemini 3.5 Flashは本当に安いのか｜「Proより安い」の裏で前のFlashは3〜6倍値上げ、自分が損か得か見極める

Gemini 3.5 Flashは「3.1 Proより40%安い」も「前のFlashより3〜6倍高い」も、両方ほんとです。無料のGeminiアプリで使う人は前と同じ月額で性能アップ、APIで使う開発者は同じ処理で請求が跳ね上がる。同じモデルなのに損得が逆になります。飛びつく前に、手元の使い方が「無料アプリ側」か「API課金側」かだけは確認しといた方がいい。この記事はGeminiを業務で使い、ChatGPTやClaudeと使い分けているAPIコストが気になる人向け（モデルの料金とトークンの基本が分かれ ...

AI活用全般

2026/7/14

Perplexity ComputerがWord・Excel・Outlookに対応｜会社員の調べ物コピペ往復が消える（月20ドルProから）

WordやExcelの横で調べ物が完結する仕組みが、2026年5月29日に動き出しました。資料を別タブで調べてコピペで戻す、あの往復が消えるという話です。月20ドルのProプランから使えると、Perplexity公式が発表しました。この記事はWord・Excel・Outlookを毎日触る事務・営業・企画職の人向け（関数やプログラミングが分からなくても読めます）。 Perplexity Computerという調べ物AIが、Microsoftのオフィスソフトの中に入りました。Word、Excel、Pow ...

AI活用全般

2026/7/14

Gemini 3.5 Live Translateで旅行・接客・家族の会話を画面見せ合いなしで進める｜Google翻訳に無料で入った同時通訳

スマホの画面を相手に見せ合って、打ち込んで、また見せて。あのもどかしいやり取りが、会話のまま進むようになりました。 Gemini 3.5 Live Translate は、いつものGoogle翻訳アプリに無料で追加された同時通訳機能です。70以上の言語に対応し、サインアップも新アプリも要りません。ただし、契約や医療みたいに誤訳が命取りになる場面では、まだ人の通訳を残したほうがいい。旅行・接客・家族との会話で使い倒すのが、いまの正解だと私は思っています。この記事は英語が苦手で、海外旅行や外国人の接客に不 ...

Google I/O 2026とAnthropic $900B｜今週のAIニュースまとめ（5/18-5/24）勢力図が一気に動いた1週間

Claudeに正直モードを設定してでっち上げ回答を止める方法｜Anthropic公式7手法を設定欄に1回貼るだけ