AI活用全般

Gemini OmniにGoogle Mapsのスクショを渡すだけ|現地に行かずその道を歩く一人称動画を作る方法

Google Mapsのスクショ1枚を渡すだけで、撮りに行かなくても「その道を歩く・走る一人称動画」が作れる、という使い方が海外で話題です。

これはGemini Omniの「画像を入力して動画にする」機能を、地図のスクショに応用したもの。

公式が「Maps連携」と謳っている機能ではありません。

元デモの再現度は本人いわく「pretty close(かなり近い)」止まりで、実写と見分けがつくレベルではない、というのが正直なところです。

この記事は動画AIに月額課金していて「Gemini Omniを手元のどんな作業に使えるか」を探している個人クリエイター・不動産仲介の現場担当向け(動画生成AIを使ったことがあれば読めます)。

Google Mapsのスクショ1枚で、その道の一人称動画が作れるって本当?

きっかけは、ある海外ユーザーが2026年5月21日にXへ投稿した1本のデモでした。

やったことはシンプルです。

Google Mapsでルートを引いたスクショを用意して、Gemini Omniに渡す。

そして「この道をタクシーで走る一人称視点の動画にして」と頼む。

それだけ。

結果は2.7M回再生されて、リポスト2,591件まで伸びました。

これ、地味にすごい数字です。

Google Mapsのスクリーンショット(ルートを描いたもの)をGemini Omniにアップロードし、「参照画像のルートに沿ってタクシーを運転する人の一人称視点を作って」と指示した。

結果はpretty close to the real thing(かなり本物に近い)だった。

— 元デモ投稿者(X、2026年5月21日/digg.comが転載・集計

ここで誤解しないでほしいのが、これは「公式のMaps連携機能」ではないという点です。

Googleが正式に発表したのは「テキスト・画像・音声・動画をまとめて1プロンプトで入力できる」という汎用の入力機能(公式ブログ)。

そこに含まれる「画像入力」を、ユーザーがMapsスクショに使った応用例というのが正確な立て付けです。

私が面白いと思ったのは、まさにここ。

公式が想定してない使い方が伸びてる構図です。

なぜこのMaps活用が、わざわざ注目されているのか?

正直、ただの「動画AIで動画を作りました」なら、ここまで話題にはなりません。

注目された理由は、大きく2つです。

1つ目は、実在の場所を入力に使えること。

多くの動画生成AIは、テキストや適当な画像から「それっぽい街並み」を作ります。

でもGemini Omniは、地図という実在の場所情報をスタート地点にできる。

技術解説では、Street ViewとYouTubeの長年の映像データで訓練されている点が背景として挙げられています。

Project Genie + Street Viewの接地、約20年分の地図画像(が下支えになっている)。

— AIニュースまとめ(latent.space

2つ目は、会話で何度も編集できること。

これは競合が持っていない強みとされています。

生成したあとに「ライトを変えて」「雨にして」と自然な言葉で直せる。

海外のレビューでも、生の映像品質では他社に及ばないものの、この会話編集は頭ひとつ抜けていると評価されています。

会話編集(in-chat editing)では他社に「not close(追いつけない差)」で圧倒している。

一方で生の映像品質はSeedance 2.0が優位。

— 海外の比較レビュー(複数記事が同趣旨を報告)

映像のなめらかさだけならByteDanceのSeedance 2.0などが上、という評価です。

ただ「実在の場所 × 会話で何度も編集」の組み合わせは、いまのところOmniにしかない。

個人的には、ここがクリエイターにとっての本命だと思っています。

海外クリエイターは実際どう評価しているのか?

賛否は割れています。

元デモへの反応は肯定が約73.7%、否定が約26.3%でした。

両方拾います。

肯定側で多かったのが「remarkable result(目を見張る結果)」という声。

あるユーザーは「これを使ったゲームを作るべきだ」とまで書いていました。

発想が一気に飛んでいくタイプの反応です。

一方で、否定側の指摘はかなり実務的でした。

一貫性・正確さ・小都市での性能に失敗が見られる(smaller citiesは学習データが少なく再現精度が落ちる)。

— 元デモへの批判コメント(digg.com

実機テストの記事でも、似た弱点が報告されています。

背景のテクスチャが歪んだり、服の色が微妙に変わったり、フレーム間でディテアルがちらつくことがある。

背景の看板やテキストにスペルミスが出る。

— 実機テスト(digit.in

つまり、特徴的な建物がある観光地は再現されやすく、没個性の住宅街や細い路地は「一般的な街並み」に丸められやすい。

看板の文字も崩れがちです。

日本の街並みで試した記事は2026年5月時点で見当たらないので、ここは正直やってみないと分からない部分。

ただ「小都市は弱い」「文字が崩れる」という傾向から、日本の住宅街や日本語看板も苦戦しそう、というのが私の見立てです。

Google Mapsスクショから一人称POV動画を作る手順は?

帰省路、推しのライブ会場までの道、旅行先の下見、物件から駅までの徒歩ルート。

実在の道を動画にする用途は意外と広いです。

元デモと公式product pageの記載をもとに、同じことを再現する手順をまとめます。

公式のQuickstartはまだ公開されていない(APIは「coming weeks」表記)ので、ここは元デモの手順と公式product pageの入力仕様を組み合わせた再構成です。

  1. STEP1:Google Mapsでルートのスクショを撮る。動画にしたい道を地図上で表示して、ルートが見える状態でスクリーンショットを保存します。元デモはルートを描いた地図画像を使っていました。
  2. STEP2:Gemini Omniにそのスクショを画像として渡す。Gemini app(またはYouTube Create App)を開いて、撮ったスクショをアップロード。公式product pageでは参照画像を最大5枚まで渡せると記載されています。
  3. STEP3:一人称視点で動かす指示を出す。元デモのプロンプトは「create a first person view of someone driving a taxi cab along the route in the reference image(参照画像のルートに沿ってタクシーを運転する一人称視点を作って)」でした。歩く動画にしたいなら driving を walking に変えるイメージです。
  4. STEP4:会話で微調整する。生成後に「change the lighting(光を変えて)」「夕方にして」のように自然な言葉で修正します。視点・時刻・天気・季節を言葉で足すと出力が変わる、と複数のチュートリアル記事が示しています。

引っかかりやすいのは、住宅街や地方の道だと精度が落ちる点。

前提として、特徴的な建物やランドマークが映る区間ほどうまくいきます。

あと音声の差し替え編集は、deepfake防止のため今は使えません(DeepMindモデルカードに明記)。

手順に入れていないのはそのためです。

料金はいくら?10秒という制限はどこまで本当?

ここは数字の出どころで分けて書きます。盛らないのがこの記事の生命線なので。

項目内容出どころ
動画の長さ1本あたり10秒(音声つき)公式product pageに記載
無料で使える場所YouTube Shorts/YouTube Create App複数メディアが一致して報道
Google AI Plus月$7.99とされる報道ベース(公式ブログに価格数字なし)
Google AI Pro月$19.99とされる報道ベース
Google AI Ultra月$99.99〜$200公式発表あり

10秒上限については公式product pageに「10秒間の動画を作成」と記載があります。

なので、ここは公式に書いてあると言ってよさそうです。

ただ、なぜ10秒なのかの理由はステージ発言の引用でしか確認できません。

これはモデルの限界ではなく、より多くの人に届けたいという狙いと、今のところほとんどのユーザーはそれほど長い動画を作りたがらないだろうという見込みに基づく判断だ。

— Google I/Oでの発言として引用(WaveSpeed

価格の$7.99は、私が確認した範囲では公式ブログ本文に数字が出ていません。

Yahoo Tech・WaveSpeed・FindSkill.aiなど複数メディアが一致して「AI Plusは月$7.99」と報じている、という状態です。

なので断定はしません。

もう1つ無視できないのがクオータの消費の速さ。

AI Proプランで2プロンプト生成したら1日の枠の86%を使った、という報告もあります(9to5google)。

ここは正直きつい。

何本も作るVlog制作だと、上位プランでもすぐ枠が尽きる計算になります。

SNSや仕事で使う前に知っておきたい注意点は?

使い道がイメージできたところで、配信前に詰まりやすいポイントを3つ。

ここを知らずに上げると、地味に痛い目を見ます。

まず、生成した動画には全部、電子透かしが入ります。

Omniで作られたすべての動画には、目には見えないSynthIDの電子透かしが含まれる。

Google公式ブログ

これは商用利用を禁止するものではありません。

人の目には見えず、再エンコードやリサイズしても残ります。

問題はその先で、YouTubeはこの透かしを検出して「AI生成コンテンツ」のラベルを自動でつけます。

リアルな合成映像でラベル開示をサボると、非収益化や警告のリスクがある、というのが2026年のYouTubeルールです(YouTubeのAI開示ポリシー)。

ラベルを付けても収益化資格そのものは失われません。

なので、隠さず出すのが結局いちばん安全です。

次に、日本の街並みの再現精度。

さっき書いたとおり、地方や住宅街、日本語の看板は崩れる前提でいたほうがいい。

観光地の特徴的なスポットを狙うのが無難です。

最後に、Google Mapsの利用規約。

地図のスクショを入力に使い、生成された動画を配信する場合、地図画像そのものは動画に映らないので規約に触れる範囲は薄いと考えられます。

ただしMapsのスクショ自体を直接SNSに載せるなら、利用規約の確認が必要です。

仕事で使うなら、ここは一度目を通しておくのをおすすめします。

よくある質問(FAQ)

Gemini Omniは「Google Maps連携機能」を公式に持っているの?

いいえ。

公式が発表したのは「画像を入力して動画を作れる」という汎用機能です。

Mapsのスクショをその画像として使うのは、ユーザーが見つけた応用の使い方。

公式が「Maps連携」と名づけている機能ではありません。

元デモの動画は実写と見分けがつかないレベルなの?

いいえ。

元の投稿者本人は「pretty close to the real thing(かなり本物に近い)」と表現しています。

「実写と見分けがつかない」「完全再現」という評価は一次ソースには存在しません。

雰囲気の再現、と捉えるのが正確です。

日本の道で試したら、ちゃんと再現される?

2026年5月時点で、日本の街並みで試したレポートは見当たりません。

ただ「学習データの少ない小都市は精度が落ちる」「背景の文字が崩れる」という海外の指摘があります。

同じ理屈なら、日本の住宅街や日本語看板も苦戦する確率が高い。

観光地の特徴的なスポットほど成功しやすい、と私は読んでいます。

作った動画はYouTubeやTikTokに上げて稼いでいい?

商用利用は禁止されていません。

ただし生成動画にはSynthIDの電子透かしが入り、YouTubeはそれを検出してAI生成ラベルを自動付与します。

リアルな映像でラベル開示を怠ると非収益化のリスクがあるので、AI生成だと明示して出すのが安全です。

料金はいくらから使える?

YouTube ShortsとYouTube Create Appでは無料で使える、と複数メディアが報じています。

有料はGoogle AI Plusが月$7.99から、とされますが、これは報道ベースで公式ブログ本文には価格数字の記載がありません。

このページに出てきた言葉

Gemini Omni
Googleが2026年5月に発表した動画生成AI。画像などから10秒の動画を音声つきで作る。正式名はGemini Omni Flash
画像入力(image-to-video)
画像を1枚渡して、それを動かした動画を生成させる使い方。今回は地図スクショを使う
一人称視点(POV)
見ている本人の目線。運転席や歩く本人から見えている映像
プロンプト
AIに出す指示文。「このルートを走る一人称動画にして」がそれ
会話編集
作った動画を、チャットで話しかけて修正していく編集方式
クオータ
1日や1か月に使える上限の枠。超えるとその日は生成できなくなる
SynthID
Googleが動画に埋め込む、目に見えない電子透かし。AI生成だと機械が判別するための印
収益化
YouTubeなどで動画に広告がついて、再生に応じてお金が入る仕組み

参考リンク

※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。

-AI活用全般
-,

← 戻る