AIアニメ動画の作り方 7ステップ完全ガイド｜Kling・ElevenLabs・Claude

2026年4月29日

公開日: 2026年4月10日／最終更新: 2026年4月29日

PICKUP

AIアニメ制作完全ワークフロー

絵が描けなくても、7ステップでアニメ動画が作れる

KlingClaude7ステップ

AIだけでアニメ動画を作るには「参考資料→脚本→音声→絵コンテ→画像→動画→編集」の7ステップを踏む。

設計の原則は2つ。

音声を映像より先に作ること。

テキストから直接動画を作らず、画像を経由すること。

1分のアニメで1万〜2万円前後。

従来のアニメ制作（1分あたり数十万円）と比べて桁違いに安く、1人で完結できる。

この記事は絵が描けない・動画を作ったことがないけどAIでアニメを作ってみたい人向け（特別な前提知識なし、ツール名を知らなくても読めます）。

「AIで動画が作れるらしい」というのは聞いたことがある。

でもどうやって。

どのツールを使って、どの順番でやるのか。

「AIで画像を作る」まではわかる。

Midjourney（テキストから画像を作るAIサービス）とかKling（画像と動画を作れるAIサービス）とか。

でもそこから「動画」にするまでの道のりが見えない。

脚本は。

声は。

音楽は。

編集は。

全部AIでできると言われても、「全部」って具体的に何のことか。

私も同じでした。

Klingで短い動画は作ったことがある。

画像を1枚入れて「こう動かして」と指示すると、数秒の動画になるやつ。

キャラ登録して、テキストで指示して、動画が出てくる。

それは知ってる。

でも「ストーリーのあるアニメ動画」を最初から最後まで作る方法は知らなかった。

TikTok用のスライド動画は作ってるけど、それとアニメーション動画は全然違う世界。

この記事では、海外のAI映像クリエイターが実践している「AIアニメーション完全ワークフロー」の7ステップの流れと、各工程で使うAIツール、具体的なプロンプト例、かかるコスト、よくある失敗パターンまで全部書きます。

絵が描けない人。

動画を作ったことがない人。

でも「AIでアニメっぽい動画を作ってみたい」と思っている人に読んでほしいです。

ツールを知ってるのに作れないのはなぜ？

ツールを知っている状態

✕ ツールは揃っている

✕ レシピ（ワークフロー）がない

✕ 何をどの順番でやるか不明

作れる状態

✓ 7ステップのフローがある

✓ 全工程がつながっている

✓ 1人で完結できる

AIで動画を作るツールはたくさんある。

画像を作るMidjourney。

画像から動画を作るKling。

声を作るElevenLabs（テキストから人間の声を作るAIサービス）。

でも「ツールを知ってる」と「作品が作れる」はまったく違う。

フライパンも包丁も冷蔵庫もある。

でもレシピがない。

材料をどの順番で、どう組み合わせればいいかわからない。

今回のワークフロー（作業の流れ）は、そのレシピ。

「まずこれをやって、次にこれをやって、最後にこうする」の順番と理由が全部ある。

ツール単品の紹介記事は山ほどある。

でも「全工程をつなげた一連のフロー」は日本語だとほとんどない。

「ゼロから1本のアニメ動画を完成させる全手順」を1つの記事で通したものは、調べた限りまだなかった。

だからこの記事を書いた。

アニメ制作の7ステップとは？

音声ファースト ── 音声の尺に映像を合わせるのが成功の鍵

STEP 1

参考資料

→

STEP 2

脚本

→

STEP 3

音声

→

STEP 4

絵コンテ

→

STEP 5

画像生成

→

STEP 6

動画変換

→

STEP 7

編集・仕上げ

まず全体の流れを頭に入れてください。

ステップ1、参考資料を集める。

ステップ2、脚本を書く。

ステップ3、音声を作る。

ステップ4、絵コンテ（場面ごとの設計図）を作る。

ステップ5、画像を生成する。

ステップ6、画像を動画にする。

ステップ7、編集して仕上げる。

ここで「え？」となりませんか。「音声がステップ3」なんですよ。映像より先。

普通は「映像が先で、あとから声を入れる」と思いません？映画やドラマはそう見える。

撮影が先で、声を当ててる感じがする。

でもアニメーションは逆。

考えてみてください。

キャラクターのセリフが5秒なら、そのシーンは最低5秒必要ですよね。

10秒のセリフなら10秒のシーンが必要。

つまり音声の長さが、シーンの長さを決めている。

音声が土台で、その上に映像を乗せていく。

もし映像を先に作ると、3秒の映像に5秒のセリフを入れたい時に詰む。

映像を作り直すか、セリフを短くするか。

どっちにしても二度手間。

音声を先に確定させておけば、各シーンの尺が最初から決まる。

絵コンテも画像も動画も、全部そのタイミングに合わせて作ればいい。

ズレない。

やり直しが減る。

これ、プロのアニメ制作でも同じ順番です。

声優の収録が先で、その音声にタイミングを合わせて絵を描く。

「音声ファースト」は、AIに限らずアニメ制作の基本原則だった。

なぜ「画像→動画」の順番なのか？

テキスト → 動画

✕ 一発勝負

✕ 結果は運任せ

✕ キャラの見た目が毎回変わる

✕ やり直しコストが高い

画像 → 動画（二段構え）

✓ まず静止画で確認できる

✓ 狙い通りに作れる

✓ キャラの一貫性を保てる

✓ 修正が画像単位で可能

AIで動画を作る方法は大きく2つある。

1つ目、テキストから直接動画を作る。

「男の子が公園を走っている」と入力すると、AIが映像をゼロから生成する。

2つ目、画像を先に作って、それを動画にする。

まず「走っている男の子」の静止画を作って、次に「この男の子を走らせて」と指示する。

今回のワークフローは2つ目。

なぜかというと、1つ目は「何が出てくるかわからない」から。

「青い服の男の子が公園で走っている」と書いても、AIの解釈で服の色が微妙に違ったり、公園じゃなくて校庭になったりする。

テキストだけだとAIの想像の幅が広すぎる。

画像を先に作ると、ゴールが固定される。

「この男の子を、この背景で、走らせて」。

AIは見た目を想像する必要がなくて、「動き」だけに集中できる。

コントロールの精度がまるで違う。

比較	テキスト→動画	画像→動画
手軽さ	テキスト1回で完結	画像生成+動画化の2段階
コントロール	AIの解釈次第（運任せ）	見た目を固定して動きだけ指示
一貫性	場面ごとにキャラが変わりやすい	同じ画像ベースなので維持しやすい
プロの採用率	少ない	ほぼ全員がこちら

「テキスト→動画」は一発勝負。

楽だけど結果は運任せになりがち。

「画像→動画」は二段構え。

一手間増えるけど、狙ったものを狙った通りに作れる。

ここまでが、7ステップの「設計思想」の話。

なぜ音声が先なのか。

なぜ画像を経由するのか。

この2つの原則を理解していれば、ツールが変わっても応用がきく。

必要なツールといくらかかる？

💬

AIチャット・脚本

Claude

無料〜月$20

🎨

画像生成

Midjourney

月$10〜

🎬

動画生成

Kling

クレジット制

🎤

音声生成

ElevenLabs

月$5〜

✏️

動画編集

CapCut

無料

全工程で使うAIツールは5種類。

用途	ツール	料金	備考
脚本・絵コンテ	Claude / ChatGPT / Grok（X社のAIチャット）	無料〜月20ドル	私はClaude使用。どれでもOK
画像生成	Midjourney / DALL-E 3（OpenAIの画像生成AI） / Kling	月10ドル〜	Klingは動画生成のついでに画像も作れる
動画生成	Kling	クレジット制（生成のたびにポイント消費。1クレジット≒2円）	キャラ登録機能あり。一貫性重視ならこれ
音声生成	ElevenLabs	無料〜月5ドル	日本語対応。数十種類の声から選択
編集・BGM	CapCut（無料の動画編集アプリ）+ Suno（テキストから曲を作るAI）	無料	CapCutはPC/スマホ両対応。SunoはAI作曲

1本のアニメ動画にいくらかかるか

「無料でできますよ」とは言えない。

各ツールに無料枠はあるけど、「1本のアニメ動画を完成させる」となると無料枠だけでは厳しい。

特にKlingの動画生成。

これがコストの大部分を占める。

15秒の動画を1回生成するのに約360クレジット（約720円）。

でも1回で思い通りの動画が出ることはほぼない。

同じシーンで3〜5パターン作って、一番いいカットを選ぶのが普通。

つまり1シーンあたり2,000〜3,600円くらいかかる計算。

規模	目安コスト	内容
お試し（30秒）	3,000〜5,000円	とりあえず形にする
ちゃんとした1分	1万〜2万円	4〜6シーン構成
品質重視の2分超	5万円前後	こだわりショート

「高い」と思った人もいると思う。

でも従来のアニメ制作は1分あたり数十万円かかる世界。

それが数万円で、しかも1人でできる。

そう考えると破壊的に安い。

とはいえ初めてなら、まず無料枠で各ツールを試して感覚をつかむのがおすすめ。

いきなり2分のアニメを作ろうとしないでください。

まず15秒。

それだけでも「おお」となるから。

ステップ1：参考資料はどう集める？

いきなり作り始めない。

これ大事。

まず「どんな動画を作りたいか」のイメージを固める。

YouTubeで好きなアニメーションを3〜5本見る。見る時のポイントは3つ。

1つ目、キャラクターの雰囲気。リアル寄りか、デフォルメ寄りか。

2つ目、色使い。暖色系か、寒色系か、パステルか。

3つ目、カメラワーク。固定が多いか、動きが多いか。

「このキャラの雰囲気がいい」「この色使いが好き」とメモする。スクショでもいい。

参考資料がないとどうなるかというと、AIに指示を出す時に「いい感じにして」になっちゃう。

AIは「いい感じ」がわからない。

具体的な「お手本」があるほど、出力の精度は上がる。

期待結果: 参考動画3〜5本のリンクと、雰囲気・色使い・カメラワークの3項目メモが手元にある状態。

詰まりどころ: 「全部いい感じ」で済ませると次の工程で必ず迷子になる。

最低でも雰囲気を1単語（例「ほのぼの」「シュール」「クール」）に絞り込む。

Claudeに「こういう雰囲気のアニメを作りたいんだけど、どんなスタイルが合う？」と聞いてみるのもあり。

参考画像のURLを貼って「この雰囲気に近いスタイルを英語で説明して」と頼めば、後で使える画像生成プロンプトのベースができる。

ステップ2：脚本はどう書く？

Claudeに頼む。こんな感じのプロンプトで。

「子ども向けの1分間のアニメ脚本を書いて。

テーマは『迷子の子猫が友達を見つける話』。

キャラクターは子猫のミケと犬のポチ。

各シーンごとに、セリフと場面の描写を分けて書いて。

場面の描写には、場所、時間帯、キャラの位置と表情を入れて」

ポイントは「場面の描写を入れて」の部分。

「教室の中。

朝。

窓から光が差している。

ミケが不安そうに周りを見回す」みたいな描写。

これが後のステップ5「画像生成」のプロンプトのベースになる。

セリフだけだと、あとで「このシーンってどんな絵にすればいいの」となる。

場面の描写があれば、画像生成AIへの指示がスムーズに作れる。

脚本ができたら、セリフだけ抜き出す。

「ミケとポチのセリフだけ、キャラ名つきで抜き出して」とClaudeに頼めば一瞬で出てくる。

この抜き出したセリフが、次のステップ3で音声にする素材になる。

期待結果: 4〜6シーン分の脚本（セリフ＋場面描写）と、セリフだけ抜き出した一覧の2つがClaudeから返ってきている状態。

詰まりどころ: 1分の動画なのに脚本が2分相当の長さで返ってくることがある。

「合計60秒におさまる分量で」と最初に指定する。

長すぎたら「半分に削って、テンポ感優先で」と再依頼。

ステップ3：音声はどう作る？

抜き出したセリフをElevenLabsに入れる。

ElevenLabsはテキストを入力すると人間の声を生成してくれるAIサービス。

何十種類もの声が用意されていて、キャラクターに合う声を選ぶ仕組み。

子どもキャラなら高めの声。

大人キャラなら落ち着いた声。

日本語にも対応しているので、日本語のセリフをそのまま入れれば音声が出てくる。

操作の流れはシンプル。

ElevenLabsの「Text to Speech」画面で、左側のボイス選択メニューから声を選ぶ。

テキスト入力欄にセリフを貼る。

「Generate」ボタンで音声が生成される。

MP3でダウンロードできる。

ここで大事なのは、各セリフの音声ファイルを1つずつ保存しておくこと。

そして各音声の「長さ」をメモしておく。

ミケのセリフ1：3.2秒。

ポチのセリフ1：2.8秒。

みたいに。

この秒数が、次の絵コンテで「各シーンの尺」を決める基準になる。

さっき説明した「音声ファースト」の原則がここで活きてくる。

期待結果: セリフ数と同じ数のMP3ファイルが手元にあり、それぞれの秒数を書いたメモができている状態。

詰まりどころ: 日本語のイントネーションが不自然になることがある。

漢字をひらがなに開く（「公園」→「こうえん」）、句読点を増やすと改善する。

それでもダメなら別の声に変える。

ステップ4：絵コンテはどう作る？

絵コンテというのは、「どの場面で何を映すか」の設計図。

映画やアニメの制作では必ず作るもの。

でもAIなら手描きしなくていい。

テキストで作れる。

Claudeにこう頼む。

「この脚本をもとに絵コンテを作って。

各シーンごとに以下を書いて。

1、画面に何が映っているか。

2、カメラの角度（アップ、引き、横からなど）。

3、キャラクターの表情と体の動き。

4、シーンの尺（音声の長さに合わせて）」

音声の長さをClaudeに共有しておけば、「このシーンは3.2秒だから、歩きながら一言だけ」みたいに尺に合った絵コンテが出てくる。

ここまでのステップ1〜4は全部「テキストの世界」。

AIチャットだけで完結する。

絵が描けなくても全く問題ない。

画像生成もアニメーションも触らなくていい。

「テキストだけでここまで準備できるんだ」というのがこのワークフローの面白いところだと思う。

期待結果: 各シーンに「映るもの・カメラ角度・キャラの動き・尺（秒数）」の4項目が揃った絵コンテ表が手元にある状態。

詰まりどころ: シーンごとの尺がバラバラで合計が音声総尺と合わないことがある。

「合計尺は○秒。

各シーンの秒数の合計がそこに収まるように」と数字で指定する。

ステップ5：画像はどう生成する？

Kling Omni キャラ一貫性ワークフロー

STEP 1

キャラ画像作成

Midjourneyで生成

→

STEP 2

Omniに3枚登録

正面アップ・全身・背面

→

STEP 3

スマート説明

AIがキャラを記憶

→

STEP 4

全シーンで一貫性維持

同じキャラが再現される

ここからビジュアルの世界。

絵コンテのテキストをもとに、各場面の画像をAIで作る。

MidjourneyやKlingの画像生成に、絵コンテの描写を英語で入力する。

英語がわからなくても大丈夫。

「Claudeにこの場面描写を英語の画像生成プロンプトに変換して」と頼めばOK。

で、ここで一番大きな問題にぶつかる。キャラクターの一貫性。

シーン1で作った子猫のミケと、シーン5で作った子猫のミケの顔が違う。

色が変わる。

模様が変わる。

ひどいと別のキャラになっている。

これ、AI動画制作で一番多い挫折ポイントだと思う。

キャラクター一貫性の攻略法：Klingのキャラ登録（Omni）

Klingにはこの問題を解決する機能がある。

「Omni」（キャラを登録して同じ見た目で再利用できる機能）。

私はこの機能が好きでKlingを使っています。

やり方はこう。

まずKlingのメインメニューから「Omni」を選択する。

「主体を作成」から画像を3枚登録する。

1枚目、顔の正面アップ。

2枚目、正面の全身。

3枚目、背面の全身。

3枚とも、同じキャラクターの画像を用意する。

最初に作った「一番いい出来のキャラ画像」を3アングルで用意すればいい。

名前をつけて「スマート説明」を押すと、Klingが自動でそのキャラの外見説明文を生成してくれる。

登録完了。

以降はどのシーンを作る時でも、このキャラをポチッと選択するだけで、同じ外見を維持してくれる。

複数キャラも登録できるし、背景画像も登録できる。

100%完璧ではない。

場面によって微妙に違うこともある。

でも登録なしで作るのと比べたら、一貫性のレベルがまるで違う。

この機能を知っているかどうかで、挫折するかしないかが分かれると思っています。

期待結果: Omniにキャラが登録され、シーンごとの画像（各シーン3〜5パターン）が手元に揃っている状態。

詰まりどころ: 3アングルの画像を用意するのが最初のハードル。

同じキャラを別角度で出すには、Midjourneyで「character sheet」「3 views: front, side, back」と指定して1枚に3アングルまとめて出すのが楽。

ステップ6：画像をどう動画にする？

Kling Image to Video 成功のポイント

✓

1カット1動作複数の動きを1カットに詰め込まない

✓

3〜5パターン生成して選ぶ1回で決めようとしない。複数生成が前提

✓

速度指示を入れる「ゆっくり振り向く」「素早く走る」など動きの速度を明記

✓

カスタムマルチショットで最大5カット複数カットを一度に生成してつなぎを自然にする

ここがAIアニメーションの核心。静止画を「動く映像」に変える。

Klingの「Image to Video」（画像から動画を作る機能）を使う。

画像を1枚入れて「キャラクターが歩く」「振り向く」「手を振る」みたいに動きの指示を出すと、数秒の動画が生成される。

1カットあたり3〜10秒くらい。

動きの指示のコツは、シンプルに書くこと。

「キャラクターがゆっくり右を向いて微笑む」くらいで十分。

「キャラクターが右を向きながら手を振って、同時にジャンプして、背景では雲が流れて…」みたいに詰め込むと、AIが混乱して変な動きになる。

1カットに1つの動き。

これが基本。

思い通りの動きにならないことはよくある。

そういう時は指示を少し変えて再生成する。

1カットにつき3〜5パターン作って、一番いいのを選ぶ。

ここが一番時間とコストがかかる工程。

でも一番楽しい工程でもある。

カスタムマルチショット（最大5カットを1回の生成でまとめて作る機能）

Klingにはもう1つ強力な機能がある。

最大15秒、最大5カットを1回の生成で作れる。

各カットに個別のプロンプトを設定できるので、「カット1：歩いている。

カット2：振り向く。

カット3：手を振る」みたいに連続した動きを一気に生成できる。

1カットあたり3秒がちょうどいい。

注意点として、カット数×秒数と生成秒数を合わせる必要がある。

合わないと生成ボタンが押せない。

それと、スタートフレーム画像とシーン1の内容を同期させること。

ここがズレると最初のカットから変な動きになる。

期待結果: 各シーンの動画クリップ（MP4形式）が、絵コンテで決めた秒数ぶん揃っている状態。

詰まりどころ: 「動きが固まって見える」時は、プロンプトに「smooth」「slow motion」「gentle camera pan」など映像用の英単語を足すと改善することがある。

それでもダメなら入力画像自体を見直す（ポーズが極端だと動かしにくい）。

ステップ7：編集はどう仕上げる？

最後に全素材をつなげる。

動画クリップ、音声ファイル、BGM。

これを動画編集アプリで並べる。

CapCutみたいな無料の動画編集アプリでできる。

パソコンでもスマホでも使える。

やることはシンプル。

1、タイムラインに動画クリップを順番に並べる。

2、各クリップの下に対応する音声ファイルを配置する。

3、音声のタイミングに合わせて動画の開始位置を調整する。

4、BGMを追加する。

5、テロップ（字幕）を入れる。

6、書き出す。

BGMはSunoで作れる。

「明るくてテンポのいい子ども向けアニメのBGM」みたいな指示で曲が出てくる。

私もSuno使ったことあるけど、テキストを入れるだけで本当に曲が出てくるので最初はびっくりした。

クオリティもちゃんとしている。

効果音も同じくAIで生成できる。

ドアの音、足音、風の音。

テキストで「木のドアを開ける音」と書けば出てくるサービスがある。

全素材を並べて、タイミングを合わせて、書き出す。

これで1本のアニメ動画が完成する。

期待結果: MP4形式で1本の動画ファイルが書き出された状態。

音声・BGM・字幕が映像と合っている。

詰まりどころ: 書き出した動画の音量バランスが悪いことが多い（BGMが大きすぎてセリフが聞こえない）。

BGMはセリフの3割くらいの音量に下げる。

CapCutならクリップを選んで「音量」スライダーで調整できる。

よくある失敗パターンと回避法は？

⚠ よくある失敗と回避法

いきなり動画を生成する回避: 必ず静止画で構図を確認してから動画にする

キャラ設定を登録せずに毎回プロンプトで指定回避: Kling Omniに3枚登録して一貫性を確保する

1カットに複数の動作を詰め込む回避: 1カット1動作を徹底する

音声と映像の尺を合わせない回避: 音声ファーストで先に音声の尺を確定させる

生成1回で完成を目指す回避: 3〜5パターン生成してベストを選ぶのが前提

実際にやるといくつかの「あるある」にぶつかる。

先に知っておけば回避できるものばかり。

失敗1、キャラクターの顔が場面ごとに変わる

一番多い。

さっき説明したKlingのOmniキャラ登録を使えばかなり改善する。

それでも100%ではないので、生成結果を見て「顔が違う」と思ったら再生成する。

完璧を目指すより「許容範囲」を決めておくのがコツ。

失敗2、動きが不自然

指示を詰め込みすぎると起きる。

「1カット1動作」を守る。

あと「ゆっくり」「少しだけ」みたいなスピードの指示を入れると安定する。

「激しく動く」は今のAIにはまだ難しい。

失敗3、音声と映像がズレる

ステップ3で音声を先に作って、その秒数に合わせて映像を作ればほぼ防げる。

編集段階で微調整が必要な場合は、動画クリップの開始位置を0.1秒単位で動かす。

失敗4、コストが想定以上に膨らむ

Klingの動画生成はガチャ。

思い通りの結果が出るまで何度も回す。

気づいたらクレジットがなくなっていた、はよくある。

対策は「1シーンあたりの生成回数の上限を決めておく」こと。

5回やってダメなら、プロンプトの書き方自体を見直す。

失敗5、プロンプトが曖昧で意図と違うものが出る

「かわいい猫が動く」だと何が出てくるかわからない。

「白い子猫が右を向いてゆっくり歩く、背景は桜の公園、昼間」くらい具体的に書く。

色、方向、速度、場所、時間帯。

この5つを入れるだけで精度が全然違う。

どんな動画が作れる？

👶

子ども向けYouTubeアニメ

教育系・童話系のショートアニメ。キャラ一貫性が重要

📱

TikTok / リール

15〜60秒の縦型ショート動画。テンポ重視の短尺向き

🎬

オリジナルアニメ作品

数分の自主制作アニメ。脚本から仕上げまで全工程を1人で

このワークフローで作れるものの例。

子ども向けYouTubeアニメ。

海外では「AI Kids Animation」がジャンルとして成立している。

絵が描けなくてもAIだけで量産できるから。

TikTokやInstagramのリール。

30秒〜1分のショートストーリー動画。

「キャラクターが語りかける」「場面が切り替わる」みたいな動きのある動画が作れる。

オリジナルのアニメ作品。

自分だけのキャラクター、自分だけのストーリー。

昔ならアニメ制作会社がないと無理だったことが、1人でできる。

Klingで短いクリップを作るところまでは日常的にやっています。

脚本から編集まで通すフルワークフローを通すと、「1人で完結できる」という感覚がつかめる。

道筋が見えるからです。

よくある疑問

Q. 全工程でどのくらい時間がかかる？

1分くらいの短いアニメなら、慣れれば1日で作れる。

最初は数日かかるかもしれない。

一番時間がかかるのはステップ5と6。

画像生成と動画化のガチャ。

Q. 英語ができないと無理？

大丈夫。

Claudeに「この場面描写を英語の画像生成プロンプトに変換して」と頼めばいい。

画像生成AIは英語のほうが精度高いけど、翻訳はAIに任せれば問題なし。

Q. スマホだけでできる？

一部はスマホでもできる。

脚本作りや画像生成はスマホでもOK。

でも動画編集はパソコンのほうが圧倒的に楽。

全工程スマホだけは正直厳しいと思う。

Q. 著作権は大丈夫？

AI生成コンテンツの著作権はまだグレーな部分がある。

国や状況によって扱いが違う。

商用利用するなら、各ツールの利用規約を必ず確認してください。

AIに「このツールの商用利用の条件を教えて」と聞けば調べてくれます。

Q. Kling以外のツールでもできる？

できる。

Runway、Pika、Viduなど選択肢はある。

ワークフローの「流れ」は同じで、使うツールが変わるだけ。

ただしキャラクター登録機能があるのはKlingの強みなので、一貫性を重視するならKlingがおすすめ。

まとめ

AIアニメーション制作の全工程。

参考→脚本→音声→絵コンテ→画像→動画→編集の7ステップ。

設計思想は2つ。

音声が先。

画像を経由する。

この2つの原則があるから、全工程が一本の線でつながる。

絵が描けなくても、声が出せなくても、全部AIでできる。

コストはかかる。

特にKlingの動画生成。

でも従来のアニメ制作と比べたら桁が違う。

まずは小さく始めてください。

Claudeに「子ども向けの15秒アニメの脚本を書いて」と頼むだけ。

それが7ステップの最初の一歩になる。

このページに出てきた言葉

Kling: 中国のKuaishou社が出している画像・動画生成AI。キャラ登録機能（Omni）で同じキャラを使い回せるのが強み。
Midjourney: テキストから画像を作るAIサービス。アート寄りの絵柄に強い。月10ドルから。
ElevenLabs: テキストから人間の声を作るAIサービス。日本語対応で、数十種類の声から選べる。
Suno: テキストから曲を作るAIサービス。BGMや効果音を一発で出せる。
CapCut: 無料で使える動画編集アプリ。PCでもスマホでも動く。
Omni: Klingのキャラ登録機能。3枚の画像でキャラを覚えさせると、以降のシーンで同じ見た目を維持してくれる。
Image to Video: 静止画を入力すると、その画像をベースに動画を作ってくれるKlingの機能。
カスタムマルチショット: Klingの機能。最大15秒・最大5カットを1回の生成でまとめて作れる。
クレジット制: 生成のたびにポイントを消費する課金方式。Klingは1クレジット約2円。
絵コンテ: 場面ごとに「何が映るか・カメラ角度・キャラの動き・尺」を書いた設計図。テキストでも作れる。

参考リンク

Kling公式サイト: https://klingai.com
ElevenLabs公式サイト: https://elevenlabs.io
Midjourney公式サイト: https://www.midjourney.com
Suno公式サイト: https://suno.com
CapCut公式サイト: https://www.capcut.com

この記事を書いた人

aisola

Aisola Lab 運営者

AIツールを使ったコンテンツ制作・リサーチ・WordPress運用を日常的にやっています。自分で動かせるものは実際に触って書き、触っていないものは公式ドキュメントと一次情報をもとに書き分けています。

運営者情報 X（@ai_sola27）note

※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。

-AI活用全般
-ElevenLabs, Kling, Midjourney, Suno, 動画作り, 音声・音楽

comment コメントをキャンセル

AI活用全般

2026/7/15

ChatGPT Sitesで家計簿・進捗ボードを作ってURLで配る手順｜サーバー契約もコードも不要

課金中のChatGPTに、プロンプトからWebサイトを作ってURLで配れる「ChatGPT Sites」が入り始めました。サーバー契約もコードも要らず、家計簿・進捗ボード・イベント案内級の小さいサイトを作って共有できるのが売りです。ただしパブリックベータで、容量やデータの保存地域など公式が数字を出していない部分もあります。この記事は課金中のChatGPTで小さなWebサイトを作って誰かに配りたい非エンジニア向け（HTMLを触ったことがなくても読めます）。 ChatGPT Sitesとは？プロンプトか ...

AI活用全般

2026/7/15

ChatGPTに絵コンテを頼むと文字の表しか出ない時｜GPT Image 2で12コマ・秒数つきの撮影設計図を画像1枚で出すプロンプト全文

ChatGPTに「絵コンテを作って」と頼むと、返ってくるのは文字だけの表がほとんどです。でも海外で拡散したあるプロンプトを貼ると、12コマ・秒数つきの撮影設計図が画像1枚で出てきます。 GPT Image 2なら無料プランでも試せて、書き換えるのは商品名の1箇所だけ。この記事は短尺動画を1人で撮っている非エンジニア向け（英語のプロンプトはコピペで大丈夫です）。そもそもこの「12コマ絵コンテ」プロンプトって何？ TikTokやInstagramの短尺動画を撮るとき、多くの人は段取りを頭の中だけで組みま ...

AI活用全般

2026/7/14

Gemini 3.5 Flashは本当に安いのか｜「Proより安い」の裏で前のFlashは3〜6倍値上げ、自分が損か得か見極める

Gemini 3.5 Flashは「3.1 Proより40%安い」も「前のFlashより3〜6倍高い」も、両方ほんとです。無料のGeminiアプリで使う人は前と同じ月額で性能アップ、APIで使う開発者は同じ処理で請求が跳ね上がる。同じモデルなのに損得が逆になります。飛びつく前に、手元の使い方が「無料アプリ側」か「API課金側」かだけは確認しといた方がいい。この記事はGeminiを業務で使い、ChatGPTやClaudeと使い分けているAPIコストが気になる人向け（モデルの料金とトークンの基本が分かれ ...

AI活用全般

2026/7/14

Perplexity ComputerがWord・Excel・Outlookに対応｜会社員の調べ物コピペ往復が消える（月20ドルProから）

WordやExcelの横で調べ物が完結する仕組みが、2026年5月29日に動き出しました。資料を別タブで調べてコピペで戻す、あの往復が消えるという話です。月20ドルのProプランから使えると、Perplexity公式が発表しました。この記事はWord・Excel・Outlookを毎日触る事務・営業・企画職の人向け（関数やプログラミングが分からなくても読めます）。 Perplexity Computerという調べ物AIが、Microsoftのオフィスソフトの中に入りました。Word、Excel、Pow ...

AI活用全般

2026/7/14

Gemini 3.5 Live Translateで旅行・接客・家族の会話を画面見せ合いなしで進める｜Google翻訳に無料で入った同時通訳

スマホの画面を相手に見せ合って、打ち込んで、また見せて。あのもどかしいやり取りが、会話のまま進むようになりました。 Gemini 3.5 Live Translate は、いつものGoogle翻訳アプリに無料で追加された同時通訳機能です。70以上の言語に対応し、サインアップも新アプリも要りません。ただし、契約や医療みたいに誤訳が命取りになる場面では、まだ人の通訳を残したほうがいい。旅行・接客・家族との会話で使い倒すのが、いまの正解だと私は思っています。この記事は英語が苦手で、海外旅行や外国人の接客に不 ...

Claudeで何ができる？ 60超のスキル・ツールを整理したリソースマップの使い方

Claude Code 5つの仕込みで出力が変わる｜CLAUDE.md・スキル・エージェント設計ガイド