AI活用全般

AIアニメ動画の作り方 7ステップ完全ガイド|Kling・ElevenLabs・Claude

PICKUP
AIアニメ制作 完全ワークフロー
絵が描けなくても、7ステップでアニメ動画が作れる
KlingClaude7ステップ

AIだけでアニメ動画を作るには「参考資料→脚本→音声→絵コンテ→画像→動画→編集」の7ステップを踏む。
設計の原則は2つ。
音声を映像より先に作ること。
テキストから直接動画を作るのではなく、
画像を経由すること。

使うツールは5種類。
Claude(脚本・絵コンテ)、
Midjourney/Kling(画像生成)、
Kling(動画化)、
ElevenLabs(音声)、
CapCut+Suno(編集・BGM)。

コストは1分のアニメで1万〜2万円前後。
従来のアニメ制作(1分あたり数十万円)と比べると桁違いに安く、
1人で完結できる。

「AIで動画が作れるらしい」ってのは聞いたことある。
でもどうやって? どのツールを使って、
どの順番でやるの?

「AIで画像を作る」まではわかる。
MidjourneyとかKlingとか。
でもそこから「動画」にするまでの道のりが見えない。
脚本は? 声は? 音楽は? 編集は? 全部AIでできるって言われても、
「全部」って具体的に何?

私も同じだったんですよ。
Klingで短い動画は作ったことがある。
画像を1枚入れて「こう動かして」って指示すると、
数秒の動画になるやつ。
キャラ登録して、
テキストで指示して、
動画が出てくる。
それは知ってる。

でも「ストーリーのあるアニメ動画」を最初から最後まで作る方法は知らなかった。
TikTok用のスライド動画は作ってるけど、
それとアニメーション動画は全然違う世界。

この記事では、
海外のAI映像クリエイターが実践している「AIアニメーション完全ワークフロー」の7ステップの流れと、
各工程で使うAIツール、
具体的なプロンプト例、
かかるコスト、
よくある失敗パターンまで全部書きます。

絵が描けない人。
動画を作ったことがない人。
でも「AIでアニメっぽい動画を作ってみたい」って思ってる人に読んでほしいです。

ツールを知ってるのに作れないのはなぜ?

ツールを知っている状態
✕ ツールは揃っている
✕ レシピ(ワークフロー)がない
✕ 何をどの順番でやるか不明
作れる状態
✓ 7ステップのフローがある
✓ 全工程がつながっている
✓ 1人で完結できる

AIで動画を作るツールはたくさんある。
画像を作るMidjourney。
画像から動画を作るKling。
声を作るElevenLabs(AI音声生成サービス)。

でも「ツールを知ってる」と「作品が作れる」はまったく違う。

フライパンも包丁も冷蔵庫もある。
でもレシピがない。
材料をどの順番で、
どう組み合わせればいいかわからない。

今回のワークフローは、
そのレシピ。
「まずこれをやって、
次にこれをやって、
最後にこうする」の順番と理由が全部ある。

ツール単品の紹介記事は山ほどある。
でも「全工程をつなげた一連のフロー」は日本語だとほとんどない。
「ゼロから1本のアニメ動画を完成させる全手順」を1つの記事で通したものは、
調べた限りまだなかった。
だからこの記事を書いた。

アニメ制作の7ステップとは?

音声ファースト ── 音声の尺に映像を合わせるのが成功の鍵
STEP 1
参考資料
STEP 2
脚本
STEP 3
音声
STEP 4
絵コンテ
STEP 5
画像生成
STEP 6
動画変換
STEP 7
編集・仕上げ

まず全体の流れを頭に入れてください。

ステップ1、
参考資料を集める。
ステップ2、
脚本を書く。
ステップ3、
音声を作る。
ステップ4、
絵コンテを作る。
ステップ5、
画像を生成する。
ステップ6、
画像を動画にする。
ステップ7、
編集して仕上げる。

ここで「え?」ってなりませんか。「音声がステップ3」なんですよ。映像より先。

普通は「映像が先で、
あとから声を入れる」って思いません? 映画やドラマはそう見える。
撮影が先で、
声を当ててる感じがする。
でもアニメーションは逆。

考えてみてください。
キャラクターのセリフが5秒なら、
そのシーンは最低5秒必要ですよね。
10秒のセリフなら10秒のシーンが必要。
つまり音声の長さが、
シーンの長さを決めてる。

音声が土台で、
その上に映像を乗せていく。
もし映像を先に作ると、
3秒の映像に5秒のセリフを入れたい時に詰む。
映像を作り直すか、
セリフを短くするか。
どっちにしても二度手間。

音声を先に確定させておけば、
各シーンの尺が最初から決まる。
絵コンテも画像も動画も、
全部そのタイミングに合わせて作ればいい。
ズレない。
やり直しが減る。

これ、
プロのアニメ制作でも同じ順番です。
声優の収録が先で、
その音声にタイミングを合わせて絵を描く。
「音声ファースト」は、
AIに限らずアニメ制作の基本原則だった。

なぜ「画像→動画」の順番なのか?

テキスト → 動画
✕ 一発勝負
✕ 結果は運任せ
✕ キャラの見た目が毎回変わる
✕ やり直しコストが高い
画像 → 動画(二段構え)
✓ まず静止画で確認できる
✓ 狙い通りに作れる
✓ キャラの一貫性を保てる
✓ 修正が画像単位で可能

AIで動画を作る方法は大きく2つある。

1つ目、
テキストから直接動画を作る。
「男の子が公園を走ってる」って入力すると、
AIが映像をゼロから生成する。

2つ目、
画像を先に作って、
それを動画にする。
まず「走ってる男の子」の静止画を作って、
次に「この男の子を走らせて」と指示する。

今回のワークフローは2つ目。

なぜかっていうと、
1つ目は「何が出てくるかわからない」から。
「青い服の男の子が公園で走ってる」って書いても、
AIの解釈で服の色が微妙に違ったり、
公園じゃなくて校庭になったりする。
テキストだけだとAIの想像の幅が広すぎる。

画像を先に作ると、
ゴールが固定される。
「この男の子を、
この背景で、
走らせて」。
AIは見た目を想像する必要がなくて、
「動き」だけに集中できる。
コントロールの精度がまるで違う。

比較テキスト→動画画像→動画
手軽さテキスト1回で完結画像生成+動画化の2段階
コントロールAIの解釈次第(運任せ)見た目を固定して動きだけ指示
一貫性場面ごとにキャラが変わりやすい同じ画像ベースなので維持しやすい
プロの採用率少ないほぼ全員がこちら

「テキスト→動画」は一発勝負。
楽だけど結果は運任せになりがち。
「画像→動画」は二段構え。
一手間増えるけど、
狙ったものを狙った通りに作れる。

ここまでが、
7ステップの「設計思想」の話。
なぜ音声が先なのか。
なぜ画像を経由するのか。
この2つの原則を理解してれば、
ツールが変わっても応用がきく。

必要なツールといくらかかる?

💬
AIチャット・脚本
Claude
無料〜月$20
🎨
画像生成
Midjourney
月$10〜
🎬
動画生成
Kling
クレジット制
🎤
音声生成
ElevenLabs
月$5〜
✏️
動画編集
CapCut
無料

全工程で使うAIツールは5種類。

用途ツール料金備考
脚本・絵コンテClaude / ChatGPT / Grok無料〜月20ドル私はClaude使用。どれでもOK
画像生成Midjourney / DALL-E 3 / Kling月10ドル〜Klingは動画生成のついでに画像も作れる
動画生成Klingクレジット制(1クレジット≒2円)キャラ登録機能あり。一貫性重視ならこれ
音声生成ElevenLabs無料〜月5ドル日本語対応。数十種類の声から選択
編集・BGMCapCut + Suno無料CapCutはPC/スマホ両対応。SunoはAI作曲

1本のアニメ動画にいくらかかるか

正直に言います。
「無料でできますよ!」とは言えない。
各ツールに無料枠はあるけど、
「1本のアニメ動画を完成させる」となると無料枠だけでは厳しい。

特にKlingの動画生成。
これがコストの大部分を占める。
15秒の動画を1回生成するのに約360クレジット(約720円)。
でも1回で思い通りの動画が出ることはほぼない。
同じシーンで3〜5パターン作って、
一番いいカットを選ぶのが普通。
つまり1シーンあたり2,000〜3,600円くらいかかる計算。

規模目安コスト内容
お試し(30秒)3,000〜5,000円とりあえず形にする
ちゃんとした1分1万〜2万円4〜6シーン構成
品質重視の2分超5万円前後こだわりショート

「高い」と思った人もいると思う。
でも従来のアニメ制作は1分あたり数十万円かかる世界。
それが数万円で、
しかも1人でできる。
そう考えると破壊的に安い。

とはいえ初めてなら、
まず無料枠で各ツールを試して感覚をつかむのがおすすめ。
いきなり2分のアニメを作ろうとしないでください。
まず15秒。
それだけでも「おお」ってなるから。

ステップ1:参考資料はどう集める?

いきなり作り始めない。
これ大事。
まず「どんな動画を作りたいか」のイメージを固める。

YouTubeで好きなアニメーションを3〜5本見る。見る時のポイントは3つ。

1つ目、キャラクターの雰囲気。リアル寄り? デフォルメ寄り?

2つ目、色使い。暖色系? 寒色系? パステル?

3つ目、カメラワーク。固定が多い? 動きが多い?

「このキャラの雰囲気がいい」「この色使いが好き」ってメモする。
スクショでもいい。

参考資料がないとどうなるかっていうと、
AIに指示を出す時に「いい感じにして」になっちゃう。
AIは「いい感じ」がわからない。
具体的な「お手本」があるほど、
出力の精度は上がる。

Claudeに「こういう雰囲気のアニメを作りたいんだけど、
どんなスタイルが合う?」って聞いてみるのもあり。
参考画像のURLを貼って「この雰囲気に近いスタイルを英語で説明して」って頼めば、
後で使える画像生成プロンプトのベースができる。

ステップ2:脚本はどう書く?

Claudeに頼む。こんな感じのプロンプトで。

「子ども向けの1分間のアニメ脚本を書いて。
テーマは『迷子の子猫が友達を見つける話』。
キャラクターは子猫のミケと犬のポチ。
各シーンごとに、
セリフと場面の描写を分けて書いて。
場面の描写には、
場所、
時間帯、
キャラの位置と表情を入れて」

ポイントは「場面の描写を入れて」の部分。
「教室の中。
朝。
窓から光が差している。
ミケが不安そうに周りを見回す」みたいな描写。
これが後のステップ5「画像生成」のプロンプトのベースになる。

セリフだけだと、
あとで「このシーンってどんな絵にすればいいの?」ってなる。
場面の描写があれば、
画像生成AIへの指示がスムーズに作れる。

脚本ができたら、
セリフだけ抜き出す。
「ミケとポチのセリフだけ、
キャラ名つきで抜き出して」ってClaude に頼めば一瞬で出てくる。
この抜き出したセリフが、
次のステップ3で音声にする素材になる。

ステップ3:音声はどう作る?

抜き出したセリフをElevenLabsに入れる。
ElevenLabsはテキストを入力すると人間の声を生成してくれるAIサービス。
何十種類もの声が用意されてて、
キャラクターに合う声を選ぶ仕組み。
子どもキャラなら高めの声。
大人キャラなら落ち着いた声。
日本語にも対応しているので、
日本語のセリフをそのまま入れれば音声が出てくる。

ここで大事なのは、
各セリフの音声ファイルを1つずつ保存しておくこと。
そして各音声の「長さ」をメモしておく。
ミケのセリフ1:3.2秒。
ポチのセリフ1:2.8秒。
みたいに。

この秒数が、
次の絵コンテで「各シーンの尺」を決める基準になる。
さっき説明した「音声ファースト」の原則がここで活きてくる。

ステップ4:絵コンテはどう作る?

絵コンテっていうのは、
「どの場面で何を映すか」の設計図。
映画やアニメの制作では必ず作るもの。
でもAIなら手描きしなくていい。
テキストで作れる。

Claudeにこう頼む。
「この脚本をもとに絵コンテを作って。
各シーンごとに以下を書いて。
1、
画面に何が映っているか。
2、
カメラの角度(アップ、
引き、
横からなど)。
3、
キャラクターの表情と体の動き。
4、
シーンの尺(音声の長さに合わせて)」

音声の長さをClaudeに共有しておけば、
「このシーンは3.2秒だから、
歩きながら一言だけ」みたいに尺に合った絵コンテが出てくる。

ここまでのステップ1〜4は全部「テキストの世界」。
AIチャットだけで完結する。
絵が描けなくても全く問題ない。
画像生成もアニメーションも触らなくていい。
「テキストだけでここまで準備できるんだ」ってのがこのワークフローの面白いところだと思う。

ステップ5:画像はどう生成する?

Kling Omni キャラ一貫性ワークフロー
STEP 1
キャラ画像作成
Midjourneyで生成
STEP 2
Omniに3枚登録
正面アップ・全身・背面
STEP 3
スマート説明
AIがキャラを記憶
STEP 4
全シーンで一貫性維持
同じキャラが再現される

ここからビジュアルの世界。
絵コンテのテキストをもとに、
各場面の画像をAIで作る。
MidjourneyやKlingの画像生成に、
絵コンテの描写を英語で入力する。
英語がわからなくても大丈夫。
「Claudeにこの場面描写を英語の画像生成プロンプトに変換して」って頼めばOK。

で、ここで一番大きな問題にぶつかる。キャラクターの一貫性

シーン1で作った子猫のミケと、
シーン5で作った子猫のミケの顔が違う。
色が変わる。
模様が変わる。
ひどいと別のキャラになってる。
これ、
AI動画制作で一番多い挫折ポイントだと思う。

キャラクター一貫性の攻略法:Klingのキャラ登録(Omni)

Klingにはこの問題を解決する機能がある。
「Omni」っていうキャラクター登録機能。
私はこの機能が好きでKlingを使ってます。

やり方はこう。
まずKlingのメインメニューから「Omni」を選択する。
「主体を作成」から画像を3枚登録する。
1枚目、
顔の正面アップ。
2枚目、
正面の全身。
3枚目、
背面の全身。

3枚とも、
同じキャラクターの画像を用意する。
最初にステップ5で作った「一番いい出来のキャラ画像」を3アングルで用意すればいい。
名前をつけて「スマート説明」を押すと、
Klingが自動でそのキャラの外見説明文を生成してくれる。
登録完了。

以降はどのシーンを作る時でも、
このキャラをポチッと選択するだけで、
同じ外見を維持してくれる。
複数キャラも登録できるし、
背景画像も登録できる。

100%完璧ではない。
場面によって微妙に違うこともある。
でも登録なしで作るのと比べたら、
一貫性のレベルがまるで違う。
この機能を知ってるかどうかで、
挫折するかしないかが分かれると思ってます。

ステップ6:画像をどう動画にする?

Kling Image to Video 成功のポイント
1カット1動作複数の動きを1カットに詰め込まない
3〜5パターン生成して選ぶ1回で決めようとしない。複数生成が前提
速度指示を入れる「ゆっくり振り向く」「素早く走る」など動きの速度を明記
カスタムマルチショットで最大5カット複数カットを一度に生成してつなぎを自然にする

ここがAIアニメーションの核心。静止画を「動く映像」に変える。

Klingの「Image to Video」機能を使う。
画像を1枚入れて「キャラクターが歩く」「振り向く」「手を振る」みたいに動きの指示を出すと、
数秒の動画が生成される。
1カットあたり3〜10秒くらい。

動きの指示のコツは、
シンプルに書くこと。
「キャラクターがゆっくり右を向いて微笑む」くらいで十分。
「キャラクターが右を向きながら手を振って、
同時にジャンプして、
背景では雲が流れて…」みたいに詰め込むと、
AIが混乱して変な動きになる。
1カットに1つの動き。
これが基本。

思い通りの動きにならないことはよくある。
そういう時は指示を少し変えて再生成する。
1カットにつき3〜5パターン作って、
一番いいのを選ぶ。
ここが一番時間とコストがかかる工程。
でも一番楽しい工程でもある。

カスタムマルチショット

Klingにはもう1つ強力な機能がある。
最大15秒、
最大5カットを1回の生成で作れる。
各カットに個別のプロンプトを設定できるので、
「カット1:歩いてる。
カット2:振り向く。
カット3:手を振る」みたいに連続した動きを一気に生成できる。

1カットあたり3秒がちょうどいい。
注意点として、
カット数×秒数と生成秒数を合わせる必要がある。
合わないと生成ボタンが押せない。
それと、
スタートフレーム画像とシーン1の内容を同期させること。
ここがズレると最初のカットから変な動きになる。

ステップ7:編集はどう仕上げる?

最後に全素材をつなげる。
動画クリップ、
音声ファイル、
BGM。
これを動画編集アプリで並べる。
CapCutみたいな無料の動画編集アプリでできる。
パソコンでもスマホでも使える。

やることはシンプル。
1、
タイムラインに動画クリップを順番に並べる。
2、
各クリップの下に対応する音声ファイルを配置する。
3、
音声のタイミングに合わせて動画の開始位置を調整する。
4、
BGMを追加する。
5、
テロップ(字幕)を入れる。
6、
書き出す。

BGMはSunoで作れる。
「明るくてテンポのいい子ども向けアニメのBGM」みたいな指示で曲が出てくる。
私もSuno使ったことあるけど、
テキストを入れるだけで本当に曲が出てくるので最初はびっくりした。
クオリティもちゃんとしてる。

効果音も同じくAIで生成できる。
ドアの音、
足音、
風の音。
テキストで「木のドアを開ける音」って書けば出てくるサービスがある。

全素材を並べて、
タイミングを合わせて、
書き出す。
これで1本のアニメ動画が完成する。

よくある失敗パターンと回避法は?

⚠ よくある失敗と回避法
いきなり動画を生成する回避: 必ず静止画で構図を確認してから動画にする
キャラ設定を登録せずに毎回プロンプトで指定回避: Kling Omniに3枚登録して一貫性を確保する
1カットに複数の動作を詰め込む回避: 1カット1動作を徹底する
音声と映像の尺を合わせない回避: 音声ファーストで先に音声の尺を確定させる
生成1回で完成を目指す回避: 3〜5パターン生成してベストを選ぶのが前提

実際にやるといくつかの「あるある」にぶつかる。
先に知っておけば回避できるものばかり。

失敗1、キャラクターの顔が場面ごとに変わる

一番多い。
さっき説明したKlingのOmniキャラ登録を使えばかなり改善する。
それでも100%ではないので、
生成結果を見て「顔が違うな」と思ったら再生成する。
完璧を目指すより「許容範囲」を決めておくのがコツ。

失敗2、動きが不自然

指示を詰め込みすぎると起きる。
「1カット1動作」を守る。
あと「ゆっくり」「少しだけ」みたいなスピードの指示を入れると安定する。
「激しく動く」は今のAIにはまだ難しい。

失敗3、音声と映像がズレる

ステップ3で音声を先に作って、
その秒数に合わせて映像を作ればほぼ防げる。
編集段階で微調整が必要な場合は、
動画クリップの開始位置を0.1秒単位で動かす。

失敗4、コストが想定以上に膨らむ

Klingの動画生成はガチャ。
思い通りの結果が出るまで何度も回す。
気づいたらクレジットがなくなってた、
はよくある。
対策は「1シーンあたりの生成回数の上限を決めておく」こと。
5回やってダメなら、
プロンプトの書き方自体を見直す。

失敗5、プロンプトが曖昧で意図と違うものが出る

「かわいい猫が動く」だと何が出てくるかわからない。
「白い子猫が右を向いてゆっくり歩く、
背景は桜の公園、
昼間」くらい具体的に書く。
色、
方向、
速度、
場所、
時間帯。
この5つを入れるだけで精度が全然違う。

どんな動画が作れる?

👶
子ども向けYouTubeアニメ
教育系・童話系のショートアニメ。キャラ一貫性が重要
📱
TikTok / リール
15〜60秒の縦型ショート動画。テンポ重視の短尺向き
🎬
オリジナルアニメ作品
数分の自主制作アニメ。脚本から仕上げまで全工程を1人で

このワークフローで作れるものの例。

子ども向けYouTubeアニメ
海外では「AI Kids Animation」がジャンルとして成立してる。
絵が描けなくてもAIだけで量産できるから。

TikTokやInstagramのリール
30秒〜1分のショートストーリー動画。
「キャラクターが語りかける」「場面が切り替わる」みたいな動きのある動画が作れる。

オリジナルのアニメ作品
自分だけのキャラクター、
自分だけのストーリー。
昔ならアニメ制作会社がないと無理だったことが、
1人でできる。

Klingで短いクリップを作るところまでは日常的にやっています。
脚本から編集まで通すフルワークフローを通すと、
「1人で完結できる」という感覚が掴める。
道筋が見えるからです。

よくある疑問

Q. 全工程でどのくらい時間がかかる?

1分くらいの短いアニメなら、
慣れれば1日で作れる。
最初は数日かかるかもしれない。
一番時間がかかるのはステップ5と6。
画像生成と動画化のガチャ。

Q. 英語ができないと無理?

大丈夫。
Claudeに「この場面描写を英語の画像生成プロンプトに変換して」って頼めばいい。
画像生成AIは英語のほうが精度高いけど、
翻訳はAIに任せれば問題なし。

Q. スマホだけでできる?

一部はスマホでもできる。
脚本作りや画像生成はスマホでもOK。
でも動画編集はパソコンのほうが圧倒的に楽。
全工程スマホだけは正直厳しいと思う。

Q. 著作権は大丈夫?

AI生成コンテンツの著作権はまだグレーな部分がある。
国や状況によって扱いが違う。
商用利用するなら、
各ツールの利用規約を必ず確認してください。
AIに「このツールの商用利用の条件を教えて」って聞けば調べてくれます。

Q. Kling以外のツールでもできる?

できる。
Runway、
Pika、
Viduなど選択肢はある。
ワークフローの「流れ」は同じで、
使うツールが変わるだけ。
ただしキャラクター登録機能があるのはKlingの強みなので、
一貫性を重視するならKlingがおすすめ。

まとめ

AIアニメーション制作の全工程。
参考→脚本→音声→絵コンテ→画像→動画→編集の7ステップ。

設計思想は2つ。
音声が先。
画像を経由する。
この2つの原則があるから、
全工程が一本の線でつながる。

絵が描けなくても、
声が出せなくても、
全部AIでできる。
コストはかかる。
特にKlingの動画生成。
でも従来のアニメ制作と比べたら桁が違う。

まずは小さく始めてください。
Claudeに「子ども向けの15秒アニメの脚本を書いて」って頼むだけ。
それが7ステップの最初の一歩になる。

参考リンク

  • Kling公式サイト: https://klingai.com
  • ElevenLabs公式サイト: https://elevenlabs.io
  • Midjourney公式サイト: https://www.midjourney.com
  • Suno公式サイト: https://suno.com
  • CapCut公式サイト: https://www.capcut.com

※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。

-AI活用全般
-, , ,

← 戻る