VoxCPM2は、
清華大学とOpenBMBが開発したオープンソースの音声クローンAI。
完全無料・商用利用OK(Apache 2.0)で、
英語の声の再現度はElevenLabsを24ポイント上回る85.4%。
ただし、
ベンチマークは開発チーム自身による測定で独立検証なし。
言語ごとの品質差が大きく、
日本語の数値は未公開。
Hugging Faceデモならインストール不要で今すぐ試せる。
GPU不要のGoogle Colabルートもある。
音声クローンの分野で一番有名なのがElevenLabs。
月額5ドル〜330ドル。
ナレーション制作やポッドキャストに使っている人は多いと思います。
そこに出てきたのがVoxCPM2。
中国の清華大学とOpenBMBが作ったオープンソースの音声AI。
完全無料、
商用利用もOK。
しかも英語の「声の似てる度」で、
ElevenLabsを24ポイント上回っています。
85.4% vs 61.3%。
ただし、落とし穴もあります。「似てる」と「聞き取れる」は別の話なんです。
この記事は、
こういう人に向けて書いています。
ElevenLabsに課金しているけど「無料で同じことできないかな」と思っている人。
ナレーションやポッドキャストを作っていて、
コストを下げたい人。
「音声クローンって何?」からスタートしたい人。
VoxCPM2とElevenLabsの違いは?料金・品質・機能を比較
まず一番気になるところから。
VoxCPM2とElevenLabs、
何が違うのか。
表にまとめました。
| 項目 | VoxCPM2 | ElevenLabs |
|---|---|---|
| 料金 | 完全無料 | 月5〜330ドル(約750〜49,500円) |
| 音声の似てる度(英語) | 85.4% | 61.3% |
| 音声の似てる度(中国語) | 82.5% | 67.7% |
| 対応言語 | 30言語(日本語あり) | 32言語 |
| 音質 | 48kHz(スタジオ品質) | 最大192kbps |
| 商用利用 | OK(Apache 2.0ライセンス) | 有料プランのみ |
| 動作環境 | GPU必要(8GB以上) | ブラウザだけでOK |
| サポート | コミュニティのみ | 公式サポートあり |
| 感情コントロール | あり | あり |
| 声のデザイン(テキストから新しい声を作る) | あり | あり |
数字だけ見ると、VoxCPM2の圧勝に見えます。
でも、
ここで大事な話。
この「似てる度」の数字、
VoxCPM2の開発チーム自身が測った結果です。
第三者が検証したデータではないんですよね。
しかも「声が似てる」と「ちゃんと聞き取れる」は別の指標です。
アラビア語では、
VoxCPM2の聞き取りエラー率が13%。
ElevenLabsは1.7%。
8語に1語が聞き取れない計算です。
逆に中国語だと、
VoxCPM2のエラー率が1.1%でElevenLabsの16%を大きく上回ってます。
つまり、
言語によって得意・不得意がかなりある。
日本語のベンチマークはまだ公開されていません。
正直、
日本語の品質は実際に試してみないとわからないですね。
VoxCPM2の仕組みは?なぜ無料で高品質な音声が作れるのか
普通の音声AI(ElevenLabsも含めて)は、
テキストを一回「トークン」という小さな部品に分解してから音声に変換します。
本を一回バラバラにして、
別の言語で組み立て直すイメージ。
VoxCPM2はこの「バラバラにする」工程をスキップします。
テキストから直接、
音の波を作り出す。
「トークナイザーフリー」と呼ばれる仕組みです。
たとえるなら、
翻訳者が一文ずつ訳すんじゃなくて、
同時通訳みたいに話の流れごと変換する感じ。
だから声の抑揚とか、
息づかいみたいな繊細な部分が残りやすくなります。
で、
なぜこれが無料で出せるのか。
答えはシンプルで、
オープンソースだからです。
清華大学の研究チームが論文発表のために開発したもの。
ElevenLabsは「サービスを売る会社」。
VoxCPM2は「研究成果を公開する大学」。
ビジネスモデルが根本的に違います。
だからVoxCPM2は無料だけどサポートはない。
ElevenLabsは有料だけど、
困った時に助けてくれる。
ここが設計思想の一番大きな違いです。
VoxCPM2はどんな場面で使える?
YouTube・TikTokのナレーションを声のクローンで量産する
動画を作ってる人にとって、
ナレーション録音は地味にしんどい作業です。
噛んだら撮り直し。
部屋がうるさいと使えない。
VoxCPM2に声を覚えさせれば、
テキストを入れるだけでナレーションが出てきます。
しかも感情のコントロールができるので、
「ここは明るく」「ここは落ち着いて」という指定もできます。
ElevenLabsでこれをやると月22ドル(約3,300円)以上かかります。
毎月の固定費がゼロになるのは大きいですよね。
多言語コンテンツを1人で作る
30言語に対応してるので、
日本語で喋った声のトーンのまま英語や中国語のナレーションが作れます。
しかも言語を混ぜても大丈夫。
「こんにちは、
today we'll talk about...」みたいなミックスも自動で判定してくれます。
海外向けのコンテンツを作りたい人には、かなりありがたい機能ですね。
ポッドキャストの「もう1つの声」を作る
ポッドキャストで「台本を読むパート」と「フリートークのパート」で声のトーンを変えたい、
みたいなこと、
ありませんか。
VoxCPM2の「ボイスデザイン」機能を使えば、
テキストで声の特徴を指定するだけで新しい声が作れます。
「20代女性、
落ち着いた声、
ニュースキャスター風」と入力すれば、
それっぽい声が出てきます。
参考音声すら要らない。
ElevenLabsにもVoice Designという似た機能はあります。
ただしElevenLabsのフリープランは非商用・クレジット制限あり。
商用で使うなら有料プランが必要です。
VoxCPM2なら無料で、しかもローカル環境なら無制限に声を生成できます。
VoxCPM2を使うのに必要なものは?
正直に書きます。ハードルはちょっと高いです。
| 必要なもの | 詳細 |
|---|---|
| GPU | VRAM 8GB以上(RTX 3060以上が目安) |
| CUDA | バージョン12.0以上 |
| Python | バージョン3.10〜3.12 |
| OS | Linux推奨(WindowsはWSL2経由) |
| 日本語対応 | 対応(30言語の1つ) |
| 料金 | 完全無料(Apache 2.0ライセンス、商用OK) |
「GPU?CUDA?何それ?」ってなった人。
大丈夫です。
GPUを持ってなくても試す方法が2つあります。
1つ目はHugging Faceのデモページ。
ブラウザだけで試せます。
インストール不要。
2つ目はGoogle Colab。
Googleが無料で貸してくれるGPU付きの作業環境です。
Googleアカウントさえあれば使えます。
VoxCPM2の使い方は?3つのルートで試す方法
ブラウザだけで試せる
細かい設定は不可
本格的に使える
無料枠に時間制限あり
GPU必須(RTX 3060〜)
環境構築が必要
ルート1: Hugging Faceデモで今すぐ試す(最も簡単)
インストールもアカウント作成も不要です。手順はこれだけ。
1. Hugging Faceのデモページにアクセスする(URLは記事末尾の参考リンクにあります)。
2. テキスト欄に読み上げたい文章を入力する。
3. 声をクローンしたい場合は、音声ファイルをアップロードする。
4.「Generate」ボタンを押す。
5. 数秒〜数十秒で音声が生成される。
これで「どんな声が出るのか」を確認できます。
ただし、
デモ版なので待ち時間が長い時もあるし、
細かい設定はいじれません。
「とりあえず触ってみたい」という人にはこれで十分です。
ルート2: Google Colabで本格的に使う(GPU不要)
手元のパソコンにGPUがなくても、
Google Colabなら無料でGPUが使えます。
Google Colabというのは、
ブラウザ上でプログラムを動かせるGoogleのサービスです。
Googleアカウントがあれば誰でも使えます。
手順はこうです。
1. Google Colabを開く(「Google Colab」で検索すれば出てきます)。
2. 新しいノートブックを作る。
3. 上のメニューから「ランタイム」→「ランタイムのタイプを変更」→「T4 GPU」を選ぶ。
ここまでが準備。あとは「AIに聞きながらやる」のが一番確実です。
ChatGPTやClaudeに「Google ColabでVoxCPM2を動かしたい。
pip install voxcpmから始めて、
日本語のテキストを読み上げるコードを書いて」と伝えてください。
コードを全部書いてくれます。
それをColabにコピペして、
上から順番に実行するだけ。
注意点として、
Google Colabの無料枠にはGPUの使用時間に制限があります。
長時間使うと途中で切れることがあるので、
大量の音声を作りたい場合はColab Pro(月1,179円)を検討してください。
ルート3: ローカルPCにインストールする(GPU必要)
RTX 3060以上のGPUがあるなら、
ローカルで動かすのが一番自由です。
制限なし、
待ち時間なし。
ただし、
Pythonとか環境構築とか、
ちょっと技術的な作業が入ります。
これもAIに全部やってもらいましょう。
Claude Codeを使ってる人なら、
こう伝えるだけです。
「VoxCPM2をローカルにインストールして。
pip install voxcpmで入るらしい。
Python 3.10以上、
CUDA 12.0以上が必要。
インストールしたら、
日本語のテスト音声を1つ作って確認して」
Claude Codeが環境チェックからインストール、
テストまで全部やってくれます。
ただし、
インストール前に2つだけやってほしいことがあります。
オープンソースは誰でもコードを変更できるので、
最終更新日とIssue(不具合報告)を確認してからインストールしてください。
そして、
インストール前にClaude Codeに「このリポジトリのコードを読んで、
セキュリティ的に問題がないかチェックして」と頼んでください。
直接コードを実行する前に、
まずAIにチェックさせる。
これが安全にオープンソースを使うコツです。
VoxCPM2の「ボイスデザイン」って何ができるの?
これ、VoxCPM2の一番面白い機能かもしれません。
普通、
声をクローンするには「元の声の録音データ」が必要です。
VoxCPM2のボイスデザインは、
録音データが要りません。
テキストで「こういう声がほしい」と書くだけ。
たとえば、こんな指定ができます。
「30代男性、低めの落ち着いた声、ニュース番組のアナウンサー風」
「10代女性、元気で明るい声、アニメのキャラクターっぽく」
存在しない声を、
言葉だけで作り出せる。
キャラクターボイスを作りたい人、
ナレーターを雇わずにコンテンツを作りたい人には、
かなり使える機能ですね。
ElevenLabsにも「Voice Design」という同じような機能はあります。
ただし、
ElevenLabsのフリープランはクレジット制限あり・非商用。
VoxCPM2はローカル環境なら制限なし、
商用も無料。
ここが実質的な差です。
よくある疑問
Q. 日本語の音声品質はどう?
対応言語の1つに日本語は入っています。
ただし、
公式ベンチマークに日本語の数値は掲載されていません。
英語と中国語では高品質という結果が出ていますが、
日本語はHugging Faceのデモで実際に聞いてみるのが確実です。
Q. ElevenLabsから完全に乗り換えられる?
用途によります。
個人のYouTubeナレーションやポッドキャストなら、
十分代替になる可能性があります。
ただし、
ビジネスで使うなら注意が必要です。
ElevenLabsには公式サポート、
SLA(稼働保証)、
APIの安定性があります。
VoxCPM2にはそれがありません。
「壊れた時に誰にも聞けない」のが無料の代償です。
Q. 声をクローンするのに何分の録音が必要?
基本的なクローンなら数秒の音声でもできます。
より高品質なクローン(LoRAファインチューニング)をするなら、
5〜10分程度の録音が目安です。
ElevenLabsの即時クローンも数秒〜数分なので、
ここは大きな差はありません。
Q. 商用利用は本当にOK?
Apache 2.0ライセンスです。
商用利用、
改変、
再配布、
全部OKです。
YouTubeの収益化動画に使っても、
クライアントワークに使っても問題ありません。
ただし、
他人の声を無断でクローンして使うのは、
ライセンスとは別の法的問題になるので注意してください。
Q. スマホだけで使える?
Hugging Faceのデモページなら、
スマホのブラウザからでもアクセスできます。
ただし、
本格的に使うにはパソコンが必要です。
VoxCPM2の注意点と限界は?
いいことばかり書いてもしょうがないので、知っておくべきことを書きます。
まず、
ベンチマークの信頼性。
「ElevenLabsより上」という数字は、
VoxCPM2の開発チーム自身が測った結果です。
独立した第三者が検証したわけではありません。
次に、
言語による品質の差。
英語と中国語は強いですが、
アラビア語やチェコ語では聞き取りエラーが10%を超えています。
「声は似てるけど何言ってるかわからない」という状態。
日本語がどっちに転ぶかは、
まだわからないです。
それから、
学習データの透明性。
200万時間以上の音声で学習したと公表されていますが、
そのデータがどこから来たのか、
詳細は公開されていません。
著作権的にクリーンなのかどうか、
判断材料が足りない状態です。
最後に、
サポートの問題。
ElevenLabsなら「音声が変」と問い合わせれば対応してくれます。
VoxCPM2は、
GitHubのIssueに英語で書いて、
開発チームが見てくれるのを待つしかない。
無料には無料の理由があるということです。
VoxCPM2が広まると何が変わる?
ここからは私の見解です。
ElevenLabsみたいな有料サービスが不要になる、
とは思いません。
でも、
「音声クローンを試すハードル」は確実に下がります。
今まで月額を払わないと触れなかった技術が、
Googleアカウントさえあれば試せる。
これは大きな変化です。
特に個人クリエイター。
ナレーション外注に1本3,000〜5,000円払ってた人が、
声のクローンで量産できるようになる。
多言語展開も、
翻訳+VoxCPM2で1人でできてしまう。
逆に怖い面もあります。
「誰でも」「無料で」「高品質な」声のクローンが作れるということは、
悪用のハードルも下がるということです。
詐欺電話に使われるとか、
有名人の声を無断で複製するとか。
技術が進むほど、
「この声は本物か?」という問題は深刻になっていきます。
使う側としては、便利さを享受しつつ、倫理面も頭の片隅に置いておくべきですね。
まとめ
VoxCPM2は、
ElevenLabsの無料代替として注目されているオープンソースの音声クローンAIです。
英語の声の再現度はElevenLabsを上回るベンチマーク結果が出ています。
ただし、
言語による品質の差、
ベンチマークの独立検証なし、
サポートなしという弱点もあります。
まずはHugging Faceのデモで日本語の品質を確認してみてください。
「これいけるな」と思ったら、
Google Colabで本格的に試す。
その判断を、
1回の試聴でやってみてください。
参考リンク
VoxCPM2 GitHub: https://github.com/OpenBMB/VoxCPM
VoxCPM2 Hugging Faceモデル: https://huggingface.co/openbmb/VoxCPM2
Hugging Faceデモ: https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo
VoxCPM2公式ドキュメント: https://voxcpm.readthedocs.io
※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。