2026年4月23日、PerplexityのPro/MaxにKimi K2.6(Moonshot AI、中国・北京)が追加された。
中国製オープンウェイトモデルの採用はK2 Thinking→K2.5→K2.6で3連続。
記事の主題はK2.6のスペックではなく、Perplexityが「AIマーケットプレイス」へ舵を切っている業界構造のほう。
日本語の実務はClaude Opus 4.7とGPT-5.4の併用が現実解。
K2.6はコスパと長時間自律タスクに寄せて使う。
この記事はPerplexity Pro/Maxを払っていて、モデル選択を実務で使い分けたい人向け(モデル名や数値ベンチの読み方が分かれば読めます)。
Perplexity Pro/Maxのモデル選択に、Kimi K2.6がひとつ増えた。
中国・北京のMoonshot AI(月之暗面)が4月20日に公開したばかりの1兆パラメータモデルで、Perplexity統合は23日発表。
これでKimi K2 Thinking(2025年11月)→K2.5(2026年2月)→K2.6(今回)と3連続でMoonshot製モデルが乗ることになった。
Perplexityの動きが面白い。
1社だけ踏み込んで書くと、これは単なる「新モデル追加」ニュースではなく、Perplexityが「世界のSOTAモデルを集めて束ねるマーケットプレイス」へ舵を切っている途中経過の話です。
私はこの角度のほうが、K2.6のベンチマーク数値より読者(=すでにPro/Maxを払っている層)に直接効く情報だと感じています。
なぜPerplexityは中国オープンモデルを連続採用しているのか
Perplexity公式ブログ「Open Sourcing R1 1776」で、Perplexity側は自社のオープンウェイト運用方針をすでに文書化している。
要点はこうです。
R1 1776はDeepSeek R1にPost-Trainingを施して、中国の検閲対象トピックでも事実ベースの回答を返すようバイアスを除去したモデル。
重みは完全にオープンソース化し、Hugging Faceで公開する。
Perplexityのインフラ上でも提供する。
つまり、Perplexityにとって中国製オープンウェイトは「コスト優位のSOTAを自社でいじれる素材」であって、政治的選好で選んでいるわけではない。
中国オープンウェイトを米国インフラで動かし、自社でPost-Trainingしてから提供する──この構造を公式に文書化している会社は他にほぼない。
Kimi K2系の連続採用は、このパイプラインをそのまま使い回している格好です。
2026年2月の業界向けインタビューで、Perplexity創業者はこう発言している。
「マルチモデルが未来だ。
モデルは汎用品化するのではなく、むしろ専門化していく。
ユーザーはビジュアル出力にはGemini Flash、ソフトウェアエンジニアリングにはClaude Sonnet、医療リサーチにはGPT-5.1を好む。
1つのAIがベストという問い自体が時代遅れだ」。
Perplexityの製品設計はこの言葉と矛盾なく一貫している。
正直ここは腑に落ちる話だなと思います。
Kimi K2.6はどう進化したのか(K2.5との差分)
日本語圏では「またKimiか」状態になりつつあるので、ここは差分だけ抜き出す。
| 項目 | K2.5(2026年2月) | K2.6(2026年4月20日) |
|---|---|---|
| 並列サブエージェント数 | 最大100 | 最大300 |
| エージェント最大ステップ数 | 1,500 | 4,000 |
| コンテキスト長 | 256K | 262K |
| SWE-Bench Verified | 76.8% | 80.2% |
| SWE-Bench Pro | 50.7% | 58.6% |
| BrowseComp(Agent Swarm) | 78.4% | 86.3% |
| ハルシネーション率 | 65% | 39% |
出典: Moonshot AI公式ブログ、Artificial Analysis、HuggingFace(モデルカード)。
見るべきはサブエージェント3倍・ステップ数2.6倍の部分。
Moonshot AIはこれを「Agent Swarm」と呼んでいて、公式ブログでは12時間連続実行・4,000超ツールコールでZigコンパイラを20%高速化した事例、13時間で金融エンジンを185%高速化した事例、内部の強化学習チームが5日間連続で自律稼働させた事例を出している。
12時間で20%、13時間で185%の高速化。これは素直にすごい。
ハルシネーション率65%→39%の改善も見逃せない。
Artificial Analysisのデータでは、Claude Opus 4.7が36%、MiniMax-M2.7が34%なので、K2.6はフロンティアクラスにようやく追いついた水準です。
K2.5時代の「ハルシネーションが多すぎて業務に使えない」という一番きつい批判は、ここでいったん処理されている。
Claude Opus 4.7との比較は、どう整理すべきか
英語圏の一部メディアが「K2.6がClaude Opusを超えた」と書いているが、この表現はSWE-Bench Proに限れば正確、それ以外では怪しい。
ここは正確にいきます。
| ベンチマーク | Kimi K2.6 | Claude Opus 4.6 | Claude Opus 4.7 | GPT-5.4 |
|---|---|---|---|---|
| SWE-Bench Pro | 58.6% | 53.4% | — | 57.7% |
| SWE-Bench Verified | 80.2% | 80.8% | 87.6% | — |
| HLE-Full with tools | 54.0 | 53.0 | — | 52.1 |
| BrowseComp(通常) | 83.2% | — | — | 82.7% |
| Terminal-Bench 2.0 | 66.7% | 65.4% | — | 65.4% |
出典: Artificial Analysis(モデルページ)、Anthropic公式(Claude Opus 4.7発表)、Moonshot AI公式ブログ。
見落としてはいけないのが日付。
Anthropicは4月16日、K2.6リリースの4日前にClaude Opus 4.7を出している。
SWE-Bench VerifiedでOpus 4.7は87.6%、K2.6は80.2%で、7.4ポイント差。
K2.6のベンチマークは比較対象をOpus 4.6で取っているので、「Claudeを超えた」と一括りにすると実態を歪める。
Handy AIのレビューはこの論点をかなり突いていて、
K2.6は正しい仕事には疑いなくお買い得だ。
だが間違った仕事には責任問題になる。
英語の複雑な命令遵守とマルチ制約エージェントループの信頼性では、Claudeが依然として優位だ。
と書いている。
ここは同意です。
数字の上で勝つベンチと、実務で効くベンチはズレる。
SWE-Verifiedで87.6%対80.2%、7.4ポイント差。
日本語の難しい指示ではこの差は素直に効く。
Moonshot AIという会社の正体
K2.6を語るうえで、Moonshot AI本体の姿が日本語圏ではあまり整理されていない。
ざっくり押さえます。
- 正式社名: Moonshot AI(月之暗面)。社名はピンク・フロイドのアルバムThe Dark Side of the Moonから取られている
- 本社: 中国・北京
- 創業: 2023年3月。清華大学コンピュータサイエンス首席卒業・カーネギーメロン大学博士のYang Zhilin(楊植麟、1992年生)が共同創業者。前職はGoogle Brain・Meta。XLNetやTransformer-XLの論文著者でもある
- 株主構成: 2024年2月にAlibaba主導で10億ドル調達、評価額25億ドル。South China Morning Postの報道でAlibabaが株式の36%を保有
- 直近の評価額推移: 2025年12月末43億ドル → 2026年1月48億ドル → 2026年2月100億ドル → 2026年3月180億ドル規模での調達検討(出典: Bloomberg 2026/02/17)
- IPO: 2026年3月、香港証券取引所への上場をGoldman Sachs・CCICと初期協議中(出典: Bloomberg 2026/03/26)
DeepSeek・Qwen・Zhipuと並ぶ「中国AI虎企業」の一角で、資金力も技術者層も厚い。
3ヶ月で評価額が4倍超。
私はこれをバブルと見ていなくて、オープンウェイトのベンチマーク実績が連続で取れていることへの対価という読み方が現地でも支配的です。
ライセンスの「Modified MIT」が面白い
K2.6のライセンスは単なるMITではなく、Modified MITという独自条項が入っている。
月間1億MAU以上または月間売上2000万ドル以上の事業者がKimi K2.6を利用する場合、UI上に「Kimi K2.6」の名称を表示する義務が課される。
それ以下の規模の企業・個人開発者には、商用利用含め実質フリー。
これ、私はかなり戦略的な設計だと感じています。
中小・個人開発者層は完全に自由に使わせて採用を広げつつ、大手プラットフォーム(Perplexity・Microsoft・AWS等)にだけブランド露出を要求する。
オープンウェイトのマーケティングとしてきれいに効く設計です。
Perplexityの追加発表でも「Kimi K2.6」とフル名称で明記されているのは、この条項に照らすと整合している。
Perplexityのモデル選択ドロップダウンには「Kimi K2.6」とフル名称で並ぶことになる。
Perplexity上で、K2.6をどの作業に選ぶべきか
ここがPro/Maxを払っている読者にいちばん効く節だと思うので、実務目線で整理します。
2026年4月時点でPerplexity画面に並ぶ主要モデルは以下。
| モデル | 強み | こういう仕事に選ぶ |
|---|---|---|
| Claude Opus 4.7 | 複雑な日本語の指示に正確に従う、長文構成、Perplexity Computerで複数モデルを束ねる中心役 | 日本語の長文執筆、企画書、複雑な指示を含むコーディング |
| Claude Sonnet 4.6 | コスパ良好、日本語文章の質も高い | 日常業務、ドラフト作成、要約 |
| GPT-5.4 | 汎用性、日本語の自然さ、画像と文章の両対応 | 画像込みのリサーチ、フォーマルな文章、迷ったらこれ |
| GPT-5.3-Codex | コーディング特化 | 短時間のコーディング作業 |
| Gemini 3.1 Pro | 検索連動、画像・動画出力 | 最新情報リサーチ、ビジュアル生成 |
| Kimi K2.6 | コスト1/8、長時間Agent Swarm、コーディング系ベンチ上位 | 長尺の自律コーディング(書き直し作業、大量ファイル改修)、並列検索 |
| Sonar | Perplexity独自(Llama 3.3ベース)、高速 | 軽いQA、素早い検索 |
出典: Perplexity公式ハブ、Anthropic公式、Artificial Analysis(モデル一覧)。
K2.6の相場感はこうなる。
日本語で複雑な指示を出す仕事は、依然としてClaude Opus 4.7かGPT-5.4が本命。
K2.6は「英語ベースの長時間コーディング/大量ファイル処理/並列リサーチ」に寄せて使う、というのが2026年4月時点の現実的な切り分け。
私の使い方は、Pro月20ドルでK2.6を1日3〜5回触る形。
十分元は取れています。
新モデルあるあるとして、ベンチは勝っても体感が伴わないという話は出てくる。
K2.5との体感差がほぼないというユーザー報告もある。
私はここを大げさに受け取らない派で、「コスパと並列処理性能で選ぶ」という切り分けに割り切ってしまうのが運用上は楽です。
中国製モデルを業務で使うリスクは、どう扱えばいいのか
この論点は避けられないので短く書きます。
Perplexity Hub(公式ブログ)の説明では、K2系モデルは「Perplexityの自社推論スタック(米国内)でホストされ、ユーザーデータは中国に直接送信されない」設計とされている。
具体的なK2.6追加アナウンス専用ページは現時点で見つからず、DeepSeek R1で示された運用方針と同様にK2系全体へ適用されている形(出典: Perplexity Hub「Open Sourcing R1 1776」)。
これは事実として押さえる。
ただし、モデル自体のバイアスは別問題。
Handy AIが指摘しているように、K2.5の安全評価では中国語出力での政治バイアスやCBRNE関連プロンプトへの応答率の高さが文書化されており、K2.6のシステムカードは記事執筆時点で未公開。
Perplexityは Post-Training で「脱プロパガンダ化」処理を入れているが、それがK2.6にも全量適用されているかは公表資料では確認できない。
私の線引きとしては、守秘義務があるクライアント案件・医療・法務・金融の実務判断はK2.6でやらない。
一般的なコーディング、オープン情報のリサーチ、ドラフト作成レベルなら問題ないと感じる。
Perplexityのモデル選択が便利なのは、まさにこの「タスクごとに使い分けられる」設計がデフォルトで用意されていることです。
料金の話(コスト優位の正体)
Kimi K2.6のAPI料金は、Claude Opus比で入力コスト約1/8。
| 経路 | 入力(1Mトークン) | 出力(1Mトークン) |
|---|---|---|
| Kimi公式API | $0.95 | $4.00 |
| Parasail(最安) | $0.60 | — |
| OpenRouter | $0.80 | $3.50 |
| Claude Opus API(参考) | $5.00 | $25.00 |
出典: Artificial Analysis(料金ページ)、OpenRouter公式、Moonshot AI Platform(公式API料金)。
Perplexity Pro(月20ドル)またはMax(月200ドル)を払っている側は、このAPI料金差を直接は感じない。
ただしPerplexity側のコスト構造には直接効いていて、これが「なぜPerplexityがオープンウェイトを自社ホストし続けるのか」の経済的な答えになります。
クローズドAPI一本で組むと、Perplexityはモデル各社に粗利の大半を吸われる。
オープンウェイトを自社データセンターで動かせば、推論コストを自社側でコントロールできる。
コスパ戦で安価なモデルを提供できる。
この構造が、Perplexity経営陣の「マルチモデルが未来」という発言の裏側にある経営判断です。
結局、このニュースの意味は何か
K2.6そのものは「オープンウェイトの中ではフロンティアクラスに肉薄した、コスパ激安の1Tモデル」。
ここは事実。
だがPerplexityユーザーにとっての本当の意味は、「Perplexityが1つのAIを売るサービスから、SOTA群を束ねて最適配分する場へ移行した」という構造変化のほうにある。
K2.6追加は、その路線の直近の一手です。
2025年11月のK2 Thinking統合から数えて5ヶ月。
Perplexityは一貫してオープンウェイト取り込みを続けていて、そのたびに「自社ホスト+Post-Training+コスト最適化ルーティング」の構造を強化してきた。
私はこれをChatGPT・Claudeとの「単体性能勝負」とは別の戦い方だと見ていて、しかもPerplexityのポジションにきれいにハマっている。
Pro/Maxをすでに払っている側にとっての実務判断は、シンプル。
日本語の本命仕事はClaude Opus 4.7とGPT-5.4で回す。
長時間コーディングや並列タスクはK2.6に振る。
この使い分けで、月20ドルの価値は今まで以上に取り戻せると思います。
よくある質問
Kimi K2.6はPerplexityの無料プランでも使えますか
使えません。
Pro(月20ドル)またはMax(月200ドル)のみ対応です。
Pro/Max両方で同じように選択できます。
K2.6を選んでも、Perplexityはユーザーデータを中国に送信しないのですか
Perplexity公式ハブの説明では、K2系モデルは同社の米国内インフラでホストされており、ユーザーデータは中国へ直接送信されない設計だとされています。
ただしモデル自体のバイアスは別の話で、K2.6のシステムカードは記事執筆時点で未公開です。
守秘義務のあるクライアント案件は、モデル選択でClaudeやGPTに振るほうが無難です。
Claude Opus 4.7が出ている今、あえてK2.6を使う理由はありますか
あります。
特に長時間の自律コーディング(Agent Swarm、最大300サブエージェント・4,000ステップ)と、大量並列リサーチ(BrowseComp Agent Swarm 86.3%)の2領域では、K2.6が設計思想としてフィットします。
日本語の複雑な執筆や厳密な指示追従はOpus 4.7のほうが依然として強いので、用途で切り替えるのが現実的です。
K2.6のハルシネーションはどれくらい改善されたのですか
Artificial Analysisの評価ではK2.5の65%から39%に改善。
Claude Opus 4.7が36%、MiniMax-M2.7が34%なので、フロンティアクラスに追いついた水準です。
K2.5時代の「幻覚が多すぎて業務に使えない」という批判は、ここでいったん処理されています。
Moonshot AIに関わる地政学的リスクはどう考えればよいですか
Moonshot AIは北京拠点、Alibabaが株式の36%を保有、香港IPOも検討中の中国企業です。
モデル自体はオープンウェイトで重みが公開されており、Perplexity経由なら米国内ホスト。
米国輸出規制・データ管轄の観点で個人利用の障害は薄いですが、企業の機微情報をK2.6で扱うかは別判断が必要です。
このページに出てきた言葉
- SOTA(State Of The Art)
- 現時点で最も性能が高いモデル・手法のこと。ベンチマーク首位の意味で使う
- オープンウェイト
- モデルの中身(学習済みの重み)が公開されているAIモデル。誰でもダウンロードして自社サーバーで動かせる
- Post-Training
- 公開済みのモデルに追加学習を入れて挙動を調整する作業。バイアス除去や日本語強化に使う
- サブエージェント
- 親AIが作業を分担させるために起動する子AI。並列で動かして大きなタスクをこなす
- Agent Swarm
- Moonshot AIの呼び方で「群れで動くAI」の意味。複数サブエージェントで長時間タスクを処理する仕組み
- SWE-Bench
- ソフトウェアエンジニアリング能力を測るベンチマーク。GitHub上の実バグを修正できる割合を見る
- BrowseComp
- Webブラウジング能力を測るベンチマーク。Web検索して回答する性能を見る
- ハルシネーション
- AIが事実と違うことをもっともらしく答えてしまう現象。日本語では「幻覚」とも呼ぶ
- システムカード
- モデル提供元が公開する安全性評価レポート。バイアス・有害出力率・既知の弱点をまとめた資料
- API
- 外部のアプリやプログラムからAIモデルを呼び出すための窓口。料金は処理した文字数で課金される
- トークン
- AIが文章を処理する単位。日本語は1文字=1トークン弱、英語は単語の一部が1トークンに当たる
- MAU
- Monthly Active Usersの略。月間アクティブユーザー数
- IPO
- 新規株式公開のこと。会社が証券取引所に上場して株を一般に売り出す
参考リンク
- Kimi K2.6公式ブログ(Moonshot AI)
- Moonshot AI Platform(公式API・料金)
- Perplexity公式ハブ(ブログ一覧)
- Perplexity「Open Sourcing R1 1776」
- Anthropic公式(Claude Opus 4.7発表)
- Artificial Analysis: K2.6評価レポート
- Artificial Analysis: K2.6モデルページ(料金・ベンチ)
- OpenRouter: K2.6料金・経路
- HuggingFace: Kimi-K2.6 モデル重み
- Moonshot AI公式ライセンス(Modified MIT)
- Handy AI: Kimi K2.6詳細レビュー
- Bloomberg: Moonshot評価額100億ドル超
- Bloomberg: Moonshot香港IPO検討
- South China Morning Post: Alibaba 36%出資
※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。