この記事の要点(3行)
- 2026年4月23日、PerplexityのPro/MaxにKimi K2.6(Moonshot AI、中国・北京)が追加された。中国製オープンウェイトモデルの採用はK2 Thinking→K2.5→K2.6で3連続
- 記事の主題はK2.6のスペックではなく、Perplexityが「AIマーケットプレイス」へ舵を切っている業界構造のほう
- 日本語での実務利用はClaude Opus 4.7とGPT-5.4の併用が依然として現実解。K2.6はコスパと長時間エージェント実行に寄せて使う
Perplexity Pro/Maxのモデル選択に、
Kimi K2.6がひとつ増えた。
中国・北京のMoonshot AI(月之暗面)が4月20日に公開したばかりの1兆パラメータモデルで、
Perplexity統合は23日発表。
これでKimi K2 Thinking(2025年11月)→K2.5(2026年2月)→K2.6(今回)と3連続で同社モデルが乗ることになった。
Perplexityの動きが面白い。
1社だけ踏み込んで書くと、
これは単なる「新モデル追加」ニュースではなく、
Perplexityが「世界のSOTAモデルを集めて束ねるマーケットプレイス」へ舵を切っている途中経過の話です。
個人的にはこの角度のほうが、
K2.6のベンチマーク数値より読者(=すでにPro/Maxを払っている私たち)に直接効く情報だと感じています。
なぜPerplexityは中国オープンモデルを連続採用しているのか
Aravind Srinivas(Perplexity CEO)は2026年2月、
TechCrunchのインタビューでこう語っている。
マルチモデルが未来だ。
モデルは汎用品化するのではなく、
むしろ専門化していく。
ユーザーはビジュアル出力にはGemini Flash、
ソフトウェアエンジニアリングにはClaude Sonnet、
医療リサーチにはGPT-5.1を好む。
1つのAIがベストという問い自体が時代遅れだ。
同じ取材で彼はもう一段踏み込んでいる。
「中国製オープンソースLLMを独自に変更してクエリをより安価に処理していた。
以前は隠していて批判されたが、
今は透明化した」という自己開示がそれ。
この発言が重い。
PerplexityはDeepSeek R1を独自Post-Trainingで「脱プロパガンダ化」した手法を「R1 1776」としてオープンソース公開している。
中国オープンウェイトを米国データセンターで動かし、
自社でファインチューンしてから提供する──この構造を公式に文書化している会社は他にほぼない。
Kimi K2系の連続採用は、
そのパイプラインをそのまま使い回している格好です。
つまり、
Perplexityにとって中国製オープンウェイトは「コスト優位のSOTAを自社でいじれる素材」であって、
イデオロギーで選んでるわけじゃない。
正直ここは腑に落ちる話だなと思います。
Kimi K2.6はどう進化したのか(K2.5との差分)
日本語圏では「またKimiか」状態になりつつあるので、ここは差分だけ抜き出す。
| 項目 | K2.5(2026年2月) | K2.6(2026年4月20日) |
|---|---|---|
| 並列サブエージェント数 | 最大100 | 最大300 |
| エージェント最大ステップ数 | 1,500 | 4,000 |
| コンテキスト長 | 256K | 262K |
| SWE-Bench Verified | 76.8% | 80.2% |
| SWE-Bench Pro | 50.7% | 58.6% |
| BrowseComp(Agent Swarm) | 78.4% | 86.3% |
| ハルシネーション率 | 65% | 39% |
出典: Kimi公式ブログ、
Artificial Analysis、
MarkTechPost。
見るべきはサブエージェント3倍・ステップ数2.6倍の部分。
Moonshotはこれを「Agent Swarm」と呼んでいて、
公式ブログでは12時間連続実行・4,000超ツールコールでZigコンパイラを20%高速化した事例、
13時間で金融エンジンを185%高速化した事例、
内部RLチームが5日間連続自律稼働させた事例を出している。
長時間の自律タスクが、ここまで具体的な実証値で出てくるのは素直にすごい。
ハルシネーション率65%→39%の改善も見逃せない。
Artificial Analysisのデータでは、
Claude Opus 4.7が36%、
MiniMax-M2.7が34%なので、
K2.6はフロンティアクラスにようやく追いついた水準です。
K2.5時代の「ハルシネーションが多すぎて業務に使えない」という一番きつい批判は、
ここでいったん処理されている。
Claude Opus 4.7との比較は、どう整理すべきか
英語圏の一部メディアが「K2.6がClaude Opusを超えた」と書いているが、
この表現はSWE-Bench Proに限れば正確、
それ以外では怪しい。
ここは正確にいきます。
| ベンチマーク | Kimi K2.6 | Claude Opus 4.6 | Claude Opus 4.7 | GPT-5.4 |
|---|---|---|---|---|
| SWE-Bench Pro | 58.6% | 53.4% | — | 57.7% |
| SWE-Bench Verified | 80.2% | 80.8% | 87.6% | — |
| HLE-Full with tools | 54.0 | 53.0 | — | 52.1 |
| BrowseComp(通常) | 83.2% | — | — | 82.7% |
| Terminal-Bench 2.0 | 66.7% | 65.4% | — | 65.4% |
出典: Build Fast with AI、The Decoder。
見落としてはいけないのが日付。
Anthropicは4月16日、
K2.6リリースの4日前にClaude Opus 4.7を出している。
SWE-Bench Verified で Opus 4.7 は 87.6%、
K2.6 は 80.2%で、
7.4ポイント差。
K2.6のベンチマークは比較対象を Opus 4.6 で取っているので、
「Claudeを超えた」と一括りにすると実態を歪める。
Jake Handyのレビューはこの論点をかなり突いていて、
K2.6は正しいワークロードには疑いなくお買い得だ。
だが間違ったワークロードには責任問題になる。
英語の複雑な命令遵守とマルチ制約エージェントループの信頼性では、
Claudeが依然として優位だ。
と書いている。
ここは同意です。
数字の上で勝つベンチと、
実務で効くベンチはズレる。
Moonshot AIという会社の正体
K2.6を語るうえで、
Moonshot AI本体の姿が日本語圏ではあまり整理されていない。
ざっくり押さえます。
- 正式社名: Moonshot AI(月之暗面)。社名はピンク・フロイドのアルバムThe Dark Side of the Moonから取られている
- 本社: 中国・北京
- 創業: 2023年3月。清華大学CS首席卒業・CMU博士のYang Zhilin(楊植麟、1992年生)が共同創業者。前職はGoogle Brain・Meta。XLNetやTransformer-XLの論文著者でもある(出典: Wikipedia)
- 株主構成: 2024年2月にAlibaba主導で10億ドル調達、評価額25億ドル。Alibabaが株式の36%を保有
- 直近の評価額推移: 2025年12月末43億ドル → 2026年1月48億ドル → 2026年2月100億ドル → 2026年3月180億ドル規模での調達検討(出典: Bloomberg)
- IPO: 2026年3月、香港証券取引所への上場をGoldman Sachs・CCICと初期協議中(出典: Bloomberg 2026/03/26)
DeepSeek・Qwen・Zhipuと並ぶ「中国AI虎企業」の一角で、
資金力も技術者層も厚い。
3ヶ月で評価額が4倍超。
私はこれをバブルと見ていなくて、
オープンウェイトのベンチマーク実績が連続で取れていることへの対価という読み方が現地でも支配的です。
ライセンスの「Modified MIT」が面白い
K2.6のライセンスは単なるMITではなく、
Modified MITという独自条項が入っている。
月間1億MAU以上または月間売上2000万ドル以上の事業者がKimi K2.6を利用する場合、
UI上に「Kimi K2.6」の名称を表示する義務が課される。
それ以下の規模の企業・個人開発者には、
商用利用含め実質フリー。出典: Handy AI、Moonshot公式ライセンス条項
これ、
個人的にはかなり戦略的な設計だと感じています。
中小・開発者層は完全に自由に使わせて採用を広げつつ、
大手プラットフォーム(Perplexity・Microsoft・AWS等)にだけブランド露出を要求する。
オープンウェイトのマーケティングとして綺麗に効く設計です。
PerplexityがK2.6追加アナウンスで「Kimi K2.6」と明記しているのも、
この条項に照らすと整合している。
憶測を入れると怒られるので事実だけ書くと、
Perplexityのモデル選択ドロップダウンには「Kimi K2.6」とフル名称で並ぶことになる。
Perplexity上で、K2.6をどの作業に選ぶべきか
ここがPro/Maxを払っている読者にいちばん効く節だと思うので、
実務目線で整理します。
2026年4月時点でPerplexity画面に並ぶ主要モデルは以下。
| モデル | 強み | こういうタスクに選ぶ |
|---|---|---|
| Claude Opus 4.7 | 複雑な日本語指示追従、長文構成、Computer用デフォルトオーケストレーター | 日本語の長文執筆、企画書、複雑な指示を含むコーディング |
| Claude Sonnet 4.6 | コスパ良好、日本語文章の質も高い | 日常業務、ドラフト作成、要約 |
| GPT-5.4 | 汎用性、日本語の自然さ、マルチモーダル | 画像込みのリサーチ、フォーマルな文章、迷ったらこれ |
| GPT-5.3-Codex | コーディング特化 | 短時間のコーディングタスク |
| Gemini 3.1 Pro | 検索連動、画像・動画出力 | 最新情報リサーチ、ビジュアル生成 |
| Kimi K2.6 | コスト1/8、長時間Agent Swarm、コーディングベンチ上位 | 長尺の自律コーディング(リファクタ、大量ファイル改修)、並列検索 |
| Sonar | Perplexity独自(Llama 3.3ベース)、高速 | 軽いQA、素早い検索 |
出典: Gadgetbond、
VentureBeat、
TestingCatalog。
K2.6の相場感はこうなる。
日本語で複雑な指示を出す仕事は、
依然としてClaude Opus 4.7か GPT-5.4が本命。
K2.6は「英語ベースの長時間コーディング/大量ファイル処理/並列リサーチ」に寄せて使う、
というのが2026年4月時点の現実的な切り分け。
この使い分けに関して、
私はHacker Newsのあるコメントがいちばん実態に近いと感じた。
実際の日常業務では日に日に改善しているが、
Sonnet 4.0やOpus 4.0と比べるとまだ下。
K2.5との差もわずかなタスクしかない。出典: Hacker News
ベンチは勝っても体感が伴わない、という話。これは新モデルあるあるです。
中国製モデルを業務で使うリスクは、どう扱えばいいのか
この論点は避けられないので短く書きます。
Perplexity公式の説明では、
K2系モデルは「Perplexityの自社推論スタック(米国内)でホストされ、
ユーザーデータは中国に直接送信されない」となっている。
これは事実として押さえる。
ただし、
モデル自体のバイアスは別問題。
Handy AIが指摘しているように、
K2.5の安全評価では中国語出力での政治バイアスやCBRNE関連プロンプトへの応答率の高さが文書化されており、
K2.6のシステムカードは記事執筆時点で未公開。
Perplexityは Post-Training で「脱プロパガンダ化」処理を入れているが、
それがK2.6にも全量適用されているかは公表資料では確認できない。
個人的な線引きとしては、
守秘義務があるクライアント案件・医療・法務・金融の実務判断はK2.6でやらない。
一般的なコーディング、
オープン情報のリサーチ、
ドラフト作成レベルなら問題ないと感じる。
Perplexityのモデル選択が便利なのは、
まさにこの「タスクごとに使い分けられる」設計がデフォルトで用意されていることです。
料金の話(コスト優位の正体)
Kimi K2.6のAPI料金は、
Claude Opus比で入力コスト約1/8。
| 経路 | 入力(1Mトークン) | 出力(1Mトークン) |
|---|---|---|
| Kimi公式API | $0.95 | $4.00 |
| Parasail(最安) | $0.60 | — |
| OpenRouter | $0.80 | $3.50 |
| Claude Opus API(参考) | $5.00 | $25.00 |
出典: Artificial Analysis、OpenRouter。
Perplexity Pro(月20ドル)またはMax(月200ドル)を払っている側は、
このAPI料金差を直接は感じない。
ただしPerplexity側のコスト構造には直接効いていて、
これが「なぜPerplexityがオープンウェイトを自社ホストし続けるのか」の経済的な答えになります。
クローズドAPI一本で組むと、
Perplexityはモデル各社に粗利の大半を吸われる。
オープンウェイトを自社データセンターで動かせば、
モデル推論コストを自社側でコントロールできる。
コスパ戦で安価なモデルを提供できる。
この構造が、
Aravind Srinivasの「マルチモデルが未来」発言の裏側にある経営判断です。
結局、このニュースの意味は何か
K2.6そのものは「オープンウェイトの中ではフロンティアクラスに肉薄した、
コスパ激安の1Tモデル」。
ここは事実。
だがPerplexityユーザーにとっての本当の意味は、
「Perplexityが1つのAIを売るサービスから、
SOTA群を束ねて最適配分するマーケットプレイスへ移行した」という構造変化のほうにある。
K2.6追加は、
その路線の直近の一手です。
2025年11月のK2 Thinking統合から数えて5ヶ月。
Perplexityは一貫してオープンウェイト取り込みを続けていて、
そのたびに「自社ホスト+Post-Training+コスト最適化ルーティング」の構造を強化してきた。
私はこれをChatGPT・Claudeとの「単体性能勝負」とは別の戦い方だと見ていて、
しかもPerplexityのポジションに綺麗にハマっている。
Pro/Maxをすでに払っている側にとっての実務判断は、
シンプル。
日本語の本命仕事はClaude Opus 4.7とGPT-5.4で回す。
長時間コーディングや並列タスクはK2.6に振る。
この使い分けで、
月20ドルの価値は今まで以上に取り戻せると思います。
よくある質問
Kimi K2.6はPerplexityの無料プランでも使えますか
使えません。
Pro(月20ドル)またはMax(月200ドル)のみ対応です。
Pro/Max両方で同じように選択できます。
K2.6を選んでも、Perplexityはユーザーデータを中国に送信しないのですか
Perplexity公式の説明では、
K2系モデルは同社の米国内インフラでホストされており、
ユーザーデータは中国へ直接送信されない設計だとされています(出典: Perplexity公式X)。
ただしモデル自体のバイアスは別の話で、
K2.6のシステムカードは記事執筆時点で未公開です。
守秘義務のあるクライアント案件は、
モデル選択でClaudeやGPTに振るほうが無難です。
Claude Opus 4.7が出ている今、あえてK2.6を使う理由はありますか
あります。
特に長時間の自律コーディング(Agent Swarm、
最大300サブエージェント・4,000ステップ)と、
大量並列リサーチ(BrowseComp Agent Swarm 86.3%)の2領域では、
K2.6が設計思想としてフィットします。
日本語の複雑な執筆や厳密な指示追従は Opus 4.7 のほうが依然として強いので、
用途で切り替えるのが現実的です。
K2.6のハルシネーションはどれくらい改善されたのですか
Artificial Analysisの評価ではK2.5の65%から39%に改善。
Claude Opus 4.7が36%、
MiniMax-M2.7が34%なので、
フロンティアクラスに追いついた水準です。
K2.5時代の「幻覚が多すぎて業務に使えない」という批判は、
ここでいったん処理されています。
Moonshot AIに関わる地政学的リスクはどう考えればよいですか
Moonshot AIは北京拠点、
Alibabaが株式の36%を保有、
香港IPOも検討中の中国企業です。
モデル自体はオープンウェイトで重みが公開されており、
Perplexity経由なら米国内ホスト。
米国輸出規制・データ管轄の観点で個人利用の障害は薄いですが、
企業の機微情報をK2.6で扱うかは別判断が必要です。
参考リンク
- Kimi K2.6公式ブログ(Moonshot AI)
- Perplexity公式X: K2.6追加発表
- Artificial Analysis: K2.6評価レポート
- TechCrunch: Perplexityマルチモデル戦略インタビュー
- Perplexity: R1 1776(DeepSeek R1のPost-Training公開)
- Handy AI: Kimi K2.6 詳細レビュー
- Build Fast with AI: K2.6 vs GPT-5.4 vs Claude Opus
- MarkTechPost: K2.6技術詳細
- HuggingFace: Kimi-K2.6 モデル重み
※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。