ClaudeはOpus固定で運用すると月の枠を必ず切らします。
Anthropic公式も「使用しきい値に達するとSonnetへ自動切替する場合がある」と明記しています。
私の現実解はSonnet7割・Haiku2割・Opus1割。
賢さ・速度・コストの3軸で30秒で振り分ける運用です。
Claude Codeなら/model opusplan。
Plan=Opus・Execute=Sonnetで料金単価ベースの試算上、実装フェーズの費用が約3分の1に落ちます。
この記事はClaude Pro/Maxを契約しているがOpusの枠切れに毎月苦しんでいる人向け(料金プランの基本が分かれば読めます)。
「一番賢そうだから」でOpusばかり選んで、月曜の夜に枠切れ通知を食らう。
これ、Claude Pro/Max契約者あるあるです。
Sonnet固定にしたら今度は肝心な戦略壁打ちで物足りない。
Haiku固定なら提案書の粘りが足りない。
私の答えは 配分ルールと判断軸 を先に決めておくこと。
Sonnet7割・Haiku2割・Opus1割で月の枠と思考の深さを同時に最大化します。
なぜOpus固定は月中で必ず詰まるのか
Pro/MaxのOpus使用枠は具体数値が公開されていません。
Claude Code model config 公式ドキュメントにはこう書かれているだけです。
Claude Code may automatically fall back to Sonnet if you hit a usage threshold with Opus.
(Opusの使用しきい値に達した場合、Claude Codeは自動でSonnetに切り替わる場合があります)
Opusで走ってるつもりが勝手にSonnetに落ちる。
これが起きると「同じ問いかけなのに今日は精度が低い」と感じる正体です。
個人的にはこの挙動が一番厄介。
ユーザー側で制御できない部分に品質がぶら下がる構造になってます。
Anthropic公式は2025年8月から週次レート制限を導入し、その後も継続的に上限を調整しています。
詳細はClaude料金ページを参照してください。
Max 20xは月200ドルでOpus枠が最大ですが、それでも月中で枠が薄くなる構造は変わりません。
配分ルール:Sonnet7割・Haiku2割・Opus1割
月の総使用量を10とした時、私が置いている理想配分はこうです。
| モデル | 配分 | 担当する仕事 |
|---|---|---|
| Sonnet 4.6 | 70% | 日常の文章生成・コード補助・壁打ちの主力。ほとんどのタスクはここで足りる |
| Haiku 4.5 | 20% | メール下書き・短文要約・分類・大量処理。速度重視の単純タスク |
| Opus 4.7 | 10% | 戦略設計・複雑推論・最終品質チェック。ここぞの一発勝負 |
この7:2:1が効くのは、料金比と運用実感が一致するからです。
Anthropic公式モデル概要の単価でいうと入力料金はOpus:Sonnet:Haiku=5:3:1、出力料金は25:15:5(比率は同じ)です。
Opusを1発打つのはHaiku5回分の重みがあります。
ここ、意外と盲点。
同じ作業をOpusで100回叩くと、Haikuに振り替えた場合と比べて単純計算で5倍の請求が出ます。
私はこれを把握するまで、メール下書きをOpusで回して月の枠を半月で焼き切ってました。
判断3軸:迷ったら30秒で振り分ける
いま目の前のタスクをどのモデルに振るか。私なら3軸で採点します。
| 軸 | 低い(1点) | 中くらい(2点) | 高い(3点) |
|---|---|---|---|
| 賢さの必要度 | 決まった型の文章・分類 | 推敲や構成が必要な文章 | 戦略・設計・複雑推論 |
| 速度の必要度 | 夜間バッチで翌朝まででOK | 数十秒待てる | 秒単位で返してほしい |
| コストの必要度 | 月数百件以上の量産 | 日数回の中規模 | 月数回の勝負どころ |
振り分けはこう。
- 賢さ3点(戦略・設計) → Opus 4.7
- 速度3点 or 量産(コスト1点) → Haiku 4.5
- それ以外 → Sonnet 4.6(デフォルトはここ)
迷った時はSonnet。
個人的には、この「迷ったらSonnet」のルールを持っておくだけで月のOpus消費が3割落ちます。
Haikuの強みは速度だけじゃない。
料金単価で見るとHaikuはOpusの5分の1です。
週報生成や日次のメール仕分けみたいに月100回叩く定型作業は、Haikuに渡して人間が最終チェックする運用が一番割が合います。
5分の1ですよ。
大量処理ならHaikuで回して人間が最終チェック、これで品質とコストの両取りが成立します。
Claude Codeユーザー必読:opusplanモード
ここからはClaude Codeを触っている人向け。/model opusplan は運用のゲームチェンジャーです。
公式仕様はこう定義しています。
opusplan: Special mode that uses opus during plan mode, then switches to sonnet for execution.
(opusplan: プランモードではopusを使い、実行時にはsonnetに切り替わる特殊モード)
Plan modeで設計・全体構造の判断をOpus 4.7が担当。
コード生成・実装フェーズはSonnet 4.6が受け取る。
人間のPMとエンジニアの分業をそのまま再現する発想です。
料金単価ベースで単純に試算するとこうなります。
同じタスクで計画フェーズが全体の15%、実装フェーズが85%だと仮定します。
Anthropic公式の出力料金(Opus $25/Sonnet $15)を当てて、実装側をSonnetに振り替えた場合のコスト効果はこうです。
| モード | 計画フェーズ(15%) | 実装フェーズ(85%) | 合計 |
|---|---|---|---|
| all-Opus | 1.0(基準) | 5.67 | 6.67 |
| opusplan | 1.0 | 3.40 | 4.40 |
| 差 | ±0 | −40% | −34% |
これは出力単価だけで素直に計算した値です。
実装フェーズはやり直しでトークン消費が膨らみがちですが、それでも実装側をOpus単価で回す理由はほぼ消えます。
タイトル冒頭の「68%削減」はコミュニティ計測の上限値で、実環境では3割〜7割の幅で振れる、と私は把握してます。
使い方はセッション中にこれだけ。
# 起動時に指定
claude --model opusplan
# セッション中に切替
/model opusplan
# デフォルト(Max/Team PremiumはOpus、Pro/APIはSonnet)に戻す
/model default
注意点が1つ。
公式ドキュメントによると、opusplanのPlan modeは 200kコンテキストで動作(standalone opusの1Mは適用されません)。
大規模なコード一式を読ませる計画立案では文脈が切れる場面があります。
プロジェクト全体を読ませたい時は/model opus(1M対応)の方が向きます。
ここは用途で使い分け。
Pro契約のままOpus枠を延ばす3ステップ
Pro=月20ドル、Max 5x=月100ドル、Max 20x=月200ドル。
Max 20xなら20倍のOpus枠が手に入りますが、毎月180ドルの差は小さくない。
Pro維持でOpusを延ばす実用手順を3ステップでまとめます。
- ステップ1:壁打ち・設計の最初だけOpus、詰めるのはSonnet。操作はチャット冒頭の
/model opusでOpusに切替→設計が固まったら/model sonnetに戻すだけ。期待結果は「設計判断はOpusの精度を享受しつつ、実装の打ち合いはSonnet単価で回せる」状態。詰まりどころは戻し忘れ。Sonnetに戻すのを忘れると気付かないうちにOpus単価で実装してしまう - ステップ2:Opus案件ごとに新規チャットを立てる。操作は左サイドバーから「New chat」を選んで案件単位でスレッドを分けるだけ。期待結果は1回あたりのトークン消費が会話履歴の蓄積で膨らむのを防げる。詰まりどころは「前の会話の文脈を引きたい」場面。その時は要約をテキストで貼り直して新規スレッドにする方が、丸ごと前のスレッドを引きずるより安い
- ステップ3:Settings → Usageで毎週確認。操作はClaude.aiの右上アバター→Settings→Usageを開くだけ。期待結果は「どのタスクで使用枠を食ってるか」が数値で見える。詰まりどころは見て終わりにすること。特定の1タスクが枠の半分を食ってたら、そのタスクだけHaikuに逃がす判断まで実行する
Proユーザーが月のOpus枠を使い切る最大の原因は、長い1つの会話スレッドをOpusで引っ張り続けることだと私は見ています。
新規チャットに切るだけで体感が変わります。
モデル別スペック(公式情報まとめ)
運用ノウハウが本題なので、スペック表は判断3軸と紐づく最小限だけ載せます。
| 項目 | Opus 4.7 | Sonnet 4.6 | Haiku 4.5 |
|---|---|---|---|
| 入力料金(100万トークン) | $5 | $3 | $1 |
| 出力料金(100万トークン) | $25 | $15 | $5 |
| 最大コンテキスト | 1M | 1M | 200k |
| 最大出力 | 128kトークン | 64kトークン | 64kトークン |
| Extended thinking | 非対応 | 対応 | 対応 |
| Adaptive thinking | 対応 | 対応 | 非対応 |
| 相対レイテンシ | 中 | 速い | 最速 |
| Knowledge cutoff | 2026年1月 | 2025年8月 | 2025年2月 |
出典: Anthropic公式モデル概要
料金単価は変わらなくても、長い会話を続けるとセッションごとの実効コストは膨らみます。
Opus単発で叩くか、新規スレッドに切るか、この判断だけで月の請求は1〜2割振れます。
配分計算をする時、私は安全側に1.2倍で見積もります。
これが現実的な線です。
1日の運用フロー例
7:2:1配分と判断3軸を実際のスケジュールに落とすとこうなります。
- 朝イチ(Haiku):受信メール要約、今日のタスク分類、短文の返信下書き
- 午前(Sonnet):メインの記事執筆・コード補助・壁打ち全般
- 午後(Opus 1発):戦略ミーティングの論点整理、提案書のロジック設計。ここだけ賢さに全振り
- 夕方(Sonnet):Opusで出た設計をSonnetで具体化・長文展開
- 夜(Haiku):日報・週報・軽いリサーチ要約
Opusは1日1発。
これでMax 5xなら余裕、Pro契約でもギリギリ回ります。
Opusを1日1発に絞るだけで月の枠切れは相当減る。これは運用の骨です。
FAQ
Q. Opus 4.7だけ使えば間違いないのでは?
間違いなくはあるけれど、月の枠が切れます。
公式も「Claude Codeは使用しきい値に達するとSonnetに自動フォールバックする場合がある」と明記しています。
Opus固定は実質Sonnetで動いてる時間が出てくる運用です。
最初からSonnet主力+Opus狙い撃ちの方がストレスが少ないです。
Q. opusplanのPlan modeはコンテキストが200kと聞きました。困らないですか?
小中規模プロジェクトなら問題なし。
プロジェクト全体を読ませる場面では /model opus(1M対応)の方が向きます。
公式ドキュメントの注意書き通りです。
Q. Haiku 4.5は本当にビジネス用途で使えますか?
定型タスクなら十分。
Anthropic公式モデル概要の単価でいうとHaikuはOpusの5分の1です。
週報生成・メール仕分け・分類のような100〜300件単位の定型作業はHaikuで叩いて人間が最終チェックする運用が一番割が合います。
一方で「ゼロから戦略を構想する」「複雑な依存関係を整理する」タスクには向きません。
Q. Pro契約のままOpus枠を延ばす一番効く施策は?
長い会話を引きずらないことです。
Opus案件ごとに新規スレッドを立て、前の会話を引き継ぎたい時は要約だけテキストで貼り直す。
スレッドの長さに比例して1ターンあたりのトークン消費は膨らむので、ここを切るだけで月のOpus残量は明確に変わります。
Q. 7:2:1配分は全員に当てはまりますか?
現場向けの現実解として置いた数字です。
エンジニアでコード生成が主業務なら Sonnet8割・Opus1割・Haiku1割、大量処理主体のオペレーション業務なら Haiku5割・Sonnet4割・Opus1割、というように担当業務で寄せてOKです。
共通するのは Opus1割 の上限。
ここを超えるとだいたい月中で詰まります。
まとめ
Claudeのモデル選択は「一番賢そうな奴」で決めると必ず詰まります。
Sonnet7割・Haiku2割・Opus1割の配分ルールと、賢さ・速度・コストの3軸判断で大半のタスクは機械的に振れる。
Claude CodeユーザーはさらにopusplanでPlan=Opus・Execute=Sonnetのハイブリッドを自動化できる。
料金単価ベースの試算でも実装フェーズのコストは3〜4割落ちます。
Opusは温存してこそ効く。
1日1発、ここぞで打つ武器として扱う方が結果的に思考の質も上がる、というのが私の結論です。
このページに出てきた言葉
- Opus / Sonnet / Haiku
- Anthropic社のClaudeモデル名。上位から順に賢さ・料金が下がる。料金単価比は5:3:1(Opus:Sonnet:Haiku、入力100万トークンあたり)
- Pro / Max
- Claudeの個人向け有料プラン。Pro=月20ドル、Max 5x=月100ドル、Max 20x=月200ドル
- plan mode / opusplan
- Claude Codeの計画フェーズ機能と、その専用混合モード。設計だけOpus、実装はSonnetに自動で振り分ける
- トークン
- AIが文章を読み書きする時の最小単位。日本語ではだいたい1文字=1〜2トークン
- コンテキスト
- AIが1回のやり取りで覚えていられる文字量。200k=約14万字、1M=約70万字
- 使用しきい値
- Anthropicが各プランに設定している1セッション/週単位の利用上限。具体値は非公開
- サブエージェント
- Claude Codeで使える機能で、特定タスクを担当する小さなAIワーカー。本筋のセッションのコンテキストを汚さずに済む
参考リンク
- Anthropic公式モデル概要: https://platform.claude.com/docs/en/about-claude/models/overview
- Claude料金ページ: https://claude.com/pricing
- Claude Code model config公式: https://code.claude.com/docs/en/model-config
※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。