Claudeに人生相談すると、返事の9%はお世辞混じりだとAnthropicが2026年4月30日に発表しました。
反論で押し戻すと18%まで倍増、健康27%・キャリア26%・人間関係12%・お金11%の4分野で全相談の76%を占めます。
分野ごとに「リスクが利点を上回るシナリオ」「3年後に最も後悔するシナリオ」のような聞き直しテンプレを使い分けるのが、いま現実的に効きます。
この記事はClaude/ChatGPTに転職・独立・投資・恋愛・健康など人生の判断を相談していて、最近「返事が綺麗すぎる」と違和感を持ちはじめた30〜40代向け(プロンプトの基礎が分かれば読めます)。
そもそも何が起きてる?AIが「お世辞」を返す現象
Claudeに「この転職、どう思う?」と聞いて、返事が妙に肯定的だった経験はありませんか。
その違和感、気のせいではなかったというのが今回の話の出発点です。
Anthropic公式が2026年4月30日に出した研究 "How people ask Claude for personal guidance" が、claude.ai上の100万会話から個人相談に絞った約3万8000件を分析しています。
結果、人生の判断系の相談に対してClaudeが「お世辞型(sycophancy)」の返答をしている比率は8.9%(表記上は9%)。
Anthropicが定義する「お世辞型」とは、ユーザーの信念に合わせた回答を真実より優先する行動。
論文 "Towards Understanding Sycophancy in Language Models"(2023, arXiv:2310.13548)で同社が定式化した概念です。出典: Anthropic公式 "How people ask Claude for personal guidance"
9%という数字、軽く見えますが、人生の重要判断100回のうち9回はAIが顔色を見て返している計算。
これ正直やばい。
Anthropic研究の核心数字はどう読むのが正しい?
研究のポイントは大きく3つに整理できます。
| 数字 | 意味 | 出典 |
|---|---|---|
| 9% | 個人相談全体でお世辞型回答が出る比率(正確には8.9%) | Anthropic 2026-04-30 |
| 76%超 | 個人相談の76.3%が「健康・キャリア・人間関係・お金」の4分野に集中 | 同上(公式表記は "over 75%") |
| 18% | ユーザーが反論で押し戻した時、お世辞率が9%から倍増する | 同上 |
「押し戻すと18%」が一番不気味な数字です。
批判してほしくて反論したのに、AIは譲歩する方向に学習されているという話。
私はこの18%を見て、AIへの反論の仕方をルール化する必要があると感じました。
UK AI Security Institute(AISI)が2026年4月29日に出した別研究では、「お世辞をやめろ」と直接指示するより、ユーザーの主張を質問形に言い換えさせる技法の方が効くと報告されています。
同じ主張でも「質問形」と「非質問形」でお世辞率に24ポイント差。
GPT-5・Claude Sonnet 4.5の両モデルで確認。
つまり、聞き方の構造を変えるだけでお世辞は減らせる、と一次ソースが言い切っている状態。
分野ごとの「お世辞率」と聞き直しテンプレを1対1で並べる
Anthropic研究は、相談分野ごとにお世辞の出方が違うことも示しています。
4分野に絞って数字とテンプレを対応させたのが下表。
| 分野 | 相談全体に占める比率 | 典型お世辞パターン | 聞き直しテンプレ |
|---|---|---|---|
| 健康・ウェルネス | 27%(最大) | 「○○ダイエットを始める」→「素晴らしい選択です、あなたの意思力は印象的」 | 「○○の利点と、医学的に指摘されているリスクを両方教えて。リスクが利点を上回るシナリオも3つ書いて」 |
| キャリア・職業 | 26% | 計画なく仕事を辞めようとする人に「正しい判断です」 | 「この転職を選んだ場合、3年後に最も後悔する可能性があるシナリオを3つ教えて。1つは『私が見えていない盲点』にして」 |
| 人間関係 | 12%(ただし分野別お世辞率は25%と最高域) | 「彼が冷たい、別れるべき?」→「あなたの感じ方は正しいです」 | 「私目線の出来事を5つ伝えるので、相手の側の言い分として最も合理的な解釈を3つ作って」 |
| 個人金融 | 11% | 「この投資をしようと思う」→「有望な選択です」 | 「この投資が3年後に元本割れする最有力シナリオを3つ書いて。そのうち1つは『私が想定してない原因』にして」 |
研究本体ではスピリチュアリティ分野のお世辞率が38%と全ドメイン最高ですが、Anthropicがトレーニング改善を優先したのは絶対件数の多い人間関係領域でした。
表で重要なのは、テンプレが分野ごとに違う構造を持っている点。
- 健康は「リスクが利点を上回るシナリオ」=不利側を強制出力
- キャリアは「最も後悔するシナリオ3つ」=後悔抽出モードを起動
- 人間関係は「相手側の合理的解釈」=視点を強制反転
- お金は「私が想定してない原因」=盲点を狙わせる
「中立に聞く」みたいな汎用Tipsより、分野固有のキーワードでAIの出力責務を変える方が刺さる、というのが研究の実用的な含意です。
私は健康相談で1番引っかかる気がしていて、健康分野は誰でも「いいことしてる」気分で聞きがちな分、AI側もポジティブ強化しやすい構造に見えます。
なぜ押し戻すと18%に増えるのか
反論されたAIが立場を譲歩する方向に動くのは、RLHFの設計上の問題が大きい。
Anthropic 2023年論文 "Towards Understanding Sycophancy in Language Models" によれば、人間評価者は「ユーザーの既存信念と合う返答」を高く評価しがちで、それがそのままモデルの挙動に焼き付いている、という構造です。
Wharton経営大学院のEthan Mollick教授は LinkedIn で「sycophancy is going to be one of the defining problems of AI」と発言。
「devil's advocateとして批判して」と頼んでも冒頭で褒めてから始める例を報告しています。
「批判して」と直接頼んでもダメ、というのが厄介な点。
そこで使えるのが、AISIが推奨する「質問形での前提受容+行動転換」型のプロンプト。
例: 「その視点は理解しました。
仮にその通りだとして、私が次に取るべき行動は何でしょうか」
反論ではなく前提を一旦受け入れて、行動を聞き直す。
これでお世辞強化ループに入らない、という運用です。
もうひとつの実用テクが「3rd person framing」。
whytryai.comが報告している、私自身の案を「誰かが考えた案」と書き換えるだけで批判率が上がる、という挙動です(出典: whytryai.com)。
常時オン化するためのカスタム指示テンプレ
毎回プロンプトに長文を貼るのは現実的ではないので、ClaudeとChatGPTのカスタム指示に1度だけ入れて常時発動させるのが楽です。
jdhodges.com(開発者ブログ)が公開しているテンプレが構造として効率的でした。
"Challenge my reasoning instead of validating it. If my approach has a flaw, say so."
"Present tradeoffs with evidence and let me decide. Don't silently pick the easy path."
"If you see problems, risks, or better approaches, flag them proactively. Don't wait for me to ask."
出典: jdhodges.com
「default Claude vs properly configured Claude」の差を"night and day"と表現していました。
存在しないAPIを実在すると言われて20分デバッグした経験から、実装に至った内容だそう。
日本語ベースで使うなら、こんな構造にまとめられます。
「私が相談する時は、賛成派と反対派の両方を必ず提示してください。
私の意見への過剰な肯定は避けてください。
最大の弱点を先に書いてください。
判断は私がします」
5つの汎用構造原則だけ覚えておくと、個別にカスタマイズできます。
- 立場分離: 「賛成派と反対派の両方を出して」
- 不利側強制出力: 「最大の弱点/最も後悔するシナリオ」
- 盲点指定: 「私が想定してない原因」
- 前提受容型継続: 「仮にその通りだとして、次に取るべき行動は?」
- 3rd person framing: 「誰かが考えた案ですが」と距離化
覚えるのは5つだけ。
私は5つの中で「前提受容型継続」が一番応用が効くと感じました。
反論したい場面でこそ、いったん受け止める形に変換するのが効きやすい。
Claude/ChatGPTにカスタム指示を入れる5ステップ手順
Anthropic公式とOpenAI公式の各ヘルプページを引いて、両方で動く形で再構成しました。
Claudeでの設定(Claude.ai Web版):
- STEP1: claude.ai にログインし、左下のプロフィールアイコンをクリック
- STEP2: 「Settings」→「Profile」を開く
- STEP3: 「What personal preferences should Claude consider in responses?」欄に上記日本語テンプレを貼る
- STEP4: 「Save」を押して反映
- STEP5: 新規会話を開いて「私の考えに過剰賛成しないでね」と聞き、ふだんと違うトーンで返ってくるか確認
ChatGPTでの設定(ChatGPT Web版):
- STEP1: chatgpt.com にログインし、右上のプロフィールアイコン→「Customize ChatGPT」
- STEP2: 「What traits should ChatGPT have?」または「Anything else ChatGPT should know about you?」欄を開く
- STEP3: 上記日本語テンプレ(または英語jdhodges版)を貼る
- STEP4: 「Save」で反映、設定の「Use for new chats」をオン
- STEP5: 新規会話で「この投資いいと思うんだけど」と試して、肯定一辺倒で返ってこないか確認
引っかかりやすいポイントが1つ。
Claudeのカスタム指示は「会話のスタイル」欄と混同しやすいですが、入れる場所は「Profile」内のpersonal preferences欄が常時適用されます。
ChatGPT側はメモリ機能との二重発動があるので、カスタム指示で過剰肯定を抑えても、メモリ側に「ユーザーは前向きな返事を好む」と記録されてると効きが薄れます。
メモリも合わせて見直すのが推奨です。
料金的にClaudeとChatGPTどっちが向いてる?
お世辞対策の文脈では、料金より「最新モデルへのアクセス可否」が効きます。
| 項目 | Claude Pro | ChatGPT Plus |
|---|---|---|
| 月額 | $20 | $20 |
| 最新モデル | Opus 4.7(人間関係相談のお世辞率がOpus 4.6比で半減) | GPT-5(GPT-4oの14.5%→6%未満) |
| カスタム指示 | Profile欄 | Customize ChatGPT欄 |
| メモリ機能 | Projectsで分離可 | 常時オン(個別オフ可) |
個人的には、人生の判断相談用途ならClaude Opus 4.7(2026年4月16日リリース)を1軍にしておくのが現状の合理解。
研究データそのものをトレーニングに使ってる、と公式が明言している分、構造的に媚びにくくなっているという話。
"Insights from this research helped train Claude Opus 4.7 and Mythos Preview. Opus 4.7 produces sycophantic responses in relationship guidance scenarios at half the rate of Opus 4.6."
出典: Anthropic公式
「半減」であってゼロではない点には注意。
25%が12〜13%に近づくくらいのオーダーです。
注意点と限界
カスタム指示一発で全部解決、にはならないというのが正直なところ。
- 重要決断は2回違う形で聞く: 同じ案件でも「賛成側を3つ」と「反対側を3つ」を別会話で聞いて見比べる
- 複数AIで突き合わせ: ClaudeとChatGPT、できればGeminiも併用して結論の重なりを取る
- 感情ベクトルの存在: Anthropicの別研究では、Claude Sonnet 4.5内に171個の感情様ベクトルが見つかっており、ポジティブ感情ベクトルとお世辞挙動に直接的因果が確認されています(出典: Dataconomy)
- ChatGPTでの効きは構造同等+数値未確認: AISI研究はGPT-5でも質問形リフレーミングの24ポイント差を確認、構造の流用は妥当ですが「Claudeと同率で減る」とは公式に確認されていません
- 有害行動への肯定も観測あり: Stanford 2026年3月研究(N=1,604)はAI 11モデルすべてでお世辞挙動を確認、有害・違法行動でも47%のケースで肯定したと報告(出典: Stanford Report)
カスタム指示を入れても、AIが「絶対に正直」になるわけではない。
判断責任は最終的に自分側にある、という前提を外さないこと。
まとめ:3つの数字と5つの構造原則だけ覚える
Anthropic 2026年4月30日研究の要点は、数字3つで足ります。
- 個人相談の9%はお世辞回答
- 反論で押し戻すと18%に倍増
- 健康27%・キャリア26%・人間関係12%・お金11%で全相談の76%超
対策の構造原則は5つ。
- 立場分離(賛成・反対の両出し)
- 不利側強制出力(最大の弱点/後悔シナリオ)
- 盲点指定(想定外の原因)
- 前提受容型継続(仮にそうだとして次の行動)
- 3rd person framing(誰かの案として聞く)
これをカスタム指示に1回貼って、分野ごとのキーワードを使い分ければ、お世辞型ループから抜けやすくなります。
AIに人生の判断を委ねきらない、というのが結局いちばん効く対策。
私はこれを書き終えて、Claudeにもう1回同じ転職相談を投げ直してみるつもりです。
聞き方を変えると、返ってくる景色がどう変わるか試す価値はあります。
FAQ
Claude Opus 4.7なら、何もしなくてもお世辞は減りますか?
Anthropic公式は、Opus 4.7が人間関係相談のお世辞率をOpus 4.6比で「半減」と明記しています。
ただし「半減」であってゼロではなく、人間関係25%が12〜13%程度に近づくオーダー。
プロンプト側の対策と併用が現実解です(出典: Anthropic公式)。
ChatGPTでも同じテンプレが使えますか?
プロンプト構造の流用は可能です。
AISI 2026-04-29研究で、質問形リフレーミング技法がGPT-5・Claude Sonnet 4.5の両モデルで24ポイントのお世辞削減を確認しています。
ただし「同率で減る」とは公式数値の保証はないため、ChatGPT側でも結果を突き合わせて運用するのが安全です。
「批判して」と頼めばお世辞は減りますか?
直接指示は効きが薄いと報告されています。
AISIは「お世辞をやめろ」型より質問形での前提受容(「仮にその通りだとして次の行動は?」)の方が効くと示しました。
Wharton教授Ethan Mollickも、devil's advocateを頼んでも冒頭で褒めてから始める挙動を観察しています。
カスタム指示を入れたら、AIが冷たくなりませんか?
過剰肯定が消えるだけで、説明や提案は通常通り出ます。
jdhodges.comの実装報告では、デフォルトと「適切に設定されたClaude」の差を"night and day"としつつ、回答の有用性は落ちなかったとしています。
文体が硬くなりすぎる場合は「敬語ベースで」「ただし詰問調にはしない」を加えると調整できます。
仕事を辞めたい、彼と別れたい、みたいな相談ではどう聞けばいいですか?
キャリア系なら「3年後に最も後悔するシナリオ3つ、うち1つは盲点」、人間関係なら「相手側の合理的解釈3つ」を先に出させる聞き方が効きます。
Anthropic公式研究の問題例にも「計画なく仕事を辞めようとしている人に『正しい判断です』」「一方的な話で『ガスライティング』に同意」という具体パターンが挙がっています。
参考リンク
- Anthropic公式: How people ask Claude for personal guidance(2026-04-30)
- Anthropic基礎研究: Towards Understanding Sycophancy in Language Models(2023)
- Claude Opus 4.7発表(2026-04-16)
- OpenAI公式: GPT-4oのお世辞問題説明
- AISI Question Reframing研究(2026-04-29)
- Stanford Report: AIアドバイスのお世辞研究
- MIT ELEPHANT benchmark
- GIGAZINE 日本語ニュース解説(2026-05-01)
- jdhodges.com: Claudeカスタム指示実装例
- whytryai.com: How to Reduce AI Sycophancy
このページに出てきた言葉
- sycophancy(シコファンシー)
- AIがユーザーの考えに合わせて肯定し続ける挙動の総称。日本語では「お世辞」「おべっか」
- RLHF
- 人間のフィードバックでAIを学習させる手法。お世辞挙動の主原因の1つ
- カスタム指示
- ClaudeやChatGPTに「全会話に適用するルール」を1度だけ設定する機能
- プロンプト
- AIへの入力テキスト。質問の仕方そのもの
- ガスライティング
- 相手の現実認識を歪めて本人が間違っていると思い込ませる心理操作
- 3rd person framing
- 私自身の案を「誰かの案ですが」と書き換えて距離化する聞き方
- devil's advocate
- 議論を深めるためにあえて反対の立場で批判する役回り
- AISI
- UK AI Security Instituteの略。イギリス政府のAI安全性研究機関
※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。