AI活用全般

Claudeに正直モードを設定してでっち上げ回答を止める方法|Anthropic公式7手法を設定欄に1回貼るだけ

Claudeが知らないことまで自信満々に答えて困る、を設定1回で減らせます。

Settings内の「Instructions for Claude」に正直さのルールを貼れば、全会話に永続で効きます。

このルールはAnthropic公式の幻覚削減ガイド7手法を、チャット用に翻訳・再構成したものです。

この記事はAIで調査やファクトチェックをする人向け(Claude.aiを触ったことがあれば読めます)。

毎回プロンプトの頭に「断定するな」「ソースを出して」と書いていた時間、あれが全部いりません。

Claude.aiのSettingsには、全会話に効く永続の指示欄があります。

「Instructions for Claude」という場所です。

ここに正直さのルールを1回貼っておけば、新しいチャットを開くたびに同じ前置きを打ち直す手間が消えます。

私が一番もったいないと思うのはそこ。

同じ指示を毎回コピペしてる人が、実務者ほど多いんです。

この記事では、貼るべきテンプレ全文と、その根拠になっているAnthropic公式ガイドとの対応表を出します。

出典は全部URLで示します。

最後に「貼れば嘘ゼロ」にならない理由も、公式研究を引いて書きます。

そもそも「Instructions for Claude」って何のこと?

Claude.aiの設定画面にある、全会話に効く永続の指示欄です。

公式ヘルプの導線はこうなっています。

Click your initials in the lower left corner → Settings → Instructions for Claude

(左下のイニシャル → 設定 → Instructions for Claude)

出典: Claude公式 パーソナライゼーション機能の説明

日本語UIだと「Claudeが応答時に考慮すべき個人設定は何ですか?」という見出しの欄として出てきます。

ここに書いた内容は、特定のチャットだけでなくアカウント全体の会話に適用されます。

似た機能はChatGPTの「Custom Instructions」、Geminiの「Saved info / Gems」にもあります。

ただClaudeの場合、文字数上限が公式に明示されていません。

ChatGPTのCustom Instructionsが約1,500字で打ち止めなのに対して、Claudeは長めのルールを置きやすい。

約1,500字の上限差は地味に効きます。

注意したいのは、Projects(プロジェクト)の指示欄とは別物だという点。

Projectsの指示は特定プロジェクト内だけ、Instructions for Claudeは全会話に効きます。

混同すると「設定したのに効かない」が起きます。

なぜ「毎回プロンプトに断定するな」が要らなくなるのか?

理由はシンプルで、永続設定欄に1回書けば全会話に効くからです。

チャットごとに前置きを打つ必要がない。

同じ500ワードのルールを毎日コピペしてた人ほど、効果を体感します。

ここで効いてくるのが、Claudeがそもそも持っている性質です。

AnthropicはClaudeの行動原則を「Claude's Constitution」として公開していて、誠実さを核に据えています。

Honesty is a core aspect of our vision for Claude's ethical character.

Claude should be diplomatically honest rather than dishonestly diplomatic.

(誠実さはClaudeの倫理的性格の核。

Claudeには「不誠実に当たり障りなく」ではなく「外交的に誠実」であってほしい)

出典: Anthropic Claude's Constitution

同じ文書の中で、曖昧でどっちつかずの答えで人をなだめる態度を「Epistemic cowardice(認識上の臆病)」と名指しして、正直さに反すると書いています。

つまりClaudeは設計思想として「わからないことをわからないと言う」方向に寄っている。

これは私が結構いいと思っているところです。

ただ、その性質は素のままだと弱い。

だから永続設定で明示的に「自信がないなら認めろ」と書いておく。

後押ししてやるイメージです。

Anthropic公式の幻覚削減7手法と、貼るテンプレの対応表は?

ここが今回の核心です。

ネット上の「正直モードプロンプト集」の多くは自己流ですが、Anthropic自身が公式ドキュメントで幻覚(もっともらしい嘘・でっち上げ)を減らす手法を明記しています。

計7つ。

Explicitly give Claude permission to admit uncertainty. This simple technique can drastically reduce false information.

(不確実性を認める許可をClaudeに明示的に与える。

このシンプルな手法だけで誤情報を劇的に減らせる)

出典: Anthropic公式「Reduce hallucinations」

この公式7手法と、永続設定に貼るルールがどう対応するか。

表にしました。

これを作ってる日本語記事を私は他に見ていません。

貼るルール(日本語)対応するAnthropic公式手法公式の原文要旨
自信がないなら「わからない」と言えAllow Claude to say "I don't know"(不確実性の許可)不確実性を認める許可を明示的に与える
事実を述べる時は出典の引用を添えろVerify with citations(引用による検証)各主張に引用と出典を付け、検証可能にする
長い資料は先に逐語で抜き出してから答えろUse direct quotes for factual grounding(逐語引用での根拠づけ)2万トークン超の資料は逐語引用を先に抽出
結論の前に推論の手順を見せろChain-of-thought verification(思考連鎖検証)最終回答の前に段階的に理由を説明させる
渡した資料だけで答え、一般知識で補うなExternal knowledge restriction(外部知識の制限)提供文書のみ使い、一般知識を使うなと明示

残り2つ、Best-of-N verification(同じ質問を複数回投げて出力を比べる)とIterative refinement(出力を次の入力にして検証させる)は、設定欄に貼る性質のものではなく、その場の運用テクニックです。

だから永続テンプレには入れません。

公式自身がこう釘を刺しているのも引いておきます。

Remember, while these techniques significantly reduce hallucinations, they don't eliminate them entirely. Always validate critical information, especially for high-stakes decisions.

(これらの手法は幻覚を大幅に減らすが、完全になくすわけではない。

重要な情報は常に検証すること)

出典: Anthropic公式「Reduce hallucinations」

「劇的に減る」だけど「ゼロにはならない」。

この温度感をそのまま記事に持ち込みます。

盛らないのがこのブログの立て付けです。

Settings欄に正直モードを設定する手順は?

公式ヘルプの導線をそのまま使えば、3ステップで終わります。

難しい操作はありません。

  1. STEP1: 設定画面を開く - Claude.aiの画面左下にあるイニシャルのアイコンをクリックし、メニューから「Settings(設定)」を選びます。日本語UIでも左下のイニシャルがスタート地点です。
  2. STEP2: 指示欄を見つける - 設定内の「Instructions for Claude」(日本語UIでは「Claudeが応答時に考慮すべき個人設定は何ですか?」)という入力欄を開きます。Projectsの指示欄と間違えないよう注意。
  3. STEP3: テンプレを貼って保存 - 次のセクションのテンプレ全文をコピーして欄に貼り付け、保存します。これで新しいチャットを開くたびに自動で適用されます。

引っかかりやすいのはSTEP2。

Projectsの中の指示欄に貼ると、そのプロジェクト内だけにしか効きません。

全会話に効かせたいなら、必ずアカウントのSettings側の「Instructions for Claude」に貼ること。

ここを間違える人が多いです。

前提として、文字数上限は公式に明示されていません。

実運用の目安は500ワード(約2,000〜2,500字)以内とされています(出典: promptoptimizer.tools)。

下のテンプレはこの範囲に収まります。

貼り付けるテンプレ全文(公式7手法の翻訳・再構成版)は?

下のテキストをそのままコピーして、Instructions for Claudeに貼ってください。

前半が公式の幻覚削減手法に対応した正直モード、後半は調査・ファクトチェック実務に寄せた拡張です。

【正直さの基本ルール】
- 自信がない事柄は断定せず、「確信が持てない」「情報が足りない」と正直に言うこと。
- 事実・数字・固有名詞を述べる時は、根拠となる出典を必ず添えること。

出典を示せない情報は「裏付けが取れていない」と明記する。 - 私が渡した資料がある場合は、その資料の中から逐語で該当箇所を引用してから答えること。

資料内に該当箇所がなければ「該当する記述なし」と述べる。 - 重要な判断を求められたら、結論の前に推論の手順を段階的に示すこと。 - 渡した資料だけで答えるよう指示された時は、一般知識で補わないこと。 【調査・ファクトチェック向け拡張】 - 統計や引用を出す時は、出所(媒体名・年・URLがあればURL)をセットで示す。 - 情報の鮮度に不安がある場合は「○年時点の情報」と時点を明示し、最新でない可能性を添える。 - 私に同調するためだけに意見を変えないこと。

私が反論しても、根拠が変わらない限り立場を維持してよい。 - お世辞や「いい質問ですね」から始めないこと。

要点から答える。

このテンプレは私のオリジナル文章ではなく、Anthropic公式「Reduce hallucinations」の7手法を日本語のチャット用に翻訳・再構成したものです。

対応関係は前の表のとおり。

原典はこちらを当たってください。

後半の「お世辞から始めるな」「同調のために意見を変えるな」の部分は、思考パートナー向けの「brutally honest(容赦なく正直)」プロンプトの発想を取り入れています。

You are my brutally honest thinking partner. You're not my cheerleader. You are not my yes-man. Never open with praise, agreement, or 'great question.' Ever.

(君は私の容赦なく正直な思考の相棒だ。

私の応援団じゃないし、イエスマンでもない。

賞賛や同意や「いい質問ですね」から始めるな。

絶対に)

出典: Ruben Hassid「How to AI」Substack

この原典は読者29万人超(後のデータでは44.8万・65.8万以上の記述もあり)のニュースレターで公開された個人向けプロンプトです。

6ステップの思考フレームワーク構成。

私のテンプレは、その「おべっかを禁じる」発想だけを借りて、調査・ファクトチェック用に作り直しています。

出典を明示するのは剽窃を避けるためです。

実務者は正直モードをどう使うのか?(活用シーンと手順)

調査・ファクトチェックの現場で効くのは、AIが実在しない情報をでっち上げる「class of problem(その手の問題)」を減らせる点です。

これは設定で減らせる類のミスです。

取材記事では、ITコンサルタント兼ソフトウェア開発者の経験談がわかりやすい。

I spent 20 minutes debugging code based on a library function Claude cited that literally didn't exist. The single instruction 'If you're not confident in something, say so rather than fabricating' resolved that class of problem.

(実在しないライブラリ関数をClaudeが挙げてきて、それを元に20分デバッグした。

「自信がないならでっち上げずにそう言え」という一文だけで、その手の問題が解決した)

出典: J.D. Hodges ブログ

一文ぶんの設定で20分の無駄が消えます。

20分の無駄が一文で消える。

これ実務だと結構でかいです。

同じことを調査記事の事実確認でやるなら、手順はこうなります。

原典が示している使い方を、ファクトチェック用に並べ替えたものです。

  1. STEP1: 正直モードを設定済みにする - 前述の手順でInstructions for Claudeにテンプレを貼っておく。これで全会話に「出典がない情報は裏付けなしと言え」が効きます。
  2. STEP2: 確認したい資料を会話に渡す - 一次資料(PDF・記事本文など)をチャットに貼り、「この資料の中だけで答えて」と指示します。テンプレの外部知識制限ルールが効き、勝手な補完を抑えます。
  3. STEP3: 逐語引用とセットで答えさせる - 「主張ごとに、資料の該当箇所を逐語で引用して」と頼みます。引用が出せない主張は「該当記述なし」と返ってくるので、でっち上げをその場で弾けます。

引っかかりやすいのは、資料を渡さずに「正確に答えて」とだけ言うケース。

根拠になる資料がないと、結局AIは一般知識から推測します。

STEP2の資料渡しを省くと効果が薄れます。

導入の効果について、公式docsの3プロンプトを見つけたユーザーの言葉も引いておきます。

The prompts meaningfully shift Claude's behavior toward accuracy over confidence, and for professional use cases where the stakes are real, that's the difference between a useful tool and a liability.

(このプロンプトはClaudeの振る舞いを「自信」より「正確さ」へ意味のある形で動かす。

本当にリスクがある業務用途では、それが「使えるツール」と「お荷物」の差になる)

出典: XDA Developers

「貼れば嘘ゼロ」にならないのはなぜ?

ここを書かない記事は信用しないほうがいいです。

正直モードを貼っても、幻覚は構造上ゼロにはなりません。

公式自身が「完全になくすわけではない」と明言している(前述)。

さらに別のトレードオフと限界があります。

1つ目。

出典の引用を強く縛ると、創造的な出力が減ります。

公式docsの3プロンプトを広めたユーザーがこう書いています。

There's a tradeoff though...citation constraints reduce creative output. So I don't run these all the time.

(ただトレードオフがある。

引用の制約は創造的な出力を減らす。

だから常時は走らせていない)

出典: XDA Developers

ブレストやアイデア出しの時は、正直モードを一旦外したほうがいい場面もある。

私なら用途で切り替えます。

2つ目。

これが一番大事なところで、押し戻すと媚びが増える現象が観測されています。

Anthropicが2026年3〜4月のclaude.ai会話100万件から抽出した相談系の会話を解析した研究(2026年5月1日発表)の数字です。

状況sycophancy(媚び・同調しすぎ)率
全ガイダンス会話の平均9%
ユーザーが押し戻した場合18%(平均の約2倍)
恋愛・人間関係の相談25%
スピリチュアリティの相談38%

ユーザーが「いやそれ違うでしょ」と押し戻すと、媚びる確率が9%から18%へ倍になる。

これは観測された事実です(出典: Anthropic sycophancy研究)。

ここで誤解しないでほしいのは、「新情報なしの押し戻しには動かないよう訓練する」というのはAnthropicの訓練目標であって、実現済みではない点です。

研究が示しているのは「押し戻すと同調が倍増する」という現状の観測。

混同すると話が逆になります。

Claude is more likely to exhibit sycophantic behavior under pressure.

(Claudeは圧力の下で、より媚びる振る舞いを見せやすい)

出典: Anthropic sycophancy研究

改善は進んでいます。

最新のOpus 4.7は、恋愛ガイダンスでのsycophancy率を旧モデル比で半減させたと報告されています(出典: QuantumZeitgeist)。

表の25%(恋愛ガイダンス)が始まりの数字なので、半分の12.5%前後まで落ちた計算で、これはすごい。

ただ半減であってゼロではない。

とはいえ最初が25%。半減できても気を抜ける数字ではありません。

3つ目。

思考の手順(chain-of-thought)を見せさせても、それが本当の推論を反映しているとは限りません。

Anthropicは、モデルが思考過程の一部を隠す可能性に触れています(出典: VentureBeat報道)。

「手順を見せろ」が万能チェックにはならない、ということです。

というわけで、正直モードは「嘘を減らす設定」であって「嘘ゼロの保証」ではない。

私の結論はこうです。

設定して土台を上げつつ、重要な数字は手元で一次資料に当たる。

月20ドルのProでも、最終チェックの責任までは肩代わりしてくれません。

このページに出てきた言葉

Instructions for Claude
Claude.aiの設定にある、全会話に永続で効く指示欄。1回貼れば毎回適用される
カスタムインストラクション
AIに「いつもこう振る舞ってね」と覚えさせる永続の指示
ハルシネーション
AIがもっともらしい嘘・でっち上げを自信満々に出す現象
sycophancy(シカファンシー)
AIがユーザーに媚びて同調しすぎる性質。日本語で「おべっか」「ゴマすり」
chain-of-thought(思考連鎖)
答えの前に考えた手順を順番に書き出させる方法
トークン
AIが文章を処理する細かい単位。日本語はだいたい1文字前後で1トークン
システムプロンプト
AIに最初から渡しておく前提の指示
一次資料
又聞きでなく、おおもとの情報源そのもの。公式発表や論文本文など

よくある質問

Instructions for Claudeは無料プランでも使える?

公式ヘルプにプラン別の制限は明記されていません(出典: Claude公式)。

料金はFreeが$0、Proが月$20(年払い$17/月)、Maxが月$100〜。

永続設定欄自体はプラン制限の記載がない機能です。

文字数の上限はどれくらい?

Claude公式には文字数上限の明示がありません。

実運用の目安として500ワード(約2,000〜2,500字)以内とされています(出典: promptoptimizer.tools)。

参考までにChatGPTのCustom Instructionsは約1,500字が上限で、Claudeはその制限がない点が差になります。

このテンプレを貼れば幻覚はゼロになる?

なりません。

Anthropic公式が「これらの手法は幻覚を大幅に減らすが完全にはなくさない」と明言しています(出典: Anthropic公式)。

重要な数字や事実は、設定とは別に一次資料で人間が検証してください。

押し戻すと媚びるって本当?どう対処する?

Anthropicの100万件規模の解析で、押し戻し時のsycophancy率は18%と平均9%の約2倍でした(出典: Anthropic研究)。

対処としては、テンプレに「根拠が変わらない限り立場を維持しろ」を入れておくことと、最終判断は人間が下すことです。

Projectsの指示欄とどう違う?

Instructions for Claudeは全会話に効きます。

Projectsの指示はそのプロジェクト内だけです。

全会話に正直モードを効かせたいなら、必ずアカウントのSettings側に貼ってください。

参考リンク

※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。

-AI活用全般
-, ,

← 戻る