スキルを自作したいけど、書き方や良し悪しの測り方が分からない人向け
新しいスキルをゼロから作りたい初回や、作ったスキルが思うように発動しない・出来が安定しないと感じたときに、/skill-creator を起動して雛形を生成させたり、テストで点数をつけて弱点を見つけ、説明文や手順を直しながら良くしていく場面で使う。
スキルを自分で作ろうとして、SKILL.mdに何を書けばいいのか、書いたものが「いいスキル」なのかどうかの判断が付かず手が止まる。skill-creator は、そのスキル作りを「作る→試す→採点する→直す」の繰り返しで横から手伝ってくれる、Anthropic公式の追加部品です。
面白いのは、出来上がりを雰囲気で良し悪し判断しない点。テスト用の問いをいくつか流して点数を出し、前のバージョンと盲目で見比べてくれます。
噛み砕くと
料理で言うと、レシピを書くだけ書いて出すのではなく、試食係と採点係が横にいる感じです。あなたが新しいレシピ(スキル)の下書きを作ると、それを実際に作って味見する係、点数をつける係、前のレシピと食べ比べる係、どこを直すと良くなるか言う係が動きます。
あなたは「もっと薄味に」みたいな方向性を渡すだけ。採点とビフォーアフター比較は道具側が回してくれます。
手で全部書くより、ぐっと当てずっぽうが減ります。
大事な前提:これが無くてもスキルは作れる。あと、全部入りで使うなら Claude Code
勘違いしやすいのですが、skill-creator はスキルを作るための必須品ではありません。SKILL.mdは手書きでも作れます。詳しくは辞書の skills を見てください。
skill-creator の値打ちは、下書きの雛形を出してくれることと、出来をテストで採点・性能測定してくれること。手書きだと「なんとなく良さそう」で終わるところを、数字で測れます。
もう1点、動かす場所によって使える範囲が変わります。Claude Code なら全機能が動きます。裏で並列に動く小さな手下のClaude(subagent)が使えるので、テストの一括採点も、性能測定も、目隠しの見比べも、説明文の自動磨きも、全部回ります。
一方 Claude.ai だと、その小さな手下が使えません。スキルの作成と手での動作確認まではできますが、テストは1件ずつ手作業になり、数値の性能測定と目隠しの見比べは飛ばす形になります。説明文の自動磨きも、ターミナルからClaudeを1回だけ走らせる使い方(claude -p)が前提なので、Claude.ai では飛ばします。要は、全部入りで触りたいなら Claude Code、という整理です。
この項目の公式の出どころは、ふだんの code.claude.com ではなく、GitHub上の Anthropic 公式の追加部品集と claude.com です。正規の公式ソースですが、置き場所がいつもと違うことだけ頭に入れておくといいです。
「料理ブログ用のレシピ整形スキル」を例に、実際の手順を見る
題材は、料理ブログに貼り付けたレシピのテキストを、材料・分量・手順のきれいな形に整えてくれる自作スキル。これを skill-creator で作って、測って、直すところまで通しでやってみます。
ステップ1: skill-creator を入れる
skill-creator は Anthropic 公式の追加部品集「claude-plugins-official」に入っています。この集めから部品を入れる時は /plugin install 部品名@claude-plugins-official という形を使うので、skill-creator なら次のようになります。
/plugin install skill-creator@claude-plugins-official
入れた直後にそのセッションで効かない時は、/reload-plugins を叩くと今の会話に反映されることがあります。これは公式ドキュメントに明記された手順ではなく、効かない時の保険として覚えておく程度で大丈夫です。
ステップ2: 起動する(やり方は2つ、どちらでも動く)
起動には2つの形があります。1つは /skill-creator だけ打って、出てきたモードから Create を選ぶやり方。
/skill-creator
モードは4つ。Create(作る)/Eval(評価する)/Improve(直す)/Benchmark(性能測定)です。初回は Create を選びます。
もう1つは、コマンドの後ろに直接やりたいことを書いてしまうやり方。
/skill-creator Create レシピ整形スキルを作りたい
公式が出している実例も、後ろに自然言語で書く形です。「Create a new skill that reviews PRs for security issues」「Run evals on my code-review skill」「Improve my deploy skill based on these test cases」のように、何をしたいかをそのまま文章で渡せます。どちらでも動くので、決め打ちで頼みたい時は後ろ書き、迷ってる時はモード選択、と使い分けると楽です。
ステップ3: Create で雛形を出させる
「レシピのテキストを、材料・分量・手順の3ブロックに整えるスキルが欲しい」と伝えると、対話しながら聞き返してきます。「箇条書きの記号は何にする?」「分量の単位は揃える?」みたいな細部。
答え終わると、SKILL.md と、必要なら scripts のような付属素材が入った下書き一式が出てきます。ここまでで「とりあえず動くスキル」は完成です。
ステップ4: テスト用の問いを数件用意する
ここで初心者がやりがちな勘違いがあります。雛形ができた時点で「完成」と思ってしまうこと。実際は、ここからが本番です。
整形させたい生レシピのテキストを3〜5件用意します。きれいな例だけでなく、分量が抜けてる・手順がぐちゃぐちゃ、みたいな崩れた例も混ぜるのがコツ。
ステップ5: Eval で採点させる
Eval を選ぶと、用意した問いに対してスキルを実際に走らせ、出てきた結果を期待値と照らして採点します。「材料の単位がバラバラのまま」「手順の番号が飛んでる」といった弱点が点数と一緒に出ます。
このとき裏で4つの専門係が動きます。実行係(Executor)が走らせ、採点係(Grader)が点をつけ、見比べ係(Comparator)が前バージョンと盲目で比べ、提案係(Analyzer)が直し所を出す。あなたは結果を読むだけです。
ステップ6: Improve で直す(特に説明文を磨く)
採点結果を見て Improve に進むと、Analyzer の提案をもとに SKILL.md の指示文を書き直していきます。ここで効くのが「説明文の調整」。スキルが正しい場面でちゃんと発動するよう、説明文を磨き直せます。これは辞書の description に直結する話です。
そして Benchmark。同じテストを何回も回して、点数のばらつきを見ます。1回だけの結果で「良くなった」と決めないための機能です。
つまり skill-creator は何をしてくれるのか
- やってくれる: スキルの下書き一式を対話で生成し、テストで採点・性能測定し、前バージョンと盲目で見比べて、直し所まで提案する
- やってくれない: スキルの中身の正解を勝手に決めること。何をどう整形したいかの方向性は、あなたが渡す必要がある
- 意味が薄い場面: 一度きりの使い捨て指示で済む作業。測って直す繰り返しが要らないなら、その場で頼むほうが早い
使いどころ3シナリオ(具体題材で再現)
シナリオ1: 料理ブログのレシピ整形を毎回やってもらいたいとき
週3本レシピを上げる料理ブログで、毎回「材料・分量・手順をこの形に整えて」と打ち直すのが面倒。整形スキルを1本作って常備すれば、貼るだけで同じ形に揃います。Create で雛形を出し、過去記事10本でEvalして崩れる例を潰しておくと、本番で事故りにくくなります。
シナリオ2: 家計簿アプリ開発のテスト書きスキルを安定させたいとき
家計簿アプリを作っていて、テストコードの書き方を毎回スキルに任せたい。ただ、たまに変な書き方が混じる。Benchmark で同じ依頼を10回回すと、当たり外れのばらつきが数字で見えます。ばらつきが大きい指示文を Improve で締めれば、出力が安定します。
シナリオ3: 作ったのに発動しないスキルを直したいとき
レシピ整形スキルを作ったのに、レシピを貼っても発動しない。よくある原因は説明文がぼんやりしていること。skill-creator は今の説明文をテスト用の問いと突き合わせ、出るべき場面で出て・余計な場面で出ないよう説明文の文言を直してくれます。発動率の改善はここが要です。
初心者が踏みやすい落とし穴
- Create だけで満足して終わる。雛形は出発点。Eval と Benchmark で測らないと、改善のループが回りません。skill-creator の本体は「繰り返し直す」部分です。
- 1回の採点結果で良し悪しを決める。出力はそのつど揺れます。Benchmark で何回か回し、ばらつきを見てから判断すること。variance(ばらつき)を見るための機能です。
- テスト用の問いをきれいな例ばかりにする。崩れた入力こそ弱点があぶり出される場所。汚いレシピ、抜けのあるレシピを必ず混ぜます。
- Claude.ai で全機能が動くと思い込む。数値の性能測定・目隠しの見比べ・説明文の自動磨きは、裏で並列に動く小さな手下が要るため Claude.ai では飛ばされます。全部入りで回したいなら Claude Code を使います。
- 出どころが普段と違う点を見落とす。この部品は code.claude.com ではなく公式の追加部品集から入れます。導入は
/plugin installから。配布元が信頼できる公式かどうかは毎回確かめる癖をつけると安全です。 - スキルが無いと作れないと思い込む。SKILL.md は手書きでも作れます。skill-creator はあくまで作りを速くする道具で、必須ではありません。
- 説明文を後回しにする。中身が良くても説明文が弱いと発動しません。発動率が悪いと感じたら、まず説明文の調整から手を付けます。
- 付属素材を何でも盛り込む。scripts や references や assets(いずれも任意)は、必要なときだけ。最初から全部入れると重くなり、かえって扱いづらくなります。
書き方
/skill-creator(起動してモードを選ぶ)
/skill-creator Create a new skill that ...(コマンドの後ろに自然言語で「何を作りたいか」を直接書いても動く)
やってみるとこうなる
入力
/plugin install skill-creator@claude-plugins-official
/skill-creator Create レシピ整形スキルを作りたい
出力例
起動するとモードを聞かれる(または後ろに書いた要望をそのまま受け取る)。Create を選ぶと対話で要望をヒアリングしながらSKILL.md一式の下書きを生成。Eval を選ぶと用意したテスト用の問いにスキルを走らせて結果を採点。Improve で直し所の提案をもとに書き直し、Benchmark で同じテストを複数回回して点数のばらつきまで測る。
このページに出てきた言葉
- スキル
- Claude Codeに「こういう作業のときはこう動いて」と覚えさせる説明書きのまとまり。<code>SKILL.md</code> という1ファイルが中心
- SKILL.md
- スキルの本体ファイル。先頭に名前と説明の決まった書式を置き、その下に動き方の指示を文章で書く
- 雛形
- ゼロから書かずに済むよう最初に用意してくれる下書き・たたき台
- eval(評価)
- 用意した問いにスキルを走らせ、出てきた結果に点数をつけて役に立つか測ること
- benchmark(性能測定)
- 同じテストを何回も回し、点数のばらつき具合まで見て性能を測ること
- subagent(小さな手下)
- 本体のClaudeとは別に、裏で並列に動かせる小さなClaude。Claude Code でのみ使え、テストの一括採点や目隠し比較に使う
- 説明文(description)
- スキルがどんな時に発動するかを決める一文。書き方しだいで発動の精度が変わる
関連項目
公式ドキュメント
https://github.com/anthropics/claude-plugins-official/tree/main/plugins/skill-creator