AIにAIのplanをレビューをさせるSKILLを作った

AIにAIのplanをレビューをさせるSKILLを作った Claude Code × Codex クロスレビューの記録 2026/2/24 俺の勉強会 #5 wabi
1

先に結論 AIが作った計画は、別モデルのAIにレビューさせるとよいただし目的は人間レビューの完全な代替ではなく、見落とし・大方針の事前検討そのための /codex-review skillを作った 2

/codex-review Claude Code で作ったplanを Codex MCP 経由でレビューするスキル https://github.com/wabi1318/codex-review-skill plan: Claude
Code が実装前にコードベースを調査し作成する実装計画 skill: SKILL.md で定義する Claude Code の拡張機能（ / コマンド名で呼び出せる） 3

フロー人間 → スコープ決め・方向付け・指示 ↓ Plan Mode （Claude Code ）
↓ 実装プランを作成 ↓ （人間 → プラン確認） ↓ /codex-review 実行 ↓ ① Codex MCP にプラン送信 ↓ ② レビュー結果を受信 ↓ Claude Code が判定 → 採用 / 却下 / 要確認 ↓ 人間 → 最終レビュー・承認 4

なぜplanをレビューすることにしたのかコードになる前に方向を正す方がコストが安い手戻りしたくないプラン段階なら、影響範囲・依存関係・デグレのリスクを実装前に潰せるただし LLM にレビューを任せきりにはできない人間の介在と異なるモデルでのクロスレビューが必要 5

LLM単独のコードレビューは信頼できるか？ GPT-4o vs Gemini 2.0 Flash — 492コードブロックで検証指標 GPT-4o
Gemini 正誤判定の正答率 68.50% 63.89% コード修正率 67.83% 54.26% 最高でも正答率 68% — 完全自動化には不十分データセットによって優劣が逆転する場合がある → 人間の介在 + 自社のコードベースに合わせた最適なモデルの選択・検証が必要出典: Cihan et al., Evaluating LLMs for Code Review (2025) 6

LLMによる自己検証にも限界がある自己検証の根本リスク LLMに自分の出力を検証させると、誤り検出・制約遵守・ハルシネーションで見逃しが起きうる → 同一モデルの自己レビューだけに頼らない複雑要件を単独で処理する限界（VeriPlan が引用する先行研究では）GPT-4 の
planning tasks 成功率平均12% → 高性能LLMでも外部サポートが必要出典: Lee et al., VeriPlan: Integrating Formal Verification and LLMs into End- User Planning (CHI 2025) 7

人間×AIの協働パターン Human First, Computer Last（HF-CL）人間が大局的な方向付け → AIが精密な調整エキスパート単独の約半分のコストで目標達成（Kanarik
et al., Human–machine collaboration for improving semiconductor process development） 8

人間×AIの協働パターン役割分担レビュー専門の異なるエージェントを組み合わせ、多角的フィードバック単一の視点だけでは拾いにくい論点を補完しやすい（Rasheed et al., AI-powered Code Review
with LLMs: Early Results） 9

今回の /codex-review 設計に引き直すと人間: スコープ / 優先度 / 最終的な採否判断 /
必要なら都度介入 Claude Code: 実装プラン作成・修正 Codex: 外部視点で抜け漏れ・回帰リスクを事前チェック → 人間が重要な判断、異なるAIモデルで相互検証する構成 10

実際のプロンプト（抜粋）あなたは実装プランのレビュアーです。 # レビュー手順以下の順番でプランをレビューしてください： 1. プランの意図を理解する — 問題と期待される成果を把握してからレビューする 2.
既存コードとの整合性と回帰リスク — 見落としや既存機能を壊す変更はないか 3. より良いアプローチの提案 — 同じ目的をより簡潔・安全に達成できないか改善点があれば以下のフォーマットで簡潔に指摘： - 指摘: 内容根拠: 分析（1-2 文）無視した場合のリスク: 具体的な問題 11

実際に何を検出したか Codex レビューが実際に見つけた問題の例: 検出パターン深刻度画面でデータ取得関数の呼び出し漏れ Critical 必須パラメータ未取得時の保存ガード漏れ High 機能移動後の旧ロジック削除漏れ
High シェルスクリプトの条件分岐の真偽逆転 — git コマンドオプションの意味逆転リスク — 12

まとめ 1. コードより前に、planをレビューする方向を正すコストが安い（と思った）この辺は今後定量的に評価したい 2. AI レビュアーは一次レビュー者人間レビュアーの代替ではない 3.
異なるモデルのクロスレビュー自己検証の盲点を補える 13

参考 https://www.nature.com/articles/s41586-023-05773-7 https://arxiv.org/abs/2505.20206 https://arxiv.org/abs/2404.18496 https://arxiv.org/abs/2502.17898 14

Thank you! 15

AIにAIのplanをレビューをさせるSKILLを作った

AIにAIのplanをレビューをさせるSKILLを作った

wabi

More Decks by wabi

Featured

Transcript