Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIにAIのplanをレビューをさせるSKILLを作った

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for wabi wabi
February 24, 2026
15

 AIにAIのplanをレビューをさせるSKILLを作った

Avatar for wabi

wabi

February 24, 2026
Tweet

More Decks by wabi

Transcript

  1. /codex-review Claude Code で作ったplanを Codex MCP 経由でレビューするスキル https://github.com/wabi1318/codex-review-skill plan: Claude

    Code が実装前にコードベースを調査し作成する実装計画 skill: SKILL.md で定義する Claude Code の拡張機能( / コマンド名 で呼び 出せる) 3
  2. フロー 人間 → スコープ決め・方向付け・指示 ↓ Plan Mode (Claude Code )

    ↓ 実装プランを作成 ↓ ( 人間 → プラン確認) ↓ /codex-review 実行 ↓ ① Codex MCP にプラン送信 ↓ ② レビュー結果を受信 ↓ Claude Code が判定 → 採用 / 却下 / 要確認 ↓ 人間 → 最終レビュー・承認 4
  3. LLM単独のコードレビューは信頼できるか? GPT-4o vs Gemini 2.0 Flash — 492コードブロックで検証 指標 GPT-4o

    Gemini 正誤判定の正答率 68.50% 63.89% コード修正率 67.83% 54.26% 最高でも正答率 68% — 完全自動化には不十分 データセットによって優劣が逆転する場合がある → 人間の介在 + 自社のコードベースに合わせた最適なモデルの選択・検証 が必要 出典: Cihan et al., Evaluating LLMs for Code Review (2025) 6
  4. 今回の /codex-review 設計に引き直すと 人間: スコープ / 優先度 / 最終的な採否判断 /

    必要なら都度介入 Claude Code: 実装プラン作成・修正 Codex: 外部視点で抜け漏れ・回帰リスクを事前チェック → 人間が重要な判断、異なるAIモデルで相互検証する構成 10
  5. 実際のプロンプト(抜粋) あなたは実装プランのレビュアーです。 # レビュー手順 以下の順番でプランをレビューしてください: 1. プランの意図を理解する — 問題と期待される成果を把握してからレビューする 2.

    既存コードとの整合性と回帰リスク — 見落としや既存機能を壊す変更はないか 3. より良いアプローチの提案 — 同じ目的をより簡潔・安全に達成できないか 改善点があれば以下のフォーマットで簡潔に指摘: - 指摘: 内容 根拠: 分析(1-2 文) 無視した場合のリスク: 具体的な問題 11