Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AIにAIのplanをレビューをさせるSKILLを作った
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
wabi
February 24, 2026
0
15
AIにAIのplanをレビューをさせるSKILLを作った
wabi
February 24, 2026
Tweet
Share
More Decks by wabi
See All by wabi
chrome-devtools-mcp.pdf
wabi_1318
0
100
2025年を振り返っていけ
wabi_1318
0
23
俺の勉強会を振り返る 2025
wabi_1318
2
760
生成AI×社会課題ハッカソン2冠で見えた AI時代にエンジニアが伸びるための姿勢
wabi_1318
1
1.4k
名古屋で「俺の勉強会」を始めた話 〜初開催から 4 ヶ月で LT 枠が即日埋まる(自称)人気勉強会になった理由をみんなで考えたい〜
wabi_1318
0
34
ハッカソンで2冠してきた話〜AI時代に取るべき姿勢が分かったかもしれない件について〜
wabi_1318
2
320
「俺の勉強会」がはじまるよ!
wabi_1318
1
1.4k
「非CSだから」ではなく、「非CSだからこそ」
wabi_1318
1
570
Featured
See All Featured
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
92
A Modern Web Designer's Workflow
chriscoyier
698
190k
Done Done
chrislema
186
16k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
0
150
Technical Leadership for Architectural Decision Making
baasie
2
260
The Power of CSS Pseudo Elements
geoffreycrofte
80
6.2k
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4k
ラッコキーワード サービス紹介資料
rakko
1
2.4M
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
460
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
400
Mind Mapping
helmedeiros
PRO
1
100
Documentation Writing (for coders)
carmenintech
77
5.3k
Transcript
AIにAIのplanをレビューをさせるSKILLを作った Claude Code × Codex クロスレビューの記録 2026/2/24 俺の勉強会 #5 wabi
1
先に結論 AIが作った計画は、別モデルのAIにレビューさせるとよい ただし目的は人間レビューの完全な代替ではなく、見落とし・大方針の事前 検討 そのための /codex-review skillを作った 2
/codex-review Claude Code で作ったplanを Codex MCP 経由でレビューするスキル https://github.com/wabi1318/codex-review-skill plan: Claude
Code が実装前にコードベースを調査し作成する実装計画 skill: SKILL.md で定義する Claude Code の拡張機能( / コマンド名 で呼び 出せる) 3
フロー 人間 → スコープ決め・方向付け・指示 ↓ Plan Mode (Claude Code )
↓ 実装プランを作成 ↓ ( 人間 → プラン確認) ↓ /codex-review 実行 ↓ ① Codex MCP にプラン送信 ↓ ② レビュー結果を受信 ↓ Claude Code が判定 → 採用 / 却下 / 要確認 ↓ 人間 → 最終レビュー・承認 4
なぜplanをレビューすることにしたのか コードになる前に方向を正す方がコストが安い 手戻りしたくない プラン段階なら、影響範囲・依存関係・デグレのリスクを実装前に潰せる ただし LLM にレビューを任せきりにはできない 人間の介在と異なるモデルでのクロスレビューが必要 5
LLM単独のコードレビューは信頼できるか? GPT-4o vs Gemini 2.0 Flash — 492コードブロックで検証 指標 GPT-4o
Gemini 正誤判定の正答率 68.50% 63.89% コード修正率 67.83% 54.26% 最高でも正答率 68% — 完全自動化には不十分 データセットによって優劣が逆転する場合がある → 人間の介在 + 自社のコードベースに合わせた最適なモデルの選択・検証 が必要 出典: Cihan et al., Evaluating LLMs for Code Review (2025) 6
LLMによる自己検証にも限界がある 自己検証の根本リスク LLMに自分の出力を検証させると、誤り検出・制約遵守・ハルシネーシ ョンで見逃しが起きうる → 同一モデルの自己レビューだけに頼らない 複雑要件を単独で処理する限界 (VeriPlan が引用する先行研究では)GPT-4 の
planning tasks 成功率 平均12% → 高性能LLMでも外部サポートが必要 出典: Lee et al., VeriPlan: Integrating Formal Verification and LLMs into End- User Planning (CHI 2025) 7
人間×AIの協働パターン Human First, Computer Last(HF-CL) 人間が大局的な方向付け → AIが精密な調整 エキスパート単独の約半分のコストで目標達成 (Kanarik
et al., Human–machine collaboration for improving semiconductor process development) 8
人間×AIの協働パターン 役割分担レビュー 専門の異なるエージェントを組み合わせ、多角的フィードバック 単一の視点だけでは拾いにくい論点を補完しやすい (Rasheed et al., AI-powered Code Review
with LLMs: Early Results) 9
今回の /codex-review 設計に引き直すと 人間: スコープ / 優先度 / 最終的な採否判断 /
必要なら都度介入 Claude Code: 実装プラン作成・修正 Codex: 外部視点で抜け漏れ・回帰リスクを事前チェック → 人間が重要な判断、異なるAIモデルで相互検証する構成 10
実際のプロンプト(抜粋) あなたは実装プランのレビュアーです。 # レビュー手順 以下の順番でプランをレビューしてください: 1. プランの意図を理解する — 問題と期待される成果を把握してからレビューする 2.
既存コードとの整合性と回帰リスク — 見落としや既存機能を壊す変更はないか 3. より良いアプローチの提案 — 同じ目的をより簡潔・安全に達成できないか 改善点があれば以下のフォーマットで簡潔に指摘: - 指摘: 内容 根拠: 分析(1-2 文) 無視した場合のリスク: 具体的な問題 11
実際に何を検出したか Codex レビューが実際に見つけた問題の例: 検出パターン 深刻度 画面でデータ取得関数の呼び出し漏れ Critical 必須パラメータ未取得時の保存ガード漏れ High 機能移動後の旧ロジック削除漏れ
High シェルスクリプトの条件分岐の真偽逆転 — git コマンドオプションの意味逆転リスク — 12
まとめ 1. コードより前に、planをレビューする 方向を正すコストが安い(と思った) この辺は今後定量的に評価したい 2. AI レビュアーは一次レビュー者 人間レビュアーの代替ではない 3.
異なるモデルのクロスレビュー 自己検証の盲点を補える 13
参考 https://www.nature.com/articles/s41586-023-05773-7 https://arxiv.org/abs/2505.20206 https://arxiv.org/abs/2404.18496 https://arxiv.org/abs/2502.17898 14
Thank you! 15