Upgrade to Pro — share decks privately, control downloads, hide ads and more …

人間はどこまでさぼれるか? AIコーディングで人の関与を計測してみた

人間はどこまでさぼれるか? AIコーディングで人の関与を計測してみた

Avatar for mattak

mattak

June 16, 2026

More Decks by mattak

Other Decks in Programming

Transcript

  1. 01 — きっかけ AIに任せても、結局ずっと「応答」している 🧑 この仕様でいい? 確認お願いします 🤖 ↻ えんえんと往復…

    本当のボトルネックは、コードではなく 人間の関与(ヒューマンリソース)では? 問い 応答スタイルを変えると、 人間の関与はどれだけ減らせる?
  2. 02 — 実験の設計 同じお題を、3つの応答スタイルで ① 通常 素のAIに依頼 拡張なし。そのまま頼んで、逐次やり取り する。 ②

    superpowers 仕様書 → 計画 → 実装 型を持つ拡張を使い、手順どおり進める。 ③ grill-me 先に質問攻め 仕様を徹底的に詰めてから実装に入る。 公平性の担保: 共通の1文プロンプト 隔離環境(メモリ/CLAUDE.md 不参照) 8項目テストで判定 ※ 4タイプ目(engineer-agent)は時間都合で未実施 → 3タイプ比較として提示
  3. 03 — お題選び なぜポモドーロタイマー? 🧱 ❌ テトリス(失敗) AIが1ターンで全部作ってしまい、差が出なかった。仕 様が一意に決まる題材は聞く必要がない。 🍅

    ⭕ ポモドーロ(採用) 記録の保存方法・残り時間の表示・入力UXなど正解が 一つに決まらない。だからAIが人間に確認したくなる。 分岐が多い題材ほど、関与の差が見えてくる
  4. 04 — スタートライン 全員、同じ1文から始めた $ electronを使って、ポモドーロタイマーをつくって。 要件はプロンプトに書かない。対話の中で引き出させる。完成は外形の振る舞いだけで YES/NO 判定。 受け入れテスト(8項目)

    ✓ 25分/5分でループできる ✓ 休憩時に全画面&最前面で残り時間表示 ✓ 途中で中止できる ✓ 残り時間がメニューバー等に表示される ✓ タイマーをキャンセルできる ✓ 開始時に「やること」を記述して開始 ✓ 休憩時に「やったこと」を記述できる ✓ その日の記録を見れる(時間・やること・やったこと)
  5. 05 — ものさし 関与を「量」と「質」で測る 量 発話ターン数 人間がAIに送ったメッセージの回数。やり取りそのもの の多さ。 質 意思決定回数(問答)

    AIの質問・選択肢に人間が判断を下した回数。中身のあ る関与。 ※ 承認・却下・仕様追加・選択・方針提示は数える/「続けて」だけの促しは数えない
  6. 06 — 結果 関与量は ① < ② < ③ で大差。でも全部

    8/8 達成 発話ターン 意思決定 ① 通常 ② superpowers ③ grill-me タイプ ターン 判断 作業時間 ① 通常 9 1 約45分 ② superpowers 13 5 約40分 ③ grill-me 28 25 約35分 受け入れ達成は 3タイプとも 8/8 完成度は同じ。違うのは関与量だけ。 9 1 13 5 28 25
  7. 07 — 成果物 同じ要件でも、こんなに形が違う ① 通常 素直なウィンドウアプリ 8/8 ② superpowers

    タイマー窓+履歴窓 8/8 ③ grill-me メニューバー常駐+記録一覧 8/8
  8. 08 — 逆説のオチ 関与 少 → 速い? ❌ 一番たくさん関与した grill-me

    が、 最短・最良だった ③ grill-me 28ターン/25判断でも、作業は最短35分・体感も一 番良い。 ① 通常 9ターンと最小でも、確認のイテレーションがダラダ ラ続いて非効率。 判断は "前倒し" が効く。後工程の手戻りが消える。
  9. 09 — 所感 3スタイルの「手触り」 😌 ① 通常 安心だけど非効率 逐次イテレーションで安心感はある。 が、毎回確認が挟まりHITL的にもたつ

    く。 🤖 ② superpowers 丁寧だが驚きは少ない 仕様→計画→実装のフルセットで不備な し。型にはまる分、選ぶだけで楽。 🔥 ③ grill-me 濃いけど一番良い かなり細かく詰めてくる。気づかない論 点に気づける。面倒だが出来は最良。
  10. 11 — 正直なところ これは N=1 の観察です 01 各スタイル 1回ずつ の事例比較。統計ではない。

    02 4タイプ目(engineer-agent)は未実施 → 今後の宿題。 03 「体感の良さ」は主観。意思決定カウントも線引きに幅がある。