人間はどこまでさぼれるか？ AIコーディングで人の関与を計測してみた

🍅 LT · A I コーディング実験人間はどこまでサボれるか AIコーディングで「人の関与」を計測してみた同じアプリを3つの応答スタイルで作り、人間の関与量を測る実験 2026.06
/ 開発お茶会 🍵 Lightning Talk

01 — きっかけ AIに任せても、結局ずっと「応答」している 🧑 この仕様でいい？確認お願いします 🤖 ↻ えんえんと往復…
本当のボトルネックは、コードではなく人間の関与（ヒューマンリソース）では？問い応答スタイルを変えると、人間の関与はどれだけ減らせる？

02 — 実験の設計同じお題を、3つの応答スタイルで ① 通常素のAIに依頼拡張なし。そのまま頼んで、逐次やり取りする。 ②
superpowers 仕様書 → 計画 → 実装型を持つ拡張を使い、手順どおり進める。 ③ grill-me 先に質問攻め仕様を徹底的に詰めてから実装に入る。公平性の担保：共通の1文プロンプト隔離環境（メモリ／CLAUDE.md 不参照） 8項目テストで判定 ※ 4タイプ目（engineer-agent）は時間都合で未実施 → 3タイプ比較として提示

03 — お題選びなぜポモドーロタイマー？ 🧱 ❌ テトリス（失敗） AIが1ターンで全部作ってしまい、差が出なかった。仕様が一意に決まる題材は聞く必要がない。 🍅
⭕ ポモドーロ（採用）記録の保存方法・残り時間の表示・入力UXなど正解が一つに決まらない。だからAIが人間に確認したくなる。分岐が多い題材ほど、関与の差が見えてくる

04 — スタートライン全員、同じ1文から始めた $ electronを使って、ポモドーロタイマーをつくって。要件はプロンプトに書かない。対話の中で引き出させる。完成は外形の振る舞いだけで YES／NO 判定。受け入れテスト（8項目）
✓ 25分／5分でループできる ✓ 休憩時に全画面＆最前面で残り時間表示 ✓ 途中で中止できる ✓ 残り時間がメニューバー等に表示される ✓ タイマーをキャンセルできる ✓ 開始時に「やること」を記述して開始 ✓ 休憩時に「やったこと」を記述できる ✓ その日の記録を見れる（時間・やること・やったこと）

05 — ものさし関与を「量」と「質」で測る量発話ターン数人間がAIに送ったメッセージの回数。やり取りそのものの多さ。質意思決定回数（問答）
AIの質問・選択肢に人間が判断を下した回数。中身のある関与。 ※ 承認・却下・仕様追加・選択・方針提示は数える／「続けて」だけの促しは数えない

06 — 結果関与量は ① < ② < ③ で大差。でも全部
8／8 達成発話ターン意思決定 ① 通常 ② superpowers ③ grill-me タイプターン判断作業時間 ① 通常 9 1 約45分 ② superpowers 13 5 約40分 ③ grill-me 28 25 約35分受け入れ達成は 3タイプとも 8／8 完成度は同じ。違うのは関与量だけ。 9 1 13 5 28 25

07 — 成果物同じ要件でも、こんなに形が違う ① 通常素直なウィンドウアプリ 8／8 ② superpowers
タイマー窓＋履歴窓 8／8 ③ grill-me メニューバー常駐＋記録一覧 8／8

08 — 逆説のオチ関与少 → 速い？ ❌ 一番たくさん関与した grill-me
が、最短・最良だった ③ grill-me 28ターン／25判断でも、作業は最短35分・体感も一番良い。 ① 通常 9ターンと最小でも、確認のイテレーションがダラダラ続いて非効率。判断は "前倒し" が効く。後工程の手戻りが消える。

09 — 所感 3スタイルの「手触り」 😌 ① 通常安心だけど非効率逐次イテレーションで安心感はある。が、毎回確認が挟まりHITL的にもたつ
く。 🤖 ② superpowers 丁寧だが驚きは少ない仕様→計画→実装のフルセットで不備なし。型にはまる分、選ぶだけで楽。 🔥 ③ grill-me 濃いけど一番良いかなり細かく詰めてくる。気づかない論点に気づける。面倒だが出来は最良。

10 — 持ち帰り減らすより、"質とタイミング"を設計するお題の曖昧さ →　最適な応答スタイルは変わる仕様が自明なお題例：テトリス素のAIに丸投げが最速聞く必要がないなら、関与は最小でいい。
曖昧なお題例：ポモドーロ先に詰める（grill-me型）前倒しの判断が、後工程の手戻りを救う。

11 — 正直なところこれは N=1 の観察です 01 各スタイル 1回ずつの事例比較。統計ではない。
02 4タイプ目（engineer-agent）は未実施 → 今後の宿題。 03 「体感の良さ」は主観。意思決定カウントも線引きに幅がある。

12 — まとめ関与は「減らす」より「前倒しで設計する」曖昧なお題ほど、先に判断を済ませるほうがトータルで速くて良い。 🚀 次にやりたいこと engineer-agent で「判断そのもの」を移譲できるか？
Coming soon ターンは減らせても、判断は移譲しきれるのか？ ── が次の問い。

人間はどこまでさぼれるか？ AIコーディングで人の関与を計測してみた

人間はどこまでさぼれるか？ AIコーディングで人の関与を計測してみた

mattak

More Decks by mattak

Other Decks in Programming

Featured

Transcript

🍅 LT · A I コーディング実験人間はどこまでサボれるか AIコーディングで「人の関与」を計測してみた同じアプリを3つの応答スタイルで作り、人間の関与量を測る実験 2026.06

01 — きっかけ AIに任せても、結局ずっと「応答」している 🧑 この仕様でいい？確認お願いします 🤖 ↻ えんえんと往復…

02 — 実験の設計同じお題を、3つの応答スタイルで ① 通常素のAIに依頼拡張なし。そのまま頼んで、逐次やり取りする。 ②

03 — お題選びなぜポモドーロタイマー？ 🧱 ❌ テトリス（失敗） AIが1ターンで全部作ってしまい、差が出なかった。仕様が一意に決まる題材は聞く必要がない。 🍅

05 — ものさし関与を「量」と「質」で測る量発話ターン数人間がAIに送ったメッセージの回数。やり取りそのものの多さ。質意思決定回数（問答）

06 — 結果関与量は ① < ② < ③ で大差。でも全部

07 — 成果物同じ要件でも、こんなに形が違う ① 通常素直なウィンドウアプリ 8／8 ② superpowers

08 — 逆説のオチ関与少 → 速い？ ❌ 一番たくさん関与した grill-me

09 — 所感 3スタイルの「手触り」 😌 ① 通常安心だけど非効率逐次イテレーションで安心感はある。が、毎回確認が挟まりHITL的にもたつ

10 — 持ち帰り減らすより、"質とタイミング"を設計するお題の曖昧さ →　最適な応答スタイルは変わる仕様が自明なお題例：テトリス素のAIに丸投げが最速聞く必要がないなら、関与は最小でいい。

11 — 正直なところこれは N=1 の観察です 01 各スタイル 1回ずつの事例比較。統計ではない。

12 — まとめ関与は「減らす」より「前倒しで設計する」曖昧なお題ほど、先に判断を済ませるほうがトータルで速くて良い。 🚀 次にやりたいこと engineer-agent で「判断そのもの」を移譲できるか？