仕様通り動くの先へ。Claude Codeで「使える」を検証する

仕様通り動くの先へ。Claude Codeで「使える」を検証する Claude Code Meetup gota / 2026.04.10

gota @gota_bara / GitHub: @gotalab 仕事 AI エージェント開発 / データプロダクト
作ってる cc-sdd (3,000+ ⭐) / skillport 好きなこと散歩 / キャンプ / 葬送のフリーレン最近の悩み昼夜逆転（気づいたら朝 8 時）/ 睡眠不足自己紹介 2

spec を適切に切って承認したら、あとは長時間自律で実装する境界を first class に /kiro-discovery で spec 間の
境界と依存を定義。チーム間の分業が自然にできる Skills として配布 Claude Code / Codex / Cursor / GitHub Copilot 含む全 8 エージェント対応長時間の自律実装 /kiro-impl で hooks なしに自律で回り続けるまず宣伝: cc-sdd v3.0 本日アップデート 3

タスクごとに TDD、独立レビュー、詰まったら auto-debug ループの中身 1 タスクごとに fresh な implementer TDD
(RED → GREEN) 独立 reviewer が別コンテキストでレビュー reviewer が 2 回 reject したら auto- debug で原因調査学習は tasks.md の Implementation Notes で次タスクに伝搬運用上のうれしさタスクごとにコミットされる途中で止まっても安全に再開 hooks なしで自律で回り続けるコンテキストが膨れない /kiro-impl で長時間の自律実装 hooks なしで自律：タスクの状態遷移を工夫することで実現。シンプルで誰でも変更できる構造を優先 4

モデルの進化とともに少しずつ解けつつある問題揃えるもの実行可能な粒度まで落とした plan 明確なアーキテクチャと境界設計実行可能な制約 (CLAUDE.md / hooks /
subagents) 検証環境 (lint / test / E2E) 使える道具 Plan Mode (Explore first, then plan, then code) UltraPlan plugins: Superpowers / Compound Engineering / feature-dev (Anthropic 公式) 仕様通り作れる時代 Explore first, then plan, then code: Anthropic, Claude Code Best Practices 5

仕事をしながらでも、2 週間くらいでこれくらい作れる Local Notion clone + CLI ローカルで動く Notion 風エディタと操作
CLI symphony clone OpenAI の symphony orchestrator の clone イベント駆動開発ハーネス各種コーディングエージェントの CLI をタスクに応じて割り当てるオーケストレーション multi-agent orchestrator OpenClaw 的なエージェントの遊び場 imgx / Linear CLI 画像処理・PDF 分割 / Linear 操作の CLI ツール色々推し活アプリ完全趣味、でも動く最近遊びで作ったもの 6

動くテストが通る仕様を満たすデモできる CI が green 使える触って目的が達成できるコアの体験がはっきりしている
次の行動が選べる初見で始められる動くと使えるは別の話 7

Anthropic 社内でも出荷物の 7 割以上は PRD なしドキュメントを積むより、先にプロトタイプを触って次を判断する 2 週間以内のプロジェクトは
PM を置かない（エンジニアが PM 兼任）火消しで仕様書を書く暇がなく、書いている間にモデル進化で前提がズレる使えるかは触るまで分からない Amol Avasare (Head of Growth, Anthropic) / Lenny's Podcast, 2026-04-05 8

Claude Code でそのまま作ると、手戻りの多い「動くもの」ができる ① 伝わらない操作は通るが、成功したフィードバックがない ② ぼやける 16
機能あるが、コアの体験がぼやける ③ 見つからないボタンは DOM にあるが、画面で見つけられない ④ 始まらないフォーム送信はできるが、初見で始められない「動くけど使えない」の 4 例 9

速度 × 品質 × 量、人手ではどれか必ず落ちる前提は毎週変わる。仕様を書ききる前にモデルが進化する → 速度が命動くだけでは判断できない。質が低いと選べない →
品質も落とせない 1 個に人手を挟むと、量も速度も止まる → 人手を極限まで減らして、使えるものを速く出す仕組みが要るほぼ自律で使えるプロトタイプを速く回す 10

⾳声で話す → ⾃律実⾏ 1〜3 時間 → 使えるプロトタイプが出る Planner Opus / Read + WebSearch WHAT
だけ書く HOW は Builder に任せる Builder Opus / 全ツール Vertical Slice 先⾏環境 NG で強制 STOP Evaluator Opus / Playwright MCP 機能検証 / 4 軸スコア各軸 7/10 で pass UX Reviewer Opus / Computer Use 体験検証 / 3 軸スコア各軸 7/10 で pass スコア < 7 なら再ビルド使えない → Builder に戻す Claude Code の Stop hook / SubagentStop hook でタスクが終わるまで⾃律実⾏そのための自律ハーネス設計思想は Anthropic Engineering: Harness design for long-running apps と近い 11 Planner は WHAT だけ、Builder がイテレーションで HOW を発見

Claude Code の skill で全 subagent が同じ 5 原則を参照する 1.
Core First, Polish Later: 洗練された 1 フローは、浅い 10 機能に勝つ 2. Wire Before You Decorate: 部品は動くが繋ぐと壊れるの典型失敗を潰す 3. No Dead Code: 作ったなら動くこと。壊れた機能は嘘 4. The Spec Is Law: AI は統計的平均に収束する。魂は意図的な制約に宿る 5. Built to Grow: 退屈で読めるコードが、美しく不透明な抽象に勝つこだわり① Credo を Skill として全 subagent に注入 12

シナリオは先に全部切る、観測環境を整えて縦に一本通す Planner が検証シナリオを先切り正常系 + 異常系 + エッジを全部 Core /
Stretch 分類手順ではなくゴール形式で書く Evaluator と UX Reviewer が同じシナリオを独立に走らせる「少ない = バグ見逃し」と明示 Builder は観測環境を整えて縦に通す lint / type / dev server / logs を最初に繋ぐ。詰まれば強制 STOP 観測できる状態でコアフローを縦に一本通す通らなければ前提がおかしい。戻って探索横に広げ → 深掘り、phase ごと smoke test こだわり② 手戻りを先に潰す 13

Claude Code でも Computer Use が普通に呼べる。触って確かめる仕組みに組み込める DOM を直接叩けば動作検証はできるでも「画面から見つけられるか」
「次の行動を選べるか」は DOM では検出できない Computer Use はスクショ + マウス / キーボードで操作する Claude Code の subagent / tool から呼べるので、自律ハーネスの UX Reviewer にそのまま組み込めるこだわり③ Claude Code から Computer Use で触らせる Anthropic, Computer Use 14

遅い: 並列負荷ではないスクショ取得 → 座標特定 → 操作の直列ループ。認識待ちが毎回入るシナリオが並列化できない Computer Use
セッションは 1 本ずつ。シナリオ数ぶん合計時間が伸びる評価用途と自律性が合わない直列 × 長時間 × シナリオ数 = 気軽に回せない。結局手動で回す羽目にそれでも UX Reviewer は回りきらない 15 Computer Use ベースの UX Reviewer が回りきらない理由

ユーザージャーニーを自動で測定できるようにする Claude Code Plugin uxaudit

全体の概要と、優先度付きの改善提案がまとまる Dashboard 全景優先度付きの提案 uxaudit を走らせるとこんな dashboard が出る 17

共通ルールとプロジェクト固有のジャーニーを自動評価する Claude Code Plugin /uxaudit:uxaudit my-app --lang ja
評価する対象は 2 種類全アプリ共通の不備 (34 項目): a11y / AI slop / Nielsen 原則など、床を揃えるそのプロジェクトのジャーニー: Scout がジャーニーを洗い出し、4 軸で判定判定はスクショだけ見る（コードも spec も見ない）初回で作った基準で、以降の iteration を regression として比較できる uxaudit でアプリを評価できる状態にする 18

早いチェックから順に⾛らせて、原因でまとめて提案するアプリを理解する README / spec / 画⾯から、どんなジャーニーを評価すべきか洗い出す早い → 重い
の順でチェックを⾛らせる静的スキャン CSS / HTML を regex でミリ秒ブラウザ計測 Playwright で a11y / DOM 秒画像判定 1 枚のスクショを LLM で数⼗秒ジャーニー判定連続スクショを 4 軸で分原因でまとめて、提案を束ねる重複を潰し、優先度付きの提案を 2〜3 個に絞る dashboard.html UX issues ／ UI risks ／優先度付き提案 uxaudit の仕組み 19

レイヤー問い代表ツール Unit 部品は仕様通りに動くか Jest / Vitest / pytest
Property-based 不変条件はどんな⼊⼒でも成り⽴つか fast-check / Hypothesis Integration 組み合わせても壊れないか Jest / pytest E2E ユーザーフローは最後まで完⾛できるか Playwright / Cypress Visual / A11y checks ⾒た⽬や操作可能性に重⼤な破綻はないか Percy / Chromatic / axe / Playwright ↑ CI で検出できる領域 ↓ 触らないと分からない領域 UX Audit 理解し、判断し、達成し、回復できるか uxaudit Manual QA / dogfooding 総合的に違和感はないか humans 触って初めて分かる層を uxaudit で埋める 20 CI を green にできる領域の先に触らないと分からない層がある

1 軸でも落ちたらジャーニー全体を不合格 21 4 軸を evidence-only で判定、落ちた理由まで narrative で出る

iteration を並べて何が直ったかを一目で見る 22 同じ基準で何度でも測れる。iteration-1 から iteration-7 まで、diff が残る

チェックごとに iteration の推移が追える 23 どの iteration で直ったか / 壊れたかが判定理由ごとに追える

1 動くは解けつつあるモデルの進化 + Claude Code で仕様通りに作れる時代 2 使えるかの評価を自動化したハーネス
+ uxaudit で人間の介入を最小限にしながら iteration を回す 3 使い続けるかは次の壁実ユーザーのログとオブザーバビリティが要るまとめ 24 仮説生成から検証まで、プロダクト開発全体のループを高速で回せるようにしたい

Thank You! cc-sdd github: gotalab/cc-sdd uxaudit github: gotalab/uxaudit X: @gota_bara

仕様通り動くの先へ。Claude Codeで「使える」を検証する

仕様通り動くの先へ。Claude Codeで「使える」を検証する

Gota

More Decks by Gota

Other Decks in Technology

Featured

Transcript