実践ハーネスエンジニアリング #MOSHTech

梶川琢馬 𝕏 @kajitack 株式会社 TechBowl VPoT TechTrain の開発やメンターをやってます。バックエンド
PHP、フロントエンド TS スライド公開してるので良かったらフォローしてください！ https://x.com/kajitack 2/19

Claude Code 導入から1年実装の完結: エディタ不要、GitHub CLI で issue やプルリク作成並列実行:
worktree、Subagents、 Agent Teams 長期実行: Auto mode、--dangerously-skip-permissions 長期実行させるための自律性と安全性に注目 4/19

Harness Engineering 自律的な AI Agent の実現のために LLM モデルの性能を最大限引き出すためのの環境を設計することハーネス=馬具、手綱
The importance of Agent Harness in 2026 https://www.philschmid.de/agent-harness-2026 5/19

Harness Engineering 構成要素 1. コンテキスト設計 2. アーキテクチャ制約とガードレール 3. 品質評価ループ 6/19

コンテキスト設計ドキュメントの集約とエージェントの分離 7/19

ドキュメントの集約 notion や whimsical、linear など開発に関するドキュメントを GitHub に集約 MCP や
CLI 無しで知識に履歴も知識にドメインモデルの管理にYAMLを使ってみた https://zenn.dev/techtrain_blog/articles/cf6e9ce3634d51 8/19

プロジェクト管理の集約 activeな 158 repositories...! 横断してプロジェクト管理、仕様調査が出来るようにリファレンスを定義 skill を作成: /investigate で調査して
/sub-issue で issue を切る 9/19

エージェントを分離実装・品質・性能・仕様・Issue 作成を分離し、適切なコンテキストを保つエージェント責務特徴 tdd-web-engineer TDD実装 Red→Green→Refactor厳守 code-reviewer
コード品質 test-conventions準拠 perf-reviewer 性能・セキュリティ OWASP Top 10, N+1検出 spec-reviewer 仕様整合性過剰防御の排除 task-issue-creator Issue分割 DDD層境界で分割 /dev スキルが tdd-web-engineer に委譲 /review スキルが 3 エージェント並列レビューを実行 10/19

アーキテクチャ制約とガードレール依存方向や型チェック 11/19

アーキテクチャと依存方向依存方向の定義と強制 BE: クリーンアーキテクチャ + deptrac FE: monorepo &
container/presentation + dependency-cruiser 12/19

型システム+静的解析+テストレイヤー手段効果型システム ValueObject / 集約の定義不正な値・不変条件違反静的解析
deptrac / phpstan / ESLint / Biome 依存違反・型エラーテストユニット + E2E + VRT 振る舞いの変更を自動検知 13/19

品質評価ループ AI 自身が自己検証と修正する 14/19

⼈間のレビュー AI レビューテスト静的解析型システムコンテキスト整備多層防御各レイヤーが異なる観点で問題を自動検出し
人間に届く前にフィルタリングする 15/19

開発と品質検証用skillを定義 Pass Fail 3 回 Retry Issue dev スキル 1.
仕様把握 2. ブランチ作成 3. テスト計画 4. TDD 実装品質ゲート pr スキル⼈間へ review スキル fix-pr スキル Merge /dev : 仕様把握 → テスト計画 → TDD 実装 → 品質チェック /pr : bin/create-pr で PR 作成（合法的な経路） /review : 3 エージェント並列レビュー（品質・性能・仕様） /fix-pr : レビュー指摘の修正 → 再レビュー 16/19

エージェントに「目」を与える Chrome DevTools MCP で実際にブラウザを操作させて自動検証 1. パスの特定（会話から推測） 2. ローカルの API
サーバー起動 or Staging への接続 3. ブラウザでページを開く 4. スクリーンショット + コンソールエラー確認 CI が通っただけで「完了」と宣言させない実際のブラウザで動作を確認する 17/19

人間はコードレビューするのか？ https://speakerdeck.com/kajitack/no-code-review 18/19

実践ハーネスエンジニアリングコンテキスト設計: ドキュメントの集約とエージェントの分離アーキテクチャ制約とガードレール: 依存方向や型チェック品質評価ループ: AI 自身が自己検証と修正するやってることは今までと変わらないが、開発＝ハーネスエンジニアリング中心になってきた。
アーキテクチャやテスト手法、計測など開発の改善のためのアイデアを知っている必要がある。次の関心: 監視ツールとの連携、ドメイン知識の整理、事業の意思決定、採用・育成への AI 活用と人間のバランス 19/19

実践ハーネスエンジニアリング #MOSHTech

実践ハーネスエンジニアリング #MOSHTech

Takuma Kajikawa

More Decks by Takuma Kajikawa

Other Decks in Programming

Featured

Transcript

梶川琢馬 𝕏 @kajitack 株式会社 TechBowl VPoT TechTrain の開発やメンターをやってます。バックエンド

Claude Code 導入から1年実装の完結: エディタ不要、GitHub CLI で issue やプルリク作成並列実行:

Harness Engineering 自律的な AI Agent の実現のために LLM モデルの性能を最大限引き出すためのの環境を設計することハーネス=馬具、手綱

Harness Engineering 構成要素 1. コンテキスト設計 2. アーキテクチャ制約とガードレール 3. 品質評価ループ 6/19

コンテキスト設計ドキュメントの集約とエージェントの分離 7/19

ドキュメントの集約 notion や whimsical、linear など開発に関するドキュメントを GitHub に集約 MCP や

プロジェクト管理の集約 activeな 158 repositories...! 横断してプロジェクト管理、仕様調査が出来るようにリファレンスを定義 skill を作成: /investigate で調査して

エージェントを分離実装・品質・性能・仕様・Issue 作成を分離し、適切なコンテキストを保つエージェント責務特徴 tdd-web-engineer TDD実装 Red→Green→Refactor厳守 code-reviewer

アーキテクチャ制約とガードレール依存方向や型チェック 11/19

アーキテクチャと依存方向依存方向の定義と強制 BE: クリーンアーキテクチャ + deptrac FE: monorepo &

型システム+静的解析+テストレイヤー手段効果型システム ValueObject / 集約の定義不正な値・不変条件違反静的解析

品質評価ループ AI 自身が自己検証と修正する 14/19

⼈間のレビュー AI レビューテスト静的解析型システムコンテキスト整備多層防御各レイヤーが異なる観点で問題を自動検出し

開発と品質検証用skillを定義 Pass Fail 3 回 Retry Issue dev スキル 1.

エージェントに「目」を与える Chrome DevTools MCP で実際にブラウザを操作させて自動検証 1. パスの特定（会話から推測） 2. ローカルの API

人間はコードレビューするのか？ https://speakerdeck.com/kajitack/no-code-review 18/19