Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ハーネスエンジニアリングにどう向き合うか 〜ルールファイルを超えて開発プロセスを設計する〜 /...
Search
r-kagaya
April 22, 2026
Programming
570
2
Share
ハーネスエンジニアリングにどう向き合うか 〜ルールファイルを超えて開発プロセスを設計する〜 / How to approach harness engineering
【Harness Engineering入門】AIエージェントを制御するアプローチの登壇資料です。
https://findy.connpass.com/event/388471/
r-kagaya
April 22, 2026
More Decks by r-kagaya
See All by r-kagaya
そのAIレビュー、レビューしてますか? / Are you reviewing those AI reviews?
rkaga
6
5k
AIエージェント、”どう作るか”で差は出るか? / AI Agents: Does the "How" Make a Difference?
rkaga
4
2.2k
Context is King? 〜Verifiability時代とコンテキスト設計 / Beyond "Context is King"
rkaga
10
1.7k
AIエンジニアリングのご紹介 / Introduction to AI Engineering
rkaga
7
4.4k
MCPでVibe Working。そして、結局はContext Eng(略)/ Working with Vibe on MCP And Context Eng
rkaga
6
3.2k
一人でAIプロダクトを作るための工夫 〜技術選定・開発プロセス編〜 / I want AI to work harder
rkaga
14
3.5k
テストから始めるAgentic Coding 〜Claude Codeと共に行うTDD〜 / Agentic Coding starts with testing
rkaga
19
9k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
61
43k
CursorとDevinが仲間!?AI駆動で新規プロダクト開発に挑んだ3ヶ月を振り返る / A Story of New Product Development with Cursor and Devin
rkaga
7
4.8k
Other Decks in Programming
See All in Programming
それはエンジニアリングの糧である:AI開発のためにAIのOSSを開発する現場より / It serves as fuel for engineering: insights from the field of developing open-source AI for AI development.
nrslib
1
840
Codex CLI でつくる、Issue から merge までの開発フロー
amata1219
0
350
Xdebug と IDE による デバッグ実行の仕組みを見る / Exploring-How-Debugging-Works-with-Xdebug-and-an-IDE
shin1x1
0
360
Java 21/25 Virtual Threads 소개
debop
0
340
Go_College_最終発表資料__外部公開用_.pdf
xe_pc23
0
190
ルールルルルルRubyの中身の予備知識 ── RubyKaigiの前に予習しなイカ?
ydah
1
150
Symfonyの特性(設計思想)を手軽に活かす特性(trait)
ickx
0
130
KagglerがMixSeekを触ってみた
morim
0
370
「話せることがない」を乗り越える 〜日常業務から登壇テーマをつくる思考法〜
shoheimitani
4
740
Nuxt Server Components
wattanx
0
270
AWS re:Invent 2025の少し振り返り + DevOps AgentとBacklogを連携させてみた
satoshi256kbyte
3
160
煩雑なSkills管理をSoC(関心の分離)により解決する――関心を分離し、プロンプトを部品として育てるためのOSSを作った話 / Solving Complex Skills Management Through SoC (Separation of Concerns)
nrslib
4
870
Featured
See All Featured
Statistics for Hackers
jakevdp
799
230k
Mind Mapping
helmedeiros
PRO
1
150
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.3k
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
490
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
260
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
The Invisible Side of Design
smashingmag
302
51k
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
710
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.1k
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
480
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
1
180
Transcript
2026年4月22日 Asterminds株式会社 r.kagaya 【Harness Engineering入門】AIエージェントを制御するアプローチ ハーネスエンジニアリングにどう向き合うか 〜ルールファイルを超えて開発プロセスを設計する〜
2022年に株式会社ログラスに入社 経営管理SaaSの開発、開発生産性向上に取り組んだのち、 生成AI/LLMチームを立ち上げ、新規AIプロダクトの立ち 上げに従事、その後、25年8月に独立・現職 翻訳を担当したAIエンジニアリングが オライリージャパンより出版 Asterminds(アスターマインズ)株式会社 共同創業者・CTO r.kagaya(@ry0_kaga) 自己紹介
先月3月にシードラウンド調達を公開(創業から約半年)
創業半年のシードスタートアップで ハーネスエンジニアリング(的なもの)に どう向き合ったか? 今日の内容
前提 創業からシード調達までの半年弱は、1人でプロダクト開発を担っていました その中でAIネイティブな開発プロセスを探求して、試行錯誤してきた内容です 「今の時代にゼロから立ち上げる開発組織/プロセスはどうあるべきか?」の考え で試行錯誤した結果のため、世間一般的なハーネスエンジニアリングに該当する ものもあれば、ハーネスより上位レイヤーに分類すべき取り組みも含みます 組織やプロセス全体で、どう「エージェントによる開発」を行うかが中心です
ハーネスエンジニアリングの難しさ
ハーネスエンジニアリングの難しさ 昨今特有の曖昧さによる捉え所のなさ、寿命・有効範囲の見極めの難しさ 効いてるかわからない いつ消えるかわからない LangChainは「モデルでなけ ればハーネス」と呼び、 Anthropicは「ツールコール をルーティングする制御ルー プ」と言う ベンダーと利用者で定義やス
コープも違う(エージェント ハーネス/ユーザーハーネス) 「このハーネスは効いてい る」と言い切るための物差し まではないことが多い 結果的にルールファイルでも 起きた定量的・実験的・継続 的な改善活動を回すのが手 探りな状態な印象 モデル / モデルプロパイ ダーによる進化に影響を受 ける モデル進化で不要な制御や 処理になる可能性に加えて、 Claude Managed A gentsの登場は今後も起き うる 何をすべきかわからない
ハーネスは何で構成されるのか? 利用者側であるなら、記憶と文脈、品質と安全がメインのスコープ? system prompts、CLAUDE.md、skills、tools、orchestration、 hooks、observabilityなどが中心
ハーネスエンジニアリングで何を達成したいか? 「エージェントが動く環境・システムの設計」 事前の予防(フィードフォワード)と事後の検証(フィードバック)を設計する テストは事後の検出、ハーネスで事前の予防と、失敗からの学習まで含む 正しいか確かめる 次をもっと良くする ・何をどう作るかを定める ・解空間を絞る CLAUDE.md、スキル定義、 ワークフロー、spec.md
・検証し、問題があれば差し 戻す 静的チェック、ブラウザテス ト、探索的テスト、AIレビュー 学びを蓄積する仕組み Self-Refinement、メモ リ、実行ログ分析、ハーネス の自動修正、パターンDB 行動を制約する
ハーネスエンジニアリングの難しさ Claude Code/Codexを配り、ルールファイルを整備すればAIネイ ティブな開発か? 「個人がどれだけうまく使えるか」に閉じていないか? ターミナルの外へ、 個人の活用を超えて ハーネスエンジニアリングにおいても、ルール/スキル整備と個人の感性による 「俺の考える最強のX」に留まっていないか? ルールファイルやスキル
の整備は一部 評価・Evalこそが 長期的な改善を導く ルールファイル/スキルの時代から、「その修正は何にどう/どの程度 Hitするのか?」をわかることの重要性 ハーネスを育てるにも実行/思考履歴と評価基準 ルールやスキルは強力。一方でルールファイルやスキルを整備するだ けがハーネスエンジニアリングだとは思わない ソフトウェアエンジニアリングとして向き合える領域
一番好きな捉え方は、「モデルでなければハーネス」 ワークフロー、パイプライン、評価、組織、顧客接点まで、 モデルの外側は全部ハーネスの範囲として、発想が広がる (これはこれで広すぎるので全てがハーネスになるが)
Claude Code/Codexを配り、ルールファイルを整備すればAIネイティブな開発か? 少なくともプロダクト組織・プロセス全体はNO 「個人がどれだけうまく使えるか」に閉じてしまいがち(印象) ハーネスの定義論はさておくと、ソフトウェア開発に従事する身で考えることは、 コーディングエージェントで開発するだけでなく、コーディングエージェントが機能 する環境や開発プロセスを設計すること ハーネスエンジニアリングもあるし、上位に位置しそうなものもある 環境や開発プロセスの捉え方を広げたら、いわゆるユーザーハーネスの範疇を超 えて取り組めることはたくさんある
実践
ハーネスエンジニアリング(関連)の取り組み例 Claude Code/Codexを配り、ルールファイルを整備すればAIネイ ティブな開発か? 「個人がどれだけうまく使えるか」に閉じていないか? self improveへの挑戦 ハーネスエンジニアリング(に近い)取り組みの中で、比較的被らなさそうな下記3 点を主に取り上げます 決定論と確率論の
開発パイプライン 開発をキックする トリガーの拡張 上記開発パイプラインをトリガーする導線の拡充 UI上でアノテーションが可能なChrome拡張や自社プロダクトのAIヒ アリングからの自動開発等 Claude Agent SDK でパイプラインのコード・スクリプト化 決定論的ステップ(ex. lint、ブランチpush)とエージェント的自由(実 装、CI修正)を交互に配置するハイブリッドオーケストレーション
「行動を制約し、正しいか確かめ、次をもっと良くする」を1つのパイプラインに Claude Agent SDK + TypeScriptで構築 Claude Code / Codexで人間が行っている開発プロセスをそのまま型化
specからブラウザテスト・スクショ付きのPR作成までスクリプト化 CodexによるCross Model ReviewやOpus4.6によるAdvisor 等も組み込み
決定論と確率論のハイブリッドオーケストレーション スキル・開発用のツール/スクリプトも共通利用してるため、スキルを育てること も、パイプラインの進化にも直結 図はAI生成によりイメージ
Issueから開発を起動できる npxコマンドで起動するため、GitHub ActionsでIssueからキックも容易 Issue -> PRが一定のクオリティで担保された上で実現可能
Claude Agent SDK + TypeScriptでAI開発フローをまとめる良さ 開発フロー全体がコードだから、クラウド実行ができ、ログ・トレースも取りやすい ソフトウェアと同じように扱える 品質保証の組み込み 計測と改善の基盤 誰が起動しても同じプロセス
が走る 個人のAI開発への熟練度に依 存しなくなる 今はデザインハーネスの組み 込みに着手 ブラウザテスト・証跡スクショ ・動画まで完了した状態で PRが出る 不良specを早期に弾き、 Codexクロスモデルレ ビューで検証 スクリプトの中で全実行のロ グが取れる 設計判断・インシデント履歴 をDBに永続化させるなど、 「効いてるかわからない」を 解消する土台も組み込みや すい 再現性と属人性の排除
ハーネスエンジニアリングにも評価や育てる仕組み Braintrustにログを送り、分析と改善が回せる仕組みを作っている 定量的な評価やダッシュボードの本格化に着手、どの類のタスクがどの程度の成 功率 / 人間から追加介入なしでマージされているか?等を追跡
ハーネスエンジニアリングにも評価や育てる仕組み Braintrustにログを送り、分析と改善が回せる仕組みを作っている 定量的な評価やダッシュボードの本格化に着手、どの類のタスクがどの程度の成 功率 / 人間から追加介入なしでマージされているか?等を追跡 後述のself improveの文脈で、 分析・改善提案から修正まで自動化
開発をキックするトリガーの拡張 開発パイプラインが作れたら、トリガーを拡張する エンジニア以外でも、ターミナル以外からも開発をトリガー可能に 開発を起動する入口を増やす
画面から開発をトリガーするUI Annotator(Chrome拡張)を作る 画面上でのピン留めやテキスト入力が、前述のパイプラインに流れてPRが作成
画面から開発をトリガーするUI Annotator(Chrome拡張)を作る 画面上でのピン留めやテキスト入力が、前述のパイプラインに流れてPRが作成 一般的なハーネスエンジニアリングに含めるかは議論がある 「エージェントが動く環境の設計」として取り組んでいる
開発をキックするトリガーの拡張 開発パイプラインが作れたら、トリガーを拡張する エンジニア以外でも、ターミナル以外からも開発をトリガー可能に 変わり種。自社プロダクトでAIがヒアリングした結果をそのま ま開発に回す(これは基本ドッグフーディング目的)
Self-improveへの挑戦 ルールファイルの整合性確認・修正等のフィードバックループ自動化 同様にClaude Agent SDKでツールとしてスクリプトを書いて自動実行 直近はエラー履歴のメモリ化に着手
Self-improveへの挑戦 ルールファイルの整合性確認・修正等のフィードバックループ自動化 同様にClaude Agent SDKでツールとしてスクリプトを書いて自動実行 直近はエラー履歴のメモリ化に着手 せっかく自動ブラウザテストしてるので、「Xを編集したら、Yでエラー が出た」などの履歴を蓄積する ローカルのSQLiteにエージェントから格納、workするかは定かでは ない
Self-improveへの挑戦 実際に動かしているClaude Agent SDK製の自動修正系の仕組み 開発パイプライン自体の改善は基本人間 with エージェントで今は頑張っている
やがてはハーネスの自動生成 Meta-Harness(Stanford)やAutoHarness(Google DeepMind)で は、LLM自身が制約を発見し、ハーネスを生成・改善、コード化する
まとめ
今後ハーネスエンジニアリング(的なもの)にどう向き合うか? モデルやマネージドサービスの進化によって消えづらいレイヤーに投資する LLMプロバイダーを切り替えても同様に利用可能な仕組みを中心
まとめ • (ここ数年こんな感じだが)定義はさておき、ハーネスエンジニアリングの「モ デルの外側の仕組み」を設計する営みは重要 • ルールファイルやスキル整備だけでは足りず、評価・計測・ガードレール・プロ セス全体まで射程を広げる必要がある • AI時代のエンジニアは、コードを書くことに加えて、コードを書く仕組みを設 計し育てる役割を担う
• エージェントのログを読み、失敗を分析し、仕組みに還元すること自体が、重 要なエンジニアリングスキル
宣伝 唐突の宣伝で恐縮ですが、6月のFindy主催AI Engineering Summit Tokyo 2026でさらに整理した内容でお届けできる予定です..!
今後ハーネスエンジニアリング(的なもの)にどう向き合うか? 人間が介在するタイミングやタッチポイント設計も大事(Human-in-the-loop) 一方、ループの上でハーネス(仕様、品質チェック、ワークフロー)を設計するのが これからのエンジニアの役割
おわり