Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ハーネスエンジニアリングにどう向き合うか 〜ルールファイルを超えて開発プロセスを設計する〜 /...

ハーネスエンジニアリングにどう向き合うか 〜ルールファイルを超えて開発プロセスを設計する〜 / How to approach harness engineering

【Harness Engineering入門】AIエージェントを制御するアプローチの登壇資料です。
https://findy.connpass.com/event/388471/

Avatar for r-kagaya

r-kagaya

April 22, 2026

More Decks by r-kagaya

Other Decks in Programming

Transcript

  1. ハーネスエンジニアリングの難しさ 昨今特有の曖昧さによる捉え所のなさ、寿命・有効範囲の見極めの難しさ 効いてるかわからない いつ消えるかわからない LangChainは「モデルでなけ ればハーネス」と呼び、 Anthropicは「ツールコール をルーティングする制御ルー プ」と言う ベンダーと利用者で定義やス

    コープも違う(エージェント ハーネス/ユーザーハーネス) 「このハーネスは効いてい る」と言い切るための物差し まではないことが多い 結果的にルールファイルでも 起きた定量的・実験的・継続 的な改善活動を回すのが手 探りな状態な印象 モデル / モデルプロパイ ダーによる進化に影響を受 ける モデル進化で不要な制御や 処理になる可能性に加えて、 Claude Managed A gentsの登場は今後も起き うる 何をすべきかわからない
  2. ハーネスエンジニアリングの難しさ Claude Code/Codexを配り、ルールファイルを整備すればAIネイ ティブな開発か? 「個人がどれだけうまく使えるか」に閉じていないか? ターミナルの外へ、 個人の活用を超えて ハーネスエンジニアリングにおいても、ルール/スキル整備と個人の感性による 「俺の考える最強のX」に留まっていないか? ルールファイルやスキル

    の整備は一部 評価・Evalこそが 長期的な改善を導く ルールファイル/スキルの時代から、「その修正は何にどう/どの程度 Hitするのか?」をわかることの重要性 ハーネスを育てるにも実行/思考履歴と評価基準 ルールやスキルは強力。一方でルールファイルやスキルを整備するだ けがハーネスエンジニアリングだとは思わない ソフトウェアエンジニアリングとして向き合える領域
  3. ハーネスエンジニアリング(関連)の取り組み例 Claude Code/Codexを配り、ルールファイルを整備すればAIネイ ティブな開発か? 「個人がどれだけうまく使えるか」に閉じていないか? self improveへの挑戦 ハーネスエンジニアリング(に近い)取り組みの中で、比較的被らなさそうな下記3 点を主に取り上げます 決定論と確率論の

    開発パイプライン 開発をキックする トリガーの拡張 上記開発パイプラインをトリガーする導線の拡充 UI上でアノテーションが可能なChrome拡張や自社プロダクトのAIヒ アリングからの自動開発等 Claude Agent SDK でパイプラインのコード・スクリプト化 決定論的ステップ(ex. lint、ブランチpush)とエージェント的自由(実 装、CI修正)を交互に配置するハイブリッドオーケストレーション
  4. 「行動を制約し、正しいか確かめ、次をもっと良くする」を1つのパイプラインに Claude Agent SDK + TypeScriptで構築 Claude Code / Codexで人間が行っている開発プロセスをそのまま型化

    specからブラウザテスト・スクショ付きのPR作成までスクリプト化 CodexによるCross Model ReviewやOpus4.6によるAdvisor 等も組み込み
  5. Claude Agent SDK + TypeScriptでAI開発フローをまとめる良さ 開発フロー全体がコードだから、クラウド実行ができ、ログ・トレースも取りやすい ソフトウェアと同じように扱える 品質保証の組み込み 計測と改善の基盤 誰が起動しても同じプロセス

    が走る 個人のAI開発への熟練度に依 存しなくなる 今はデザインハーネスの組み 込みに着手 ブラウザテスト・証跡スクショ ・動画まで完了した状態で PRが出る 不良specを早期に弾き、 Codexクロスモデルレ ビューで検証 スクリプトの中で全実行のロ グが取れる 設計判断・インシデント履歴 をDBに永続化させるなど、 「効いてるかわからない」を 解消する土台も組み込みや すい 再現性と属人性の排除