Upgrade to Pro — share decks privately, control downloads, hide ads and more …

「AIで開発し、AIを届ける」をEvalでつなぐ 〜AIネイティブに始めるプロダクト開発の...

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.

「AIで開発し、AIを届ける」をEvalでつなぐ 〜AIネイティブに始めるプロダクト開発の実践〜 / Connecting "Develop with AI, deliver AI" with Eval

AI Engineering Summit Tokyo 2026の登壇資料です。
https://ai-engineering-summit-tokyo.findy-tools.io/2026-summer

Avatar for r-kagaya

r-kagaya

June 09, 2026

More Decks by r-kagaya

Other Decks in Programming

Transcript

  1. 生成の自動化ではなく、受け入れ可能性の自動化 ソフトウェア開発サイクルの自動化(AI Software Factory)に向かう中で 人間の役割は、3E(Entry / Exit / Eval)、ループの設計に移っていく? Exit

    Eval task / spec / scope / context / constraintsを 明確にし、何を任せるかを曖 昧にしない AIに課される制約条件も含む evidence / review packet / feedback routeを揃え、 何を証拠に受け入れるかを 決める acceptance contractと して、入口と出口をつなぐ判 断基準を置く Entry
  2. AIエンジニアリング ≠ プロンプトエンジニアリング 特に中心になるのはモデル適応技術と評価(Eval) モデル適応 評価 汎用的な基盤モデルを特定のアプリケー ションに”適応”させる ・コンテキストの制御 (Prompt/Context

    Engineering) ・知識と行動の拡張(RAG & Agents) ・モデルの専門化(Fine-tuning) 汎用的に賢いモデルを、いかに特定のア プリケーション要件に適合させるか 「確率的で非決定的な振る舞い」を、許容 できる品質、安全性、トーン、専門性の担 保まで確認するプロセス
  3. Rubric / Grader / Gate / Judge / Calibrationの関係 Graderは判定シグナルを作る評価関数。Gate/Judgeはシグナルの使い方

    calibrationは判断のズレを直す (ここではJudgeを、model graderそのものではなく、主にLLMを用いたレビュー役として呼んでいます)
  4. Own Background Coding Workflow 弊社ではClaude Agent SDK + TypeScriptで、 Agentic

    Engineeringのプロセスを型化したWorkflowを内製していた (ローカル開発ではCodex/Claude Codeも利用)
  5. Own Background Coding Workflow 弊社ではClaude Agent SDK + TypeScriptで、 Agentic

    Engineeringのプロセスを型化したWorkflowを内製していた (ローカル開発ではCodex/Claude Codeも利用) AIによるdevサーバーの立ち上げ / ブラウザ操作の機能も保持しており、 PR上で「@xxxx ブラウザQAを実行」を依頼 / PR上にスクショ添付 他開発者のPRやAI自動生成のPRに対し てもブラウザQAを自動実行もできる
  6. Claude Agent SDK + TypeScriptでAI開発フローをまとめる良さ コード化すると、プロセスを仕組みに埋め込める AIの作業がレビュー/評価可能な非同期プロセスになる 品質保証の組み込み 計測と改善の基盤 誰が起動しても同じプロセス

    が走る 個人のAI開発への熟練度に依 存しなくなる ブラウザテスト・証跡スクショ ・動画まで完了した状態で PRが出る 不良specを早期に弾き、 Codexクロスモデルレ ビューで検証 全実行のログが取れる 設計判断・インシデント履歴 をDBに永続化させるなど、 「効いてるかわからない」を 解消する土台も組み込みや すい 再現性と属人性の排除
  7. Verifiability(検証可能性)なタスクの3条件 以下3つの特性を満たせば、自動化されたフィードバックループを回せる 元はAIの学習について。参考にできる点は多々ありそう Resettable Efficient Rewardable 何度でも最初からやり直せ るか? タスクを繰り返し、初期状態 から何度もやり直せること

    AIは試行錯誤を繰り返して、 フィードバックサイクルを回 せる 短時間で大量の試行ができ るか? タスクを高速に反復実行で きること。 膨大な量の練習やサイクルを 回せることが最適化の高速 化が期待できる 結果の良し悪しを自動でスコ アリングできる? タスクの結果を明確なスコア や基準で自動的に評価でき ること AIは何が良い結果かを学習 できる
  8. Browser Proof: 画面確認もAgentic Workflowに Browser QA Agentsで、UI変更を証拠付きで受け取る 今は第三世代への移行中 画面ベースでの動作確認をチーム全体の共通Eval /

    ハーネスに 第二世代: Workflow 第三世代: Eval Harness 主にPlaywright MCPを使 い、AIがローカルブラウザ操 作と画面確認を実行 ローカル環境に依存し、チーム 運用に載せにくかった Claude Agent TypeScript SDKで Agentic Workflow化 PR上でクラウド実行を可能に したが、コストや実行効率、シ ナリオ再利用に課題 Browserbaseベース クラウド実行、録画、cache、 シナリオ管理を統合 今までの取り組みを踏まえて、 ブラウザベースでのEval Harnessに 第一世代: Local Skill
  9. Browser Proof: 画面確認もAgentic Workflowに Browser QA Agentsで、UI変更を証拠付きで受け取る 今は第三世代への移行中 画面ベースでの動作確認をチーム全体の共通Eval /

    ハーネスに 第二世代: Workflow 第三世代: Eval Harness 主にPlaywright MCPを使 い、AIがローカルブラウザ操 作と画面確認を実行 ローカル環境に依存し、チーム 運用に載せにくかった Claude Agent TypeScript SDKで Agentic Workflow化 PR上でクラウド実行を可能に したが、コストや実行効率、シ ナリオ再利用に課題 Browserbaseベース クラウド実行、録画、cache、 シナリオ管理を統合 今までの取り組みを踏まえて、 ブラウザベースでのEval Harnessに 第一世代: Local Skill デザインレビューや操作ドキュメント生成等も 組み込んでいる途中
  10. まとめ • AIに深く任せるほど、ボトルネックは「生成」から「受け入れ可能性」へ • Evalの考えは、AIプロダクトだけでなく、AI開発フローにも適用できる • 開発側では、Specで入口を揃え、Review Packet / Browser

    Proofで 出口を証明する取り組みに力を入れている • それによりAIに作業を委任できる環境、ループの設計を目指す • AIに任せるとは、入口・出口・Evalからなるループを設計すること、受け入れ 可能性を設計すること