生成AI活用の実践解説 (速報版)

生成AI活用の実践解説 (速報版) Asei Sugiyama

自己紹介杉山阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google
Developer Expert @ Cloud AI MLSE GenAIOps WG 機械学習図鑑共著事例でわかる MLOps 共著

TOC 背景 <- 継続的評価による継続的改善 AI セーフティ AI ガバナンス発展的な話題

背景 AI ネイティブカンパニー Agent の流行評価に基づく LLMOps 市場調査: NEDO AI
セーフティ強化に関する研究開発プロジェクト LLMOps の取り組み

AI ネイティブカンパニー DeNAが挑む「AIネイティブカンパニー」への全社的取り組み。人をエンパワーし、イノベーションを創出する─ 南場智子 | フルスイング by DeNA https://fullswing.dena.com/archives/100169/ メルカリが本気で始めた「AI-Native」化。100名規模のタスクフォースが立ち上がるまで
| mercan (メルカン) https://careers.mercari.com/mercan/articles/53708/

AI Agent がビジネスに Algomatic: アポドリ、リクルタAI などエージェントを利用したサービスを次々展開 LayerX: バクラクシリーズに加え、生成AIプラットフォーム
Ai Workforce を展開複数 AI エージェント同時立ち上げで「打席数」を重視——DMM が用意した20億円でスタートアップスタジオ展開する Algomatic #取材会 - BRIDGE（ブリッジ） https://thebridge.jp/2025/06/algomatic-launches-startup-studio-with-¥2-billion- investment-from-dmm LayerX、総額150億円の資金を調達。エンジニアを中心とした人材採用強化やさらなる事業拡大へ https://aismiley.co.jp/ai_news/layerx-ai-saas-fintech/

Demo hell デモまでは行き着くものの、本番化が著しく困難品質を評価し、担保することが極めて困難 Escaping AI Demo Hell:
Why Eval-Driven Development Is Your Path To Production https://www.forbes.com/councils/forbestechcouncil/2025/04/04/escaping- ai-demo-hell-why-eval-driven-development-is-your-path-to-production/

評価に基づく LLMOps 最近の潮流不確実性の高い分野に対する開発のノウハウ集 MLOps というよりは「高速 DevOps」 How
to Solve the #1 Blocker for Getting AI Agents in Production | LangChain Interrupt https://interrupt.langchain.com/videos/building-reliable-agents- agent-evaluations

AI セーフティ強化に関する研究開発プロジェクト Citadel AI で「企業向け実装解説」としてベストプラクティス集・事例集の作成を担当「デモは簡単にできるもののサービス化や本番化は難しい」
というテーマでヒアリング似たような課題・対策を行っていることが見えてきた

LLMOps の取り組み継続的評価による継続的改善 AI セーフティ AI ガバナンス

TOC 背景継続的評価による継続的改善 <- AI セーフティ AI ガバナンス発展的な話題

継続的評価による継続的改善評価は難しい Who Validates the Validators? プロンプトエンジニアリング LLM-as-a-Judge 継続的な評価ハッカソン
エージェントトレース

評価は難しいシステムの正しい振る舞いを、誰も明確に記述できない品質評価の観点を事前に列挙することは困難で、出力から事後的に得られることが大半機械学習による言語パフォーマンスの評価 -
Speaker Deck https://speakerdeck.com/langstat/ji-jie-xue-xi-niyoruyan-yu- pahuomansunoping-jia

Criteria Drift Who Validates the Validators? Aligning LLM-Assisted Evaluation of
LLM Outputs with Human Preferences LLM の出力に対する評価基準が、評価を進めるにつれてユーザー自身によって変化または洗練されていく [2404.12272] Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences https://arxiv.org/abs/2404.12272

発想の逆転: 高速プロトタイピング専門家も自分の行っていること・やりたいことを明確にできない評価を繰り返すことで専門家の知識を明文化する手戻りを恐れるのではなくイテレーションを回す
AIエージェントの地上戦〜開発計画と運用実践 / 2025/04/08 Findy ランチセッション #19 https://speakerdeck.com/smiyawaki0820/08-findy-w-and- bmitoatupu-number-19

プロンプトエンジニアリング入力文章を調整して、言語モデルを効率的に使おうとする手法群指示文を人が見たときにわかりやすくなるよう、明確に記述することが基本 Gemini の記事が参考になる Gemini
から欲しい回答を引き出すプロンプト術｜Gemini - Google の AI https://note.com/google_gemini/n/n60a9c426694e

LLM-as-a-Judge プロンプトを用いて LLM に出力の良さを評価させる手法新たな評価観点が得られた場合、その評価観点に基づく評価方法の手順書を書くと、その観点に基づく評価が
LLM で可能 LLMによるLLMの評価「LLM-as-a-Judge」入門〜基礎から運用まで徹底解説 https://zenn.dev/pharmax/articles/2d07bf0498e212

継続的な評価による継続的な改善

ハッカソン: デジタル庁ハッカソンは専門家を巻き込むために有効ハッカソンにより「5時間という短い開発時間の中で、38個のプロトタイプ」ハッカソンの成果物を OSS として公開
第三弾：「法令」×「デジタル」ハッカソンを開催しました｜デジタル庁 https://www.digital.go.jp/news/9fb5ef8e-c631-4974-96d9-0b145304c553 法令 Deep Research ツール Lawsy を OSS として公開しました｜Tatsuya Shirakawa https://note.com/tatsuyashirakawa/n/nbda706503902

Agent チューニングにより「1つのこと(ドメイン)をうまくやる」ものができる各ドメインを協調させる取り組みがエージェント Microservices Architecture の再発見メルカリにおけるデータアナリティクス
AI エージェント「Socrates」と ADK 活用事例 https://speakerdeck.com/na0/merukariniokerudetaanariteikusu-ai-eziento- socrates-to-adk-huo-yong-shi-li

トレース Agent はさまざまなシステムを組み合わせて使うため、望ましくない結果が得られたときにその原因追及が困難最終結果を生成するまでの途中で何が起きているのかを記録し、分析できるようにする LangSmith
や Langfuse は Trace 機能を実装している LangSmithによるLLMアプリケーションのトレーシング入門 https://zenn.dev/pharmax/articles/61edc477e4de17

TOC 背景継続的評価による継続的改善 AI セーフティ <- AI ガバナンス発展的な話題

AI セーフティ AI セーフティとは実践 AI セーフティリスクと効果を考慮し小さく始めるリスクに対策する独自のデータを定義し評価データを育てる
専門家を開発チームの一員にする本番環境でテストする

AI セーフティとは定義自体の議論が進行中 AI 事業者ガイドラインでは「安全性」を定義 AISI UK の Research
Agenda では 6 種類のリスクを定義 Research Agenda https://www.aisi.gov.uk/research-agenda

AI セーフティに関する評価観点ガイド AIセーフティに関する評価観点ガイドの公開 - AISI Japan https://aisi.go.jp/output/output_information/240918_2/

実践 AI セーフティリスクマネジメントの手法を応用 1. ユースケースを列挙 2. ユースケースごとにリスクを分析 3. ユースケースごとに対応
(回避・低減・移転・受容) を決定 4. 安全だと判断できるユースケースに限ってサービスを提供 5. サービスの利用状況をモニタリング

事例: PharmaX (YOJO) LINE でユーザーが OTC 薬を購入できるオンライン薬局問い合わせをルールと
LLM で分類ワークフローで安全に対応できるユースケースのみを対応 AIエージェントの継続的改善のためオブザーバビリティ https://speakerdeck.com/pharma_x_tech/aiezientonoji-sok-de-gai-shan- notameobuzababiritei

リスクと効果を考慮し小さく始めるユースケースを安全性と効果の2軸で分類安全性: サービス提供、人にフォールバック、対応不可効果: システム化が進んでいない、人の経験や勘に頼っている、などで判断安全かつ効果の高いユースケースを特定し推進するユースケースを特定し、ホワイトリスト形式で安全なユースケースのみサービス提供

OpenAI: AI 活用ユースケースの発見と展開ビジネス向けガイドとリソース | OpenAI https://openai.com/ja-JP/business/guides-and-resources/

リスクに対策する (1/2) Human-in-the-Loop エンドユーザー向けではなく、社内の専門家向けにサービス提供出力結果を直接提供することを禁止し、一度人手で編集して提供安全な環境を用意第三者に社内情報が漏洩しないように、オプトアウトセキュリティや監査に堪え、安全に使える環境を用意して展開

リスクに対策する (2/2) 小規模に始めて徐々に拡大リスクを特定して徹底的に検証し、小規模にリリース全面的には利用を禁止し、小規模にパイロットとして導入しテスト社内の体制整備ガイドラインやチェックリストを用意し、安全な利用方法を推進

独自のデータを定義し評価データを育てる「自分の業務」というベンチマークはない生成 AI に対するユニットテストのように扱う専門家によるレビュー結果を評価データに追加す
る AIエージェントの継続的改善のためオブザーバビリティ https://speakerdeck.com/pharma_x_tech/aiezientonoji-sok-de-gai-shan- notameobuzababiritei

事例: ダイキン工業独自のマルチモーダルデータセットを構築インターネット上には存在しないデータを用いて、自社の業務知識を持つモデルを作成ダイキンがサービス支援AIを内製、活用進めた4度の「偶然の出会い」 |
日経クロステック（xTECH） https://xtech.nikkei.com/atcl/nxt/column/18/00001/10313/

専門家を開発チームの一員にする専門家によるレビューや議論の結果をプロンプトに反映専門家もいきなりは自分のノウハウを言語化できないので、イテレーションを回して徐々に言語化 AIエージェントの地上戦
〜開発計画と運用実践 / 2025/04/08 Findy ランチセッション #19 - Speaker Deck https://speakerdeck.com/smiyawaki0820/08-findy-w-and-bmitoatupu- number-19

本番環境でテストするどうしても「やってみないとわからない」限定的にリリースして想定外の事象が発生しないか確認するモニタリングでリスクと効果を確認ペアーズにおける評価ドリブンな AI
Agent 開発のご紹介 https://speakerdeck.com/fukubaka0825/heasuniokeruping-jia-torihunna-ai- agent-kai-fa-nokoshao-jie

TOC 背景継続的評価による継続的改善 AI セーフティ AI ガバナンス <- 発展的な話題

AI ガバナンス AI ガバナンスとは代表的なガイドライン AI ガバナンスにおける典型的な方法論と課題実践 AI ガバナンス

AI ガバナンスリスク管理 + 提供価値の最大化アジャイルガバナンス: 組織として学習し続けることを求めるリスクマネジメントに関するISO 標準
(ISO 31000:2018) でもアジャイルの考え方を取り入れている AI事業者ガイドライン（METI/経済産業省） https://www.meti.go.jp/shingikai/mono_info_service/ai_shakai_jisso/20240419_report.html

AI 事業者ガイドライン AI の利活用によって生じるリスクをステークホルダーにとって受容可能な水準で管理しつつ、そこからもたらされる正のインパクト（便益）を最大化することを目的とする、ステークホルダーによる技術的、組織的、及び社会的システムの設計並びに運用。 AI事業者ガイドライン（METI/経済産業省）https://www.meti.go.jp/shingikai/mono_info_service/ai_shakai_jisso/20240419_report.html

AI ガバナンスにおける典型的な方法論と課題ガイドラインの整備組織体制の構築典型的な課題

ガイドラインの整備 AI の活用にあたって遵守すべき事項をまとめたドキュメントを作成組織全体に適用する活用指針をもとに、実業務に適用するためのガイドライン、具体的なチェックリストといった階層構造をもたせることが一般的活用指針は透明性のために外部公開することも

リクルートAI活用指針 1. ユーザーの機会拡大や社会の発展に繋がるAIの活用 2. 公平性・公正性の追求 3. プライバシー保護とセキュリティ強化 4.
アカウンタビリティの向上 5. ステークホルダーや有識者との対話リクルートAI活用指針 | 株式会社リクルート https://www.recruit.co.jp/privacy/ai_policy/

インテージグループAI利活用指針 1. 安全性の重視・セキュリティの強化 2. 公平性の確保 3. プライバシー保護・コンプライアンス順守 4.
透明性の追求 5. 品質の追求インテージグループAI利活用指針　|　企業情報　|　インテージホールディングス https://www.intageholdings.co.jp/company/ai_policy/

PFN 規定・ガイドライン体系階層的なドキュメントを用意し、段階的に個々のプロジェクトにあわせて具体化最終的には「プロジェクト開発方針」を個々のプロジェクトで策定 Preferred Networksにおける大規模言語モデル開発と活用での
AI安全性の考え方 https://www.digiarc.aist.go.jp/event/4th_grand_canvas/pdf/20250304-4th- grand-canvas-03-ohno.pdf

組織体制の構築 AI ガバナンスを推進するための体制構築推進するための専門チームを設けることが多い

株式会社リクルートの例 AIガバナンスの取り組み | 株式会社リクルート https://www.recruit.co.jp/privacy/ai_policy/ai_governance/

LINEヤフー株式会社の例責任あるAIへの取組み｜LINEヤフー株式会社 https://www.lycorp.co.jp/ja/sustainability/esg/social/responsible-ai/

典型的な課題リソース不足 AI ガバナンス専門のチームが組織に1つなので忙しい AI という変化の激しい分野で全方位に目を配る必要があるルールの周知と徹底 AI ガバナンス専門のチームはタイムリーにガイドラインを書き換えるものの、すべてのチームが見てくれるわけではない
誰もが取り組めるようになった結果、リスクを知らずに企画立案して推進してしまうことも

実践 AI ガバナンスうまくいく/うまくいかないチームの違い AI ガバナンスのミッション AI ガバナンスの提供する機能

うまくいく/うまくいかないチームの違い AI ガバナンスのミッション AI ガバナンスの提供する機能

AI ガバナンスのミッションどんな使い方をしても大丈夫なAIを用意して展開しようとすると失敗する (実現できない) AI セーフティについては組織内の各チームに任せる AI ガバナンスを専門で行うチームでのみ低減できるリスクは「AI を
活用しない機会損失リスク」うまくいっている AI ガバナンスチームのミッションは「AI の組織的な活用」

セガでの AI ガバナンス CEDEC 2025 講演資料より引用 (pp.11-12) もはや AI
を使うのが当たり前で気がついたら誰もが使っているという前提「AIを使わないことはありえない」安心安全に生成AIを使おう！社内で運用中の生成AIのガバナンスをご紹介 https://cedil.cesa.or.jp/cedil_sessions/view/3147

AI ガバナンスの提供する機能 1. 統合的なAI相談窓口 2. AI 活用支援 3. 教育

1. 統合的なAI相談窓口 CEDEC 2025 講演資料より引用 (pp.17, p.19) AI ガバナンス担当チーム
は、組織の中でもっとも活用事例に詳しいチームどんな問い合わせにも答えることで信頼を勝ち取る安心安全に生成AIを使おう！社内で運用中の生成AIのガバナンスをご紹介 https://cedil.cesa.or.jp/cedil_sessions/view/3147

2. AI 活用支援 AI ガバナンス担当の持つ専門知識は、組織内の別チームは持っていないチームトポロジーの「イネイブリングチーム」短期間の密なコラボレー
ションで組織内のチームが AI 活用できるよう支援マシュー・スケルトン, マニュエル・パイス著原田　騎郎, 永瀬　美穂, 吉羽　龍太郎訳「チームトポロジー」日本能率協会マネジメントセンター 2021年

プロンプトキッチン「生成AIの活用スキルを従業員に定着させるための実践的な研修プログラム」各部署に行ってニーズを掴み、業務で活用できるプロンプトを一緒に書くセガサミーG、生成AI徹底活用の仕掛け人・石森拓郎氏に訊く〜IT部門統合
から”攻め”への転換、感動体験を創る技術戦略〜 | データで越境者に寄り添うメディアデータのじかん https://data.wingarc.com/sega-sammy- ishimoritakuro-80385

PFN のガバナンス体制 AI リスクを評価する「リスク評価委員会」プロジェクトにおける AI 活用を推進できるよう「AIガバナンス推進チーム」が支援
AIベンダーにおけるAIセキュリティ・ガバナンスへの取組 - Speaker Deck https://speakerdeck.com/pfn/20250717-awt-2025-tokyo-pfn-ai-governance

3. 教育 AI セーフティを組織内の全チームに実施してもらう必要がある権利侵害などのリスク感度を組織的に向上させる必要がある全組織に対して教育プログラムを提供し、リテラシーを向上させる

LINEヤフーでの取り組み生成AIの利用に伴うリスクを把握するため、全従業員に研修を実施社内のAIアシスタントを使うためには必ず受講しなければならない

TOC 背景継続的評価による継続的改善 AI セーフティ AI ガバナンス発展的な話題 <-

発展的な話題ソフトウェアエンジニアリングの再発見 Vibe Coding / Spec Driven Development KISS (Keep
It Simple Stupid) & リーンソフトウェア開発コンウェイの法則

ソフトウェアエンジニアリングの再発見 Agent 開発手法ソフトウェア開発手法小さくはじめて育てるリーンスタートアップ高速プロトタイピングアジャイルソフトウェア開発宣言独自データセット定義テスト駆動開発
領域特化エージェントドメイン駆動開発本番環境でのテスト DevOps のカナリアリリース

Vibe Coding 自然言語で指示するだけでコーディングを行わないスタイル非専門家がアプリケーション開発可能にプロトタイピングのための試行錯誤が容易に Andrej
Karpathy / X https://x.com/karpathy/status/1886192184808149383

Spec Driven Development AWS が開発した Kiro で導入された開発手法プロンプトからまずは要件を記述
要件に基づきコード生成 (Plan first, then build.) GitHub からも Spec Kit が発表された Kiro: The AI IDE for prototype to production https://kiro.dev/ github/spec-kit: 💫 Toolkit to help you get started with Spec-Driven Development https://github.com/github/spec-kit

ウォーターフォール Winston W. Royce による開発プロセスの整理オリジナルは反復とフィードバックを含む SDD という新たな名前でその
ように再定義できるか Managing the development of large software systems: concepts and techniques | Proceedings of the 9th international conference on Software Engineering https://dl.acm.org/doi/10.5555/41765.41801

KISS (Keep It Simple Stupid) & リーンソフトウェア開発エージェント構築実践ガイド https://openai.com/ja-JP/business/guides-and-resources/

コンウェイの法則チューニングにより「1つのこと(ドメイン)をうまくやる」ものができる「システムを設計する組織は、そのコミュニケーション構造をそっくりまねた構造の設計を生み出してしまう」メルカリにおけるデータアナリティクス
AI エージェント「Socrates」と ADK 活用事例 https://speakerdeck.com/na0/merukariniokerudetaanariteikusu-ai-eziento- socrates-to-adk-huo-yong-shi-li

まとめ LLMOps では評価を中心とした継続的な改善により、高速に改善サイクルを回すことで提供したい価値を発見する AIセーフティとは、リスクと効果を考慮して安全なユースケースから小さく始め、専門家を巻き込みながら継続的にテスト・改善していく実践的なリスクマネジメント AI ガバナンスがうまくいっている組織では AI
ガバナンスのミッションを「AI の組織的な活用」としている生成 AI の活用における Software Engineering の再発見が散見されるようになってきた、歴史から未来予測ができるかもしれない

生成AI活用の実践解説 (速報版)

生成AI活用の実践解説 (速報版)

More Decks by Asei Sugiyama

Featured

Transcript