Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMアプリの地上戦開発計画と運用実践 / 2025.10.15 GPU UNITE 2025

LLMアプリの地上戦開発計画と運用実践 / 2025.10.15 GPU UNITE 2025

こちらのイベントでの登壇資料になります:
https://gpu-unite.ai/gpu-unite-2025/

※地上戦と謳ってますが4割くらい足が浮いてしまいました...。
※内容の誤りや引用漏れがありましたらご指摘いただけると嬉しいです🙇‍♂️

Avatar for Shumpei Miyawaki

Shumpei Miyawaki

October 14, 2025
Tweet

More Decks by Shumpei Miyawaki

Other Decks in Technology

Transcript

  1. 採用担当者が「 」に向きあえる環境づくりを支援します! ひとが価値を出すべき業務 ※ 導入企業A社のコメントを引用 現場の声から生まれた採用支援AIエージェント 採用担当者が審査結果を納品 レジュメを ドラッグ&ドロップ Eメールで

    レジュメを受付 AI人材リクルーターが 履歴書の山から瞬時に マッチする応募者を 事前にピックアップ ◦◦経験 △△経験 スキル 母集団形成 採用計画 担当者 リクルタAI スカウト 書類選考 低次面接 高次面接 人の判断が 価値を生む 人の信頼関係が より価値を生む 人の判断基準に従った 一定水準以上の価値を提供 たくさん すばやく (参考)みずほリサーチ&テクノロジーズ, AI利活 用がもたらす日本経済へ の影響 (2025) プレ 面談 書類選考 ── 実際にリクルタをどのように活用されましたか? リクルタの導入後は、AIエージェントによる自動スカウトと、カスタマーサクセス担当 者による手厚いサポートを活用してきました。AIの精度が徐々に上がっていき、 私たち のイ メージする人材像により近い候補者 の発掘ができるように なりました。 ── リクルタ導入の効果はいかがでしたか? 最も大きな成果は、先月にビジネスコンサルタントの採用に成功したことです。このポ ジションは約3年間、エージェント様からなかなか候補者をご紹介いただけない状況が 続いていました。市場に候補者が少なく採用競合も多い中で、優秀な人材を採用できた ことは、大きな成果でした。 ダイレ クト採用 採用方針や想い を反映 カ レンダ ーをあけて待つだけ 3
  2. LLM 開発計画 運用実践 Appendix 01 02 03 04 Contents LLMとは

    / 世界に接続されるAI 小説データRAGコンペ解法例 / 「AIの導入」を成功させるために / な ぜ「AIの導入だけ」ではうまくいかないのか? LLMOps ≒ 高速DevOps / リクルタAIリリース当初の課題と対応 / よいプロンプトとは / システムの良し悪しを測る 4
  3. 言語モデルとは(超簡易的な説明) LLM(大規模言語モデル) トンネル を 抜ける と [?] 海 雪国 不思議

    あるテキストに続く次の単語を語彙から予測するもの 単語の意味は周囲の単語によって形成される(分布仮説) 一般的に複数段階にわたって学習が行われる 大規模なテキストコーパスを読んで、 単語の出現パターン・意味の構成を学ぶ 多様なドメイン/タスクにおける指示を含む入出力ペアから 与えられた指示に対する回答パターンを学ぶ 入力文に対する回答候補・候補に対する選好データから 人が好む回答パターンを学ぶ 事前学習 指示チューニング アラインメント ※直前に川端康成の話をしてたら「雪国」が高くなりそう ≒ プロンプトエンジニアリングの目的意識 ... 6
  4. 応答を生成する前にたくさん考えると回答品質も良くなる(Test-Time Scaling) 推論時の計算量(思考時間)が増えるほど回答品質が向上することが一般に知られている [1][2] 問題特性に応じて適切な思考時間がある可能性もある 固定長のトークン数が得られるまで生成をくりかえす(Rejection Sampling)と性能が悪化する [3] 言語モデルとは(超簡易的な説明) LLM(大規模言語モデル)

    応答を生成する前に「考える」メカニズム https://platform.openai.com/docs/guides/reasoning Budget Forcing の設定では思考時間(トークン数)を増やすと課題解決能力も向上する [3] 入力 出力 思考 入力 出力 思考 入力 思考 最終出力 max_ tok ens t = 0 t = 1 t = 2 OpenAI - Learning to Reason with LLMs (2024) Zhang et al., A Survey on Test-Time Scaling in Large Language Models: What, How, Where, and How Well? (2025) Muennighoff et al., s1: Simple test-time scaling (2025) 9
  5. 推 論コスト増 大へ の対 抗策 ・ LLM を 動 かす

    基 盤 学 習/推論 の工夫 によ る計 算 コストの 削減 モ デル 圧縮 / 蒸留 / Mix t ure-of-Ex p er t s / Parallel L ayers リア ル タ イ ム ルー タ ー に よる 動 的な モ デル の切り 替 え LLM/ S LM の効 率 的な実行を実現する た めのソフトウェアソリューション / / ... ス ルー プット、低遅延、動 的 バッチ処理の最 適 化 ... NVIDIA GPUの 機 能と性能を最大限に引き 出 すコンパ イル とランタ イ ム ... 複数GPU / ノ ー ドにおけ る メモリ効率、大規模モ デル の 分 散実行 / ... モバ イル ・IoT デ バ イ ス上での低遅延、低消費電 力 、小型モ デル の実行 生成AIを動かす た めのチップも様々なものが開発されている : NVIDIA / : Google / : Me t a : Cerebras / : Sambanova / : Groq その他 Fugaku- LL M ... 並列 分 散学習に よ り富岳の CPU で大規模 言 語モ デル を学習
 プロンプトあたりの エ ネ ル ギ ー 影響は、9秒未満のテレビ視聴に相当(0.24Wh エ ネ ル ギ ー 消費、0.33g C O 2排 出 、0.2 6 ml 水排 出)
 vLLM SGLang LMDeploy TensorRT-LLM DeepSpeed LiteRT-LM llama.cpp Blackwell Ironwood MTIA WSE-3 RDU LPU https://pr.fujitsu.com/jp/news/2024/05/10.html https://cloud.google.com/blog/products/infrastructure/measuring-the-environmental-impact-of-ai-inference LLM は我々の世界に接続してきている LLM(大規模言語モデル) 10
  6. 総務省 AIネットワーク社会推進会議 - AI利活用ガイドライン (2019)
 https://www.soumu.go.jp/iicp/research/results/ai-network.html 自民党 - AIの進化と実装に関するプロジェクトチーム (2023-)


    https://note.com/akihisa_shiozaki/n/n4c126c27fd3d 総務省 - 広島AIプロセス (2023-)
 https://www.soumu.go.jp/hiroshimaaiprocess/ 経済産業省/NEDO - GENIAC (2024-)
 https://www.meti.go.jp/policy/mono_info_service/geniac/index.html 文化庁 - AIと著作権について (2024)
 https://www.bunka.go.jp/seisaku/chosakuken/aiandcopyright.html AISI - AIセーフティに関する評価観点ガイド (2024)
 https://aisi.go.jp/output/output_framework/guide_to_evaluation_perspective_on_ai_safety/ 総務省/経済産業省 - AI事業者ガイドライン第1.1版 (2025)
 https://www.soumu.go.jp/main_sosiki/kenkyu/ai_network/02ryutsu20_04000019.html 内閣府 - 人工知能関連技術の研究開発及び活用の推進に関する法律 / AI法 (2025)
 https://www.cao.go.jp/press/new_wave/20251003.html 実社会に接続されるLLM LLM(大規模言語モデル) 生成AIを安全に推進するための様々なとりくみ 11
  7. 多くの職でAI支援が実現可能になりつつある Xu et al., TheAgentCompany: Benchmarking LLM Agents on Consequential

    Real World Tasks (2024) Patwardhan et al., GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks (2025) 実社会に接続されるLLM LLM(大規模言語モデル) 基礎/応用能力だけでなく実社会での課題解決能力も期待される づ GDPEval: 
 米国の GDP に貢献する9つの産業から選択されたベンチマーク
 テキストだけでなく、スライドやスプシ、マルチメディアの成果物を要求する AgentCompany:
 Web閲覧、コード記述、プログラム実行、同僚とのコミュニケーションなど、
 デジタルワーカーと同じ方法で世界とやり取りするAIエージェントの評価ベンチマーク GDPEval のタスクドメイン抜粋 [1] https://openai.com/index/gdpval/ 13
  8. 実社会に接続されるLLM LLM(大規模言語モデル) いろいろな情報を言語と紐づけて扱えるようになった づ 実社会に存在する事物を概念として捉え、言語によって概念を拡張・圧縮できるようになった 動画から物理世界の理解・状態予測・計画立案能力を得るモデルも(V-JEPA 2) 外部環境とのやりとりなしに、AIが想像する結果から望ましい行動を学習する(Dreamer 4) 事物

    概念 記号 semiotic triangle マルチモーダル化に伴って 現実世界の事物と記号が間接的に紐づくように DOG 棚の上で補充が必要な容器 “spill”の境界とセグメント リアルタイムにナビゲートできる動的な世界を生成することで
 自然現象や複雑な環境の相互作用を体験できる https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/ 言語理解きめ細かな言語記述や不明瞭なに基づいて シーン内のオブジェクトを見つけることができる https://developers.googleblog.com/en/gemini-25-for-robotics-and-embodied-intelligence/ Google, Gemini 2.5 for robotics and embodied intelligence (2025) Google, Genie 3: A new frontier for world models (2025) OpenAI, Video generation models as world simulators (2024) 14
  9. Google, Gemini 2.5 for robotics and embodied intelligence (2025) Google,

    Genie 3: A new frontier for world models (2025) OpenAI, Video generation models as world simulators (2024) 実社会に接続されるLLM LLM(大規模言語モデル) 実社会のデバイスやプラットフォームに統合され、AIと人が共同で成果物をつくる 日常的に利用するプラットフォームへの統合(Google Meet リアルタイム翻訳/Notes, Notion 3.0, Slack AI, etc...) 編集容易なコンテンツ生成が可能に 自然言語による編集指示 ... Runway Alphe, Sora2, Nano Banana, Qwen-Image-Edit, etc... 編集可能なコンテンツ生成 ... Hunyuan3D World Model, Yan, Genie 3, etc... 補助的な役割としてAIを提供 ... Adobe Firefly, Tripo Studio, Suno Studio, etc... Tripo Studio(3Dモデリング) https://studio.tripo3d.ai/ Android XR https://blog.google/products/android/android-xr/ Suno Studio(音楽制作/DAW) https://suno.com/studio-welcome 15
  10. AIエージェント同士のやりとりを統一化(A2A) https://a2a-protocol.org/latest/topics/what-is-a2a/ A layered architecture of the Agent Internet Ecosystem

    arxiv/2504.16736 実社会に接続されるLLM LLM(大規模言語モデル) 統一規格のもとで外部資源との連携ができるように Model Context Protocol (MCP) Agent-to-Agent (A2A) Agent Payment Protocol (AP2) Agent-User Interaction Protocol (AG-UI) 統一規格のもとで作成されたツールにアクセスできるように 統一規格の下で作成されたエージェントとコミュニケーションできるように エージェント主導の決済を安全に開始・実行できるように ユーザー向けアプリケーションに接続する方法を 16
  11. ツールの使用・視覚/言語/行動の統合により、AIが環境に作用できるように 近年 LLM によるツール呼び出しに関する研究開発が加速している [1] 基盤モデルの発達により VLA 研究も加速している(RT-2, π0, OpenVLA,

    Gemini Robotics, etc...)[2] ロボットを動かす周辺環境やライブラリも充実化(ALOHA, Genesis, ASAP, LeRobot, NVIDIA Project GR00T, ASAP, etc...) 実社会に接続されるLLM LLM(大規模言語モデル) Ozaki氏 (PFN) - PLaMoにおけるLLMエージェント能力の分析と改善 (2024) Kawaharazuka et al., Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications (2025) こぼれた場所に布を移動させるためのロボットアームの軌道を生成 Gemini 2.5 for robotics and embodied intelligence https://developers.googleblog.com/en/gemini-25-for-robotics-and-embodied-intelligence/ NVIDIA Isaac GR00T Generalist Robot 00 Technology
 https://developer.nvidia.com/isaac/gr00t 17
  12. AI時代のユーザーインターフェース OpenAI から Apps SDK 利用者向けの設計ガイドラインが公開 [1] 存在感の設計パターンもいくつかある: ① 導線ではなく意識されない存在感(Google

    Meet 議事録, etc...) ② 先回りして手がかりを提示する(Cursor 自動補完, Perplexity 追加質問提示, etc...) ③ ユーザーを支えて協働する(OpenAI/Claude Canvas, Google Documents, etc...) ①見せない ②溶け込ませる ③近くにいる ④依頼する 実社会に接続されるLLM LLM(大規模言語モデル) OpenAI - Introducing apps in ChatGPT and the new Apps SDK (2025) Wada氏 - AI時代のUIはどこへ行く?(2025), https://speakerdeck.com/yusukebe/aishi-dai-nouihadokohexing-ku OpenAI - App design guidelines https://developers.openai.com/apps-sdk/concepts/design-guidelines Google Meet Note Takes によるイベント駆動な体験 https://support.google.com/meet/answer/14754931 18
  13. メモリ管理によるパーソナライズの実現 AIエージェント実装に伴うコンテキストエンジニアリングの機運 [1] OpenAI Agents SDK, Google ADK, AWS AgentCore

    Memory などメモリ機能の標準実装 ... 会話を効果的に進めるための辞書型データ。ADK では `user:`, `app:` などの接頭辞を使う。 ... 短期記憶の基本単位。ユーザー・エージェント・ツールなどの応答結果を保持する。 ... ユーザーとエージェント間の一連のやりとり。 ... session 内容を長期記憶として永続化する。 InMemoryMemoryService ... 完全な会話を保存、キーワードマッチを採用。 VertexAiMemoryBankService ... ユーザーに関する事実を保存、キーワードマッチ or セマンティック検索を採用。 UserPreferenceMemoryStrategy ... ユーザーの嗜好、選択、スタイルを抽出する。 SemanticMemoryStrategy ... 会話データから重要な事実情報と文脈知識を識別・抽出する。 SummaryMemoryStrategy ... 会話データの要約を生成する。 state event session memory ADK: ADK: AgentCore: AgentCore: AgentCore: LLM(大規模言語モデル) 実社会に接続されるLLM Anthropic - Effective context engineering for AI agents (2025) Agent Development Kit - Introduction to Conversational Context: Session, State, and Memory チャット機能にも Projects が搭載 https://help.openai.com/en/ articles/10169521-projects-in-chatgpt 19
  14. 宮脇 - RAG-1グランプリ 10位解法と振り返り - 質問と関連文書から Q&A システムを設計する (2024) 小説RAGコンペの金圏解法

    LLMアプリケーションの開発計画 与えられた質問に対して、小説を参照しながら回答する機械読解タスク 質問は8カテゴリに分類され、GPT-4o が解答の正確性を判断して最終スコアが算出される 小説 質問 回答 22
  15. 宮脇 - RAG-1グランプリ 10位解法と振り返り - 質問と関連文書から Q&A システムを設計する (2024) 小説RAGコンペの金圏解法

    LLMアプリケーションの開発計画 参照データ・正解基準への理解こそ良いシステムへの近道 初回コミットは何も考えずに Gemini Pro で解答、推論難易度にあたりをつける タスク特性やユーザー特性を正しく把握した上でシステム改修に取り組む タスク 特性 システム 特性 ユーザ 特性 ユーザー入力で想定される質問のタイプは? 受け入れ基準と正解の判定方法は? 検索対象 となるコンテキストはどのような情報がどのような形式で含まれているか? コンテキスト間の関係性(時間経過にともなう事実関係の遷移)は? 上記2つの特性を理解してから適切な技術を選定する 23
  16.  文中での『へへ…(への回数は問わない)』という笑い声は何回登場する?  骸骨男はバスの中に足跡を一切残さずにどうやって抜け出しましたか? 宮脇 - RAG-1グランプリ 10位解法と振り返り - 質問と関連文書から Q&A システムを設計する

    (2024) 小説RAGコンペの金圏解法 LLMアプリケーションの開発計画 特定の出現パターンをカウントする問題 → LLM では限界がある 時間変化にともなう事実関係を捉える問題 → チャンクベース RAG では限界がある 骸骨紳士がバスから現れて 女性を追って歩いてくる 男達がバスを囲み入り口を覗く 怪物は煙のように消えた バスの床に穴を発見 骸骨紳士は 床穴から逃げたと推理 バスに乗っていた男が 一人芝居をした真実が発覚 24
  17. 小説RAGコンペの金圏解法 LLMアプリケーションの開発計画 「人がやるとしたらどのように解くか」から考える まずは人が同一の設定下でAIと同じ入力を渡されたときに回答可能であるかチェックする( ) とりあえず RAG・ベクトル検索ではなく、コンテキストごとに適切な検索手法を選択する 人間テスト 宮脇 -

    RAG-1グランプリ 10位解法と振り返り - 質問と関連文書から Q&A システムを設計する (2024) 小説 特定 問題タイプ分類 + クエリ再構築 正規表現によるカウント Map-reduce QA Long-context 矛盾チェック 文書検索 回答生成 最終回答 の生成  ▶︎ 文中での『へへ…(への回数は問わない)』という笑い声は何回登場する?  ▶︎ 骸骨男はバスの中に足跡を一切残さずにどうやって抜け出しましたか? 25
  18. 概要だけ聞いたとき 要求詳細を聞いたとき 実際にデータを見たとき 「AIの導入」を成功させるために LLMアプリケーションの開発計画 使いやすいか タスク 特性 システム 特性

    ユーザ 特性 技術的に可能か 運用できるか 訓練できるか 業務がまわるか 適切な設定か これらはイコールではない LLMアプリケーション開発では結局なにが大事か まずはなんでもいいので精度感にあたりをつけ、 や (データ傾向、いつどのように使われるか、受け入れ体制など)に対して深く理解する これらを総合的に考慮した上で現実的な解決手法を採用する 実際の検索設計において『two-tower/協調フィルタ → ベクトル+全文検索 → DBフィルタリング』と方針を変えることも多々 早期段階から方針や優先度/リスクの共通認識をもつ タスク特性 ユーザー特性 28
  19. 高橋氏, AI時代のユーザ体験は「AAAA」モデルで考えよう (2024) 武舎氏ら, ツールからエージェントへ。弱いAIのデザイン - 人工知能時代のインターフェース設計論 (2018), BNN ,

    https://note.com/dory111111/n/n03eac77e5197 , https://bnn.co.jp/products/9784802510684 LLMアプリケーションの開発計画 AAAAモデル - ユーザー特性に応じてサービス形態を変える 「AIの導入」を成功させるために 29
  20. LLMアプリケーションの開発計画 Lv5. 完全自動化 Lv4. 高度自動化 Lv3. 条件付自動化 Lv2. 部分自動化 Lv1.

    支援 システムからの要請時にユーザが介入 システムがより広範なタスク補助を実施 システムが一部のタスク補助を実施 システムによる作業継続が困難な場合にユーザが介入 システムが無制限に全てのタスクを実行 国土交通省, 自動運転のレベル分けについて Shimakoshi氏, LayerXにおける業務の完全自動化に向けたAI技術活用事例 (2025) , https://www.mlit.go.jp/common/001226541.pdf , 人工知能学会, https://speakerdeck.com/shimacos/layerx-ai-jsai2025 自動運転のレベル分け - タスク特性に応じてサービス形態を変える 「AI の導入」を成功させるために 30
  21. 高橋 - AI導入で企業が挫折するのはなぜ? ― AI「以外」の壁にどう立ち向かうか (2024) , https://note.com/dory111111/n/na817a0544da3 AI活用による業務変革をはかるとき、必ずぶつかるのは「AI以外」の壁である に加えて

    も同時に必要 「AIによる業務効率化」「誤り生成の許容コスト」の両側面を理解する 人間中心のシステム設計 AI中心の業務設計 なぜ「AIの導入だけ」ではうまくいかないのか? LLMアプリケーションの開発計画 33
  22. 高橋 - AI導入で企業が挫折するのはなぜ? ― AI「以外」の壁にどう立ち向かうか (2024) Kalai et al., Why

    Language Models Hallucinate (2025) , https://note.com/dory111111/n/na817a0544da3 なぜ「AIの導入だけ」ではうまくいかないのか? LLMアプリケーションの開発計画 ①業務プロセスの壁 「業務プロセスを変えられない」 ハルシネーションがあるから業務に取り入れられないのは本当か? LLMのハルシネーションは抑制できるものではない [1] 一見すると「AIの技術的な問題」を指すようにみえるが というのが真の問題 AIの単発精度だけでなく「反復的なAI利用によって」あるいは「業務プロセス全体で」生産性が向上するか、が重要な指標となる 34
  23. 高橋 - AI導入で企業が挫折するのはなぜ? ― AI「以外」の壁にどう立ち向かうか (2024) , https://note.com/dory111111/n/na817a0544da3 ②組織・カルチャーの壁 AI活用に対するアレルギー反応は起きていないか?

    企業活動を支えているのは生身の人間である 「AI導入は人件費が削減できコストカットにつながる」というロジック一辺倒のコミュニケーションでは組織は動かない なぜ「AIの導入だけ」ではうまくいかないのか? LLMアプリケーションの開発計画 AIが自然と浸透する組織構造をつくる必要がある 力学を生み出すKPIとインセンティブの設定 組織全体の熱量を高めるカルチャー施策 熱量あるAI推進リーダーを呼び込む採用・パートナー戦略 35
  24. AIで作業工数が半分になれば請求金額も半分になってしまう 人月契約のため生産性向上が与えるインパクトが小さい AIツールの利用可否がお客様に委ねられるため、
 自社として積極的に導入を推し進めようとは思わない 高橋 - AI導入で企業が挫折するのはなぜ? ― AI「以外」の壁にどう立ち向かうか (2024)

    , https://note.com/dory111111/n/na817a0544da3 ③ビジネスモデルの壁 経営者が「一番いいAIを導入して」と右腕社員に丸投げしてないか? AI導入による収益モデルやインセンティブを再設計する必要がある ビジネスモデルの壁を壊すためにはトップの強くコミットメントが必要 AIを導入が既存ビジネスにマイナスの影響を与えるパターン 人材のブランド力が高収益の源泉になっているパターン なぜ「AIの導入だけ」ではうまくいかないのか? LLMアプリケーションの開発計画 当 社には優秀なクリエイターが多いために、お客様がお金を 払ってくれるのであって、AI導入は成果が期待できてもブラ ンド力を下げかねない 36
  25. LLMOps ≒ 高速DevOps LLMアプリケーションの開発計画 時間とともに変化する に対応する 品質評価の基準は運用してはじめて浮き彫りになることも多い 継続的に評価・改善のサイクルを回すことで要件の許容範囲へと収束させていく コンセプト/評価基準ドリフト 徐々に正解へと

    近づいていく 要件の許容範囲 時間とともに変化する 顧客コンセプトに 喰らいついていく 開始地点 開始地点 顧客の開始地点 こうだと思っていたもの 実際はこうだった 要件の許容範囲 39
  26. Ito, Ogawa, Onabuta氏 - Step-by-Step MLOps and Microsoft Products 伊藤氏,

    栗田氏 - LLMOps : ΔMLOps LLMOps ≒ 高速DevOps LLMアプリケーションの開発・運用 Outer Loop 回帰テストやカナリアリリース等によりAIエージェント を本番環境にデプロイする。デプロイ後は継続的に監視 を行いプロダクトのメンテナンスを行う。 性能評価 動作検証 ガードレール モデル選択 プロンプト 要求整理 KPI測定 フィードフォワード モニタリング 段階リリース A/Bテスト テスト設計 Outer Loop Middle Loop Inner Loop 評価セット作成 フィードバック モデル調整 本番デプロイ データ収集 ドメインエキスパートと 一緒にプロダクトを前に進める ドメインエキスパート から意見を求める Middle Loop モデルの選択・プロンプト作成などをすばやく試行し、 ドメインエキスパートとペアリングセッションを行う。 Inner Loop ステージング環境でエージェントの性能や動作を検証す る。ガードレール等によりエージェントの安全な動作、 可観測性、制御可能性を担保する。 40
  27. LLMOps ≒ 高速DevOps LLMアプリケーションの開発計画 Inner Loop でのフィードバック ... ドメインエキスパートと開発者のペアリングセッション 検証時の初期段階では

    ことによりチーム間で早期に方針を定める 小さく・素早く・とにかく回しまくる ドメインエキスパートが フィードバックを記入 プロンプト修正 +シート出力 フィードバックを システムに反映 ドメインエキスパートに チェック依頼 プロンプトに落とし込む ドメインエキスパートの思考整理 figma 41
  28. リリース当初は顧客ごとにプロンプトをカスタマイズしていた エンジニアがシステムテンプレートを作成し、現役人事(CS)が顧客ヒアリングに基づいて変数部を設定する 運用結果を監視しながら CS がプロンプトを調整していく はじめは 目grep により 、オプトインの判断があれば に切り替え

    条件付き自動化 高度自動化 リクルタAIリリース当初の課題と対応 LLMアプリケーションの開発・運用 エンジニア がテンプレートを担当 採用担当の想い 人事の経験則 採用方針 現役人事が変数部を担当 変数宣言 指示文 テンプレート 制約条件 コンテキスト プロンプトデザイン 43
  29. どんな事象が起きたか? 人の介入(プロンプトの設定、成果物のチェック)による 設定における高い時間コスト テンプレートの json/yaml/toml が CS(ドメインエキスパート)に優しくない(=CS の訓練コスト)
 開発者の想定を超えた使い方 「この場合にはこう対応したい」という特例の発生

    CS に依存したプロンプト記述における属人化
 ヒューマンエラーの一部発生 確認の多重化にともなう ・ の可能性 「なぜこの出力になったか」といった開発者に対する の要求 スケール困難 リンゲルマン効果 自動化バイアス 説明責任 リクルタAIリリース当初の課題と対応 LLMアプリケーションの開発・運用 本質的でない部分は極力 人に依存しない運用 が求められた 44
  30. 言語モデルの気持ちを理解する前に、まずは運用を依頼される非エンジニアの気持ちを理解する 要件の抜けもれがなく詳細な記述内容であること(= 誤った際の責任を「プロンプト曖昧性」から「LLM性能」に転嫁できる) 顧客要求を反映した推論手順が丁寧に記載されていること(=顧客に説明できる) テンプレートと変数部を分けていること(=再利用である) スパゲッティ化を避けていること(=誤った際の原因を容易に特定できる) 第三者が読みやすい記述形式であること(=運用を担当する第三者の訓練コストが低い) 整理された制約事項のもとテストが可能であること(=回帰テストを実施しやすい) 上記を遵守した上でベストプラクティスに従っていること https://platform.openai.com/docs/guides/prompt-engineering

    https://cloud.google.com/discover/what-is-prompt-engineering https://docs.claude.com/en/docs/build-with-claude/prompt-engineering/overview 第三者がその指示に従った場合にタスク遂行の再現が可能であること 要求や制約事項が整理されていること よいプロンプトとは LLMアプリケーションの開発・運用 宮脇 - LLMプロダクト開発のことはじめ #02 ~ よい応答を得るためのプロンプト制約 (2024) O’REILLY, LLMのプロンプトエンジニアリング GitHub Copilotを生んだ開発者が教える生成AIアプリケーション開発 , https://tech.algomatic.jp/entry/column/llm-product/02 48
  31. 顧客要求を反映した推論手順が丁寧に記載されたプロンプトは一定の説明責任を受け持つ 納得感ある採点は ①観点の網羅性 ②根拠の論理性 のどちらも明確に定まっている これらが LLM に正しくオンボされることを保証できれば(全てではないが)責任の一部を受け持つことができる 逆にオンボされないと以下のような問題に直面する: LLM

    の回答根拠が顧客の現場状況と合致しない 正しい判断がされているか不透明でありシステムを受け入れできない 公平性や迎合性のバイアスに対する懸念を拭えない よいプロンプトとは LLMアプリケーションの開発・運用 リッカート尺度による LLM-as-a-Judge の場合 スコア 判定要件 観点 観点 採点基準 採点基準 観点の 網羅性 根拠の論理性 〇〇の場合、1点 □□の場合、2点 ... 49
  32. あなたは優れたアシスタント ... 略) ## タスク規約 ### 回答と推論過程の評価観点 ### 異常入力の出力例 ###

    出力制約 ### 出力形式 次の観点から公平に評価され、その結果に応じて報酬値が変動します
 metric metrics ユーザー入力に異常を検知した場合は、システムエラーの文言を提示すること err error_messages cn constraints {% %} {% %} {% %} {% %} {% %} {% %} for in endfor for in endfor for in endfor - {{ metric.title }}: {{ metric.description }} - {{ err.title }}: {{ err.content }} - {{ cn.title }}: {{ cn.content }} {{ output_format }} 評価観点、正常・異常ケースは切り離し、定量評価や回帰テストに紐付けておく よいプロンプトとは LLMアプリケーションの開発・運用 50
  33. システムの良し悪しを測る LLMアプリケーションの開発・運用 メタモルフィックテストによるシナリオテスト まずはシナリオ通りに LLM が動作するかテストする 入力に対してある一定の摂動を与えたときに出力変化が予想できる関係( )に着目 メタモルフィック関係 出力が変化しない

    出力が変化しなかったか 出力が変化する 出力が変化したか 範囲で摂動を加え、
 実際に 確認する ような摂動を加え、
 実際に 確認する メタモルフィックテスティングによる動作検証 入力データから1位の商品を削除 加点基準に影響する用語の削除 順位の入れ替わりはない 採点が低くなる 採点が高くなる RAG の場合 レコメンデーションの場合 スコアリングの場合 検索結果のチャンクを入れ替え 不正解チャンクを検索結果から削除 答えは変わらない 答えは変わらない 加点基準に影響する用語の追加 Ribeiro+’20, Beyond Accuracy: Behavioral Testing of NLP Models with CheckList (ACL) Lanham+’23, Measuring Faithfulness in Chain-of-Thought Reasoning 52
  34. システムの良し悪しを測る LLMアプリケーションの開発・運用 よい応答か 応答形式の遵守 関連文書の引用 応答文の簡潔性 関連文書に対する忠実性 質問に対する関連性 ユーザの納得度 応答形式

    応答内容 ... ユーザの反応という 正解データ(リファレンス)がないと分からない 正解データがなくても見ればわかる 運用中の通過率が 98/100 件だったとすると 出力はほぼ「応答形式を遵守している」といえる。 例えば「応答形式を遵守しているか」を 高精度に 判定可能な LLM-as-a-Judge を設置 生成タスク & コールドスタートの場合は、LLM-as-a-Judge を用いて監視する Judge 品質が高いと仮定すれば とみなすことができる リファレンスフリーな評価 53
  35. どうやって評価データを収集するか 多様性 ... 記述量・記述形式、カテゴリ分布が偏らないよう収集 不確実性 ... タスク難易度に分けて収集 人と審査員による判断結果に対して一致度をカッパ係数で測定 審査員の判定誤りを集計して適合率・再現率を測定する 判定結果

    どうやって性能を評価するか セクションA セクションB 記述量やカテゴリ分布 多様性を確保 評価データ件数 → 判定誤りは目でチェックする NG データに OK と判定した場合、
 審査員プロンプトを改善して再度評価 ※ 同時に評価の完全性を担保していくために、長期的に運用体制を改善していく
  → 運用ログから継続的に評価セットを収集して審査員 LLM の信頼を高める  → 正解データの収集時に複数人による Inter-Annotator Agreement を実施する Input-00 Input-01 Input-02 システムの良し悪しを測る LLMアプリケーションの開発・運用 分類・抽出タスクの場合は、 を考慮して評価データセットを収集する 多様性・不確実性 Settles, Active Learning (2010) 54
  36. モデル更新への対応 改悪発生の可能性 モデルによって特性が異なる(e.g. #keep4o の例) モデル更新のタイムスパンが短く、モデルの終了対応が数年に一度発生する すでにデプロイ済みのシステムのモデルを更新する場合 A/B テスト、ステージング環境の利用などが考えられる 生成誤りを許容できない場合はトラフィックを分けることができない

    蓄積されたデータに基づいて評価した上でカナリアリリースを行う 評価データは有効なデータから、多様性(タグ情報・クラスタリング等)、不確実性(タスク難易度)を考慮して収集
 新規にリリースされたモデルを利用可能なモデルリストに追加する場合 チャンピオン/チャレンジャー方式を採用し、一定期間を設けてリアルタイムに2モデルの出力比較を行う 新モデルが旧モデルに比べて改悪しないことを確認する LLM-as-a-Judge も同時に変更する場合は設定を合わせる: 旧審査員をもちいて新旧モデルの出力に対する審査結果を比較、新モデルが旧モデルに対して改悪しないか確認 新モデルの出力に対して新旧2つの審査員をもちいて審査結果を比較、新審査員が旧審査員に対して改悪しないか確認 システムの良し悪しを測る LLMアプリケーションの開発・運用 55
  37. 研究動向をより深く理解したい方むけの参考資料 牛 久 氏(オムロン/Ridge-i/ナインブルズ ) - Tran s f o

    r m er (2022) , htt ps: // sp ea k erde ck . com / yus hi ku /20220 6 0 8_ss ii _ tran s f o r m er 清野 氏( 東北 大/理 研AIP) - よ り良 い Tran s f o r m er をつ くる (2022), htt ps: // sp ea k erde ck . com /b u t su giri/ yo ri l iang-itran s f o r m er wo t uku r u 荒居 氏/ 本田 氏( リク ル ート) - 基 盤モデ ル と産業 (202 3 ), htt ps: // sp ea k erde ck . com /re c r u itengineer s /i c t _ t okyou ni v 岡崎 氏( 東工 大 ) - 大規模 言語モデ ル (202 3 ), htt ps: // sp ea k erde ck . com / c h okk an/ llm 岡崎 氏( 東工 大 ) - 大規模 言語モデ ル の脅威と驚 異 (202 3 ), htt ps: // sp ea k erde ck . com / c h okk an/202 3 0 3 2 7_ ri k en _llm 西田 氏, 西田 氏, 風戸 氏( N TT ) - 大規模 言語モデ ル 入門 (202 3 ), htt ps: // sp ea k erde ck . com / kyou n/ llm -intr o d uc ti o n- s e s 202 3 太田 氏( 電通 総 研) - LLMマ ル チエージェ ン トを 俯 瞰す る (202 3 ), htt ps: // sp ea k erde ck . com / m a s at o t o / llmm ar u tie z ient owo f u - k an- su r u PAKDD 202 3 , T2 : A G ent l e I ntr o d uc ti o n t o Te c hn olo gie s B ehind L ang u age Mo de ls and Re c ent Ac hie v e m ent in C hat GP T, htt ps: // p a k dd2 3 . p a k dd. o rg/t u t o ria ls .ht ml# t2 岩 澤 氏( 東京 大 ) - 基 盤モデ ル の 技 術と展望 (202 3 ), htt ps: // sp ea k erde ck . com / yusuk e0 519 / js ai202 3 -t u t o ria l - j i- p an- mo der u n oj i- s h u -t oz han- w ang 岡崎 氏( 東工 大 ) - 大規模 言語モデ ル の 開 発 (202 4 ), htt ps: // sp ea k erde ck . com / c h okk an/ js ai202 4 -t u t o ria l - llm いもす 氏( P F N) - LLMの現在 (202 4 ), htt ps: // sp ea k erde ck . com /b u t su giri/ yo ri l iang-itran s f o r m er wo t uku r u 田中 氏( N TT ) - 大規模 言語モデ ル によ る 視覚・言語の 融 合 (202 4 ), htt ps: // sp ea k erde ck . com /r yo tatana k a/ l arge- v i s i o n- l ang u age- mo de ls 塩野 氏 ( 東北 大) - L arge V i s i o n L ang u age Mo de l ( LVLM ) に関す る 最新知見まとめ ( P art 1 ), htt ps: // sp ea k erde ck . com / o ne ly7 / l arge- v i s i o n- l ang u age- mo de l - lvlm -nig u an- su r uzu i-xin- z hi- j ian- m at om e- p art- 1 太田 氏( 電通 総 研) - ICL R202 4 LLMエージェ ン トの研究動向 (202 4 ), htt ps: // sp ea k erde ck . com / m a s at o t o /i cl r202 4 - llm e z ient o n oy an- j i u -d o ng-xiang 太田 氏( 電通 総 研) - W ee kly AI A gent s N e ws! (202 4 ), htt ps: // sp ea k erde ck . com / m a s at o t o / w ee kly -ai-agent s -ne ws 和地 氏( LIN Eヤ フー) - N e u r IPS -2 3 参加報告 + DPO 解説 (202 4 ), htt ps: // sp ea k erde ck . com /a k if um i _w a c hi/ne u ri ps -2 3 - c an- j ia-ba o -ga o - plus -d po - j ie- s h uo 伊 藤 氏, 栗田 氏( M i c r oso ft ) - LLMOps : ΔMLOps (202 4 ), htt ps: // sp ea k erde ck . com / s h u ntait o / llmops -d mlops 高橋 氏( N TT ) - 情報科学特別講義Ⅰ 生成モデ ル の 基 礎と応用 (202 4 ), htt ps: // sp ea k erde ck . com /ta k aha s hihir os hi/generati v e- mo de ls , B en j a m in, 横井 , 小林 - 言語モデ ル の内部機序 解析と解釈 , htt ps: // sp ea k erde ck . com /e um e sy /ana lys i s_ and _ inter p retati o n _o f _l ang u age _mo de ls 横井 氏 (国 語研 / 東北 大/理 研AIP) - コーパスを丸呑みしたモデ ル から言語の何がわか る か , htt ps: // sp ea k erde ck . com /e um e sy / w hat- c an- l ang u age- mo de ls - sw a llow ing- co r po ra-te ll - us -ab ou t- l ang u age a s a p 氏 - D ee pS ee k -R 1の論文から読み解 く 背景 技 術 (202 5 ), htt ps: // sp ea k erde ck . com / p er so nabb/dee ps ee k -r 1 n olu n- w en- k arad u - m i j ie- ku bei- j ing- j i- s h u 中鉢 氏( P F N) - PL a Mo の事後学 習 を支え る技 術 (202 5 ), htt ps: // sp ea k erde ck . com / p fn/202 51 00 1 - p fn- llm - s e m inar- pos t-training 鈴木 氏( 東京 大 ) - 新しいスケーリ ン グ則と学 習理 論 (202 5 ), htt ps: // sp ea k erde ck . com /tai j i _suzuk i/xin- s ii suk ering uz e-t o x u e-xi- l i- lu n 河原塚 ( 東京 大 ) - ロ ボット 基 盤モデ ル の最前線 (202 5 ), htt ps: // sp ea k erde ck . com /harad uk a/ m ir u 202 5 -ti yu t o riar uj iang- y an-r o b o t u t oj i- p an- mo der u n ozu i- q ian-xian B rain P ad - 【新卒研修資料】LLM・生成AI研修 / L arge L ang u age Mo de l・G enerati v e AI , htt ps: // sp ea k erde ck . com /brain p ad p r/ l arge- l ang u age- mo de l generati v e-ai 杉山 氏 ( C itade l AI / Clou d AI) - エージェ ン トの継続的改善のための メ トリクス再考 (202 5 ), htt ps: // sp ea k erde ck . com /a s ei/e z ient o n oj i- sok -de-gai- s han-n o ta m en om et o ri kusuz ai- k a o 門脇 氏 - R AGの精度向上手法、がっつ り まとめ【 202 5 年 】 , htt ps: // z enn.de v / k n owl edge s en s e/arti cl e s / 148 dfe2 c a 1 d 146 5 8