コンテキスト・ハーネスエンジニアリングの現在

1 コンテキスト/ハーネスエンジニアリングの現在 Hirosato Gamo ※解釈しやすいよう抽象度の高い表現をしている箇所や個人的な見解を含みます。Microsoftサービスについての正確な情報は公式ドキュメントをご参照ください。

2 HIROSATO GAMO @hiro_gamo ➢ Microsoft AI Cloud Solution Architect
LLM隆盛の黎明期からAzure AIを通じたLLM企業導入の技術支援を推進。 ➢ Microsoft Evangelist SNS上での技術情報の発信や登壇活動に従事。「ChatGPT - Azure OpenAI大全」などの資料が10万ビューを超え「2023 Most Viewed Deck 25」にランクイン。 2023 - Most Viewed Decks (speakerdeck.com) ➢ 上智大学大学院応用データサイエンス学位プログラム LLM概論担当非常勤講師 ➢ 著書「LLMの原理、RAG・エージェント開発から読み解くコンテキストエンジニアリング」共著「Azure OpenAI ServiceではじめるChatGPT/LLMシステム構築入門」マイクロソフトエバンジェリスト

LLMにおけるプロンプトとコンテキスト 3 振る舞いの指示入出力例ユーザー入力会話履歴ツール定義ツールからの取得結果出力スキーマ入力文章ほか
入力はすべてプロンプトと呼ばれていた現在は指示プロンプトと呼ばれているもの現在ユーザープロンプトと呼ばれているものコンテキスト初期のLLMの入力現代のLLMへの入力ユーザからの返答を出力文章の続きを出力

コンテキストを取り巻く 3つの問題 4 精度劣化複雑化による指示不履行コンテキスト量が増えると、ルールの遵守や適切なツール選択の精度が低下。設計時のコンテキストの与え方が不適切だと、高性能モデルでも常に隣合わせ。容量の制約
トークン上限と理解度入力可能な文字数（トークン）には上限があり、長文入力には限界がある。上限内であっても、コンテキストが長大になるとモデルの理解度の低下リスクあり。コスト・速度非機能面への影響処理するテキスト量に応じて課金が増大し、応答時間も遅延。リアルタイム性が求められるアプリでは、コンテキストの肥大化は特に致命的。コンテキストのハンドリングが極めて重要になりつつある

コンテキストエンジニアリングはLLMを推論側(入力)で制御する技術の総称 5 構成する7つの具体的要素コンテキストを受け取るUI/UXの工夫ユーザー意図を正確に捉え、構造化データとして渡すための設計 LLM Inferenceプリセットの整備精度を確保し健全に動作させるための事前設定のバランシング振る舞い指示出力スキーマ
パラメータ参照データ例示 (Few-shot) ツール定義 RAGにおけるクエリ生成、インデックス整備外部知識を適切に検索・注入するための基盤構築コンテキストの分割ワークフロー化、Agents as Toolsなどによるタスク分解コンテキストの動的取得 Skillsなどを活用したオンデマンド情報取得コンテキストの圧縮・削除ウィンドウの枯渇防止、制度維持のための情報量制御コストを最適に保つキャッシュ維持コンテキストキャッシュ機能によるコストとレイテンシの最適化 LLMが最も質の高い回答を返すために、限られた入力領域において、何を与え何を捨てどのように良いコンディションを保つのか。この技術の総体が「コンテキストエンジニアリング」。コンテキストエンジニアリングを制すものが、LLMによる未来実現を制す。

6 コンテキストエンジニアリングは誰にとって必要か LLMアプリケーションのタスク性能はコンテキストエンジニアリングの質に左右される同じモデルでも、コンテキスト設計次第でアウトプットの完成度は劇的に変化。 LLMアプリ開発者今後あらゆるアプリにLLMが組み込まれていく中で、必須となる基盤技術スキル。 Coding Agentユーザ AIエージェントの精度と効率を最大化するために、ユーザ側にも文脈設計が求められる。一般のLLMアプリユーザ(短期的には)
本来は意識せず使えるのが理想だが、現状では市場がそこまでユーザフレンドリでないため、コンテキストの性質を理解しておくことで活用の幅が広がる。

7 コンテキストエンジニアリングは一過性の技術なのか「性能が上がれば、すべてをコンテキストに詰め込むだけで済む」と思われがちですが、 3つの構造的な課題がそれを阻んでいます。ウィンドウ拡大の停滞モデルの推論性能の進化スピードに比べ、コンテキストウィンドウサイズの拡大ペースは鈍化傾向に。タスクの複雑化が先行解決すべきタスクが高度化しており、必要な
コンテキスト情報の増加量がウィンドウ・解釈性の進化速度を上回っている状態。解釈のクセや脆弱性 LLMはノイズに弱く、情報の配置や構成（コンテキスト内の順序など）の独特なクセが出力品質に影響。 Conclusion この技術が不要になるまでには、まだ相当の時間がかかる。当面の間、コンテキストエンジニアリングは実務での競争優位を左右する重要なスキルであり続ける。

8 コンテキストウィンドウの進化はやや停滞気味更にコンテキストウィンドウ限界まで入力した場合、顕著に解釈精度が悪化することが知られている。

LLMのコンテキスト解釈のクセ「Lost in the Middle」 9

10 ハーネスエンジニアリングってなに？ (個人的な整理) ハーネスエンジニアリングコンテキストエンジニアリングプロンプトエンジニアリング LLMOps (監視/評価) RAG Skills
メモリ UI/UX ワークフローマルチエージェント化 User Prompt Developer Prompt Tool Use (定義/参照情報) Structured Output ガードレール Tool Use (接続方式/セキュリティ) LLMOps (改善) コンテキストの更に外側にある仕組みがハーネスとして意識されるようになりつつある。

11 コンテキストエンジニアリングの各技術のポイント

チャットを超え、改めて「コンテキストの入り口」UI/UXに目を向ける 12

プロンプトだけではない、推論リクエストにおけるプリセット 13 出力スキーマ JSON形式などシステムが期待する構造化データの定義。振る舞い指示 Role設定や禁止事項など例示
Few-shotプロンプトによる入力と理想的な出力の具体例。ツール定義 MCPを通じた Function Callingの定義。パラメータ Reasoning Effortなど生成に関する制御。参照データコンテキストとして与える背景知識やドキュメント。タスク手順自動化対象の作業の進め方や関連するリファレンス。 LLM Core

Prompt Engineering の本質は1つ。「あらゆる場所で CoT を」 14 LLM自身の出力の活用 (Reasoning) 再帰修正一度出力した内容を再修正することで、初手での誤りを効率的に検出し
最終回答としては質の良いものに仕上げる。知識生成 LLM内部に持っている知識や論理を中間出力することで関連情報をコンテキスト化し回答精度を高める。 (推論モデルはオートでこれに外部検索も組み合わせられる) 指示のRecall 指示内容のニュアンスをOutputのフォーマットに組み込むことで追従性を維持する。テクニックとしてではなく、重要な生成の直前に質の良い情報が来るように常にコントロールする。

【例】JSON出力でプロパティ名を手掛かりにするCoT { “id”: “12345”, “user_impression”: 4, “short_text”: “2023年のMVPは大谷翔平選手。", “short_text_in_en": “Shohei
Ohtani was the MVP in 2023.”, “category”: [ {“category_label”: “野球”, “category_description”: “~~~~~”}, {“category_label”: “野球”, “category_description”: “~~~~~”}, … } 出力JSON ➢ 出力の長さや言語などの指定をプロパティ名に入れ込むことで指示を忘れにくい。 15

16 RAG におけるコンテキストエンジニアリング

RAGを始める前に…3つの選択肢 17 概要外部DBを持たず、プロンプトのコンテキスト内にナレッジを常駐させる手法。キャッシュ技術の発展とLLMのロングコンテキスト解釈力の向上により利用が加速。メリット •実装が非常に手軽 •レイテンシで有利になりやすいデメリット
•コンテキスト圧迫による性能低下 CAG Context Augmented Generation 概要 WorkIQなど、特定のサービスが組み込みのRAG機能を持っている場合、そのAPIをツールとして利用する手法。メリット •RAGシステムを構成する必要が無いデメリット •非機能要件がサービスに依存 Built-in RAG Service Integrated 概要独自にRAGシステムを構成してチューニングを行う、フルスクラッチに近いアプローチ。メリット •最もカスタマイズ性が高いデメリット •専門知識と中長期の調整管理が必要ユーザマネージド Custom Built RAG

改めてRAGの仕組みを振り返る 18 LLM技術の最新トレンドを教えて。ユーザオーケストレータ環境 ②リクエスト ④データ取得リクエスト ⑤関連データ ③クエリなどを抽出
LLM API データソース ①ユーザ入力コンテキストエンジニアリングという新しい概念が登場していて、・・・オーケストレータ環境 ⑤を使って回答生成リクエスト ⑤に基づいた回答生成 LLM API

RAGにおけるデータソースの多様化 19 データソース名概要ドキュメントなど社内に存在するPDF、PowerPoint、Excelファイルなどにおけるテキスト情報を抽出しておき、LLMのリクエストに応じて検索。全文検索エンジンやベクトルストアを使うことが多い。 Web検索 Web検索APIを実行し、ヒットしたWebページから情報を抽出し回答に利用。
最近はLLMのAPIに組み込みツールとして実装済み。データベース RDB（リレーショナルデータベース）やNoSQL DBをはじめとするデータベースへクエリを実行。取得した数値やレコードデータをLLMの回答生成に利用。その他他にも、関連した情報や事実関係を取得するためにナレッジグラフからの情報取得や、レコメンドエンジンと組み合わせた情報取得など、多様なシステムとの連携がある。現在においては、データソースや取得手段はベクトル検索に限定されず、様々なデータソースを用いる。

RAG関連技術に起こった数年の発展 20 2020 ベクトル検索 RAG 質問と文書をベクトル化。意味的類似度でチャンクを検索。 2021- 23 ハイブリッド検索
RAG ベクトル検索の弱点(厳密一致 )をBM25等の全文検索技術と組み合わせ。 2021- 24 リランク (Re-rank) 高精度モデル(ColBERT等)で検索結果を再順位付け。 2024 Graph RAG エンティティ知識グラフを構築し、文書群全体のテーマや関係性を理解。 2025- 26 Agentic RAG LLMが検索戦略を計画。サブクエリ分解・反復検索で、高精度な検索を実現。

精度向上のためのテクニック一覧 RAGにはコンテキストを含む様々な対処が存在。施策概要備考・トレードオフ 1 インデッ
クス作成不要なドキュメントの排除古いファイル、使用頻度の低いファイルの削除事前のアクセスログ分析が必要 2 検索対象テキスト選択チャンクに重要なキーワードが欠落しないよう前後情報の要約を足したり、そもそもの検索対象をチャンクに対する想定質問文にするなど、クエリからヒットしやすい形式にする。 LLMによる加工が入った場合、元のドキュメントから情報が欠落する可能性が0ではない。 3 図表情報の適切な抽出図表をLLMが読み取りやすい形式でテキスト化する。 LLMによる加工が入った場合、元のドキュメントから情報が欠落する可能性が0ではない。 4 Embeddingモデル・類似度関数調整専門用語に強いEmbeddingモデルに変更したり、類似度計算の学習をして想定に近い検索対象がヒットしやすいようにする。モデルの動作環境の準備や調整にやや専門性と手間が必要。 5 対話クエリ加工クエリにLLM内部の情報を追加したり、検索対象テキストに近くなるような加工を施す。リッチな加工を施すと回答までに時間が掛かりUXが悪化する。 6 ユーザからの情報収集検索に入る前に必要な情報をユーザから収集する。毎回質問を重ねられるとUXが悪いためバランス調整が難しい。 7 検索ハイブリッド検索の導入検索エンジンにおけるハイブリッド検索を使用する。フルテキスト検索の精度が悪いとベクトル検索単体より精度劣化する。 8 リランクの導入検索エンジンにおけるリランク機能を使用するか、リランクモデルを導入し検索結果を解析させる。回答までの時間が増加しUXが悪化する。 9 フィルタ検索インデックス作成時にあらかじめドキュメントのカテゴリを付与しておき、検索実行時にユーザ質問からカテゴリを推定させ、そのカテゴリ内だけのフィルタ検索を実行する。明白にジャンルが違うドキュメントが混在するケースでないと機能しにくい。 10 回答結果取り込み件数調整検索された結果の上位を何件までLLMに渡し参照させるか調整する。件数を多くし過ぎるとLLMの解釈性が低下し、回答までの時間も増加する。

クエリ拡張・加工の手段質問分解 HyDE Hypothetical Document Embeddings クエリ修正問いに対する仮想的な応答をLLMで生成。(関連用語の生成がされることを期待) その応答をEmbeddingでベクトル化して文書を検索。 LangChain
でより高い vector 検索精度が期待できる HyDE 仮説をやってみるタイポの修正による精度向上が報告されている。またはクエリは質問文で投げられるため、インデックス情報に近い形式に変換することで精度向上が見込める。 Dealing with Typos for BERT-based Passage Retrieval and Ranking - ACL Anthology 単一の質問だけでは解決できない問いに対して、質問を複数に分割する。検索エンジン側で機能提供されているケースもある。 Measuring and Narrowing the Compositionality Gap in Language Models | OpenReview Step Back 詳細な質問に対して、そのままクエリを投げるのではなく、上位概念に一度変換するクエリを発行する。例えば「大谷翔平の2023/4/28の第3打席の結果」を直接検索するのではなく、「大谷翔平の2023 年の全打席結果」などと検索する。 [2310.06117] Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models (arxiv.org) 文脈追加質問に関連する知識生成やFAQ(Shot)の付与。 Retrieval-based LM (RAG system) ざっくり理解する - Speaker Deck 検索エンジンの仕組みとマッチング対象データを把握しながら、適切なクエリ生成を狙う。 22

質の良いデータを与えるための抽出パイプラインを把握せよ LLMへ受け渡すデータをどう作るかは、データに依存するためエンジニアの腕が問われる 23

検索対象は必ずしもチャンクした本文ではない # 1. 機械学習 ~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~~~~~~~~~~ ## 1.1 教師あり学習 ~~~~~~~~~~~~~~~~~~~~~~~
<figure> { “title”: “Fig.1 XXXXXX” “diag_info”: “~~~~~~~~~~~~~~~” “image_file_path”: “~~~~~~~~” } </figure> ~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~~~~~~ ## 1.2 教師なし学習 ~~~~~~~~~~~~~~ | # | A | B | C | | - | --- | --- | --- | | ① | ~~~ | ~~~ | ~~~ | | ② | ~~~ | ~~~ | ~~~ | | ③ | ~~~ | ~~~ | ~~~ | Table1 XXXXXX ~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~~~~~~ チャンクした本文を検索対象にチャンクの概要＋付加情報を検索対象に通常のパターン。最も単純で低コスト。文章の情報がぶつ切りになるため重要なキーワードが含まれない場合があったり、前後関係やテーマが抜け落ちる場合がある。検索に必要をLLMによって抜き出すパターン。ドキュメントのある程度の塊を渡しておき、チャンクの概要やキーワードなどを加え検索用のテキストを作り直す。通常のチャンクで欠落している情報を加味出来る。チャンクから想定されるユーザの質問文を検索対象にユーザの入力が質問文であることを想定し、あらかじめ想定質問をチャンクからLLMで生成して、その質問文を検索対象とする。検索対象とクエリを近づけるという点で考え方はクエリ拡張のHyDEのコンセプトに似ており、検索精度が高まる場合がある。検索対象をチャンクした本文にするという意識が強いが、最終的に渡すテキストと検索対象が同じである必要はない 24

Reasoningモデルの発展と検索への応用 25 OpenAIのo1から発展した推論モデルが主流になり、この仕組みをRAGに応用。ツール使用計画ユーザからの指示、イベントなどのトリガーツールの実行ツールアクセス結果の吟味最終出力
loop

Agentic RAG の威力と仕組み 26 推論モデルと組み合わせることでRAGの精度は大幅に向上 Foundryの最新機能と事例について纏めて検索判断複数クエリ生成
回答作成否要結果の吟味不十分十分回答生成 …

Agentic RAG で生じるコンテキスト問題 27 丁寧で精度的に強力がゆえに Agentic RAG にもいくつかの弊害が存在。 Solution 検索のためのAgentを分離する流れが加速
(Agents as Tools) メインタスク担当と検索担当のエージェントを分離。モデルやコンテキストを独立させることで、効率的かつ高精度な処理を実現。コンテキストの肥大化検索回数の増加、多様なクエリ、失敗時のリトライ履歴が全てコンテキストに蓄積。扱うトークン量が爆発的に増大し、コストと処理負荷を圧迫する。検索結果のノイズ化失敗した検索結果や吟味の過程がコンテキストに残留しノイズとなる。後続のタスク実行時にLLMの性能が低下。処理の長時間化検索の失敗や結果の吟味プロセスが発生するたびにLLMとの対話数が増加。ユーザーに対して最終的な回答が返るまでのレイテンシが大幅に悪化する。

Agents as Tools による Agent 分離のイメージ 28 データを探索するエージェントをメインから独立させることで、Agentic検索を担当するエージェントの最適化とメインコンテキストの圧迫防止が同時に可能メイン
AIエージェントツールとして呼び出し有効な検索結果やそのサマリのみ返送検索クエリの生成検索の実行結果の吟味検索用サブエージェント

29 Agent開発で発生するコンテキストエンジニアリング

Agent開発はプロンプトベースで挙動を確認 30 ツール使用計画ツールの実行ツールアクセス結果の吟味 loop 最も簡単に業務を自動化するには、全てのタスク手順とツール定義・その使い方を全てLLMに持たせて推論モデルで実行してみることが多い。 Context 現代における一般的な初手のエージェント開発
推論モデルで実行(プロンプトベースエージェント) ツールA リファレンスツールB 定義ツールB リファレンスタスクB 指示タスクC 指示タスクD 指示 Shot 出力スキーマ …… …… ツールA 定義タスクA 指示

複雑化したタスク対処におけるAgentの問題点 31 Agentをプロンプトのみで実行しようとすると、必ず問題が起こるツール選択の精度低下タスク複雑化で適切なツール選択が不安定に業務ツール・データ過多で候補を絞り切れない定義を全網羅しても期待精度に届きにくい手順の誤り企業業務は厳密な順序依存（調査→提案→承認）指示しても、抜け・前倒し・順序違いが発生
特に顧客対応では致命的なミスにつながる制約の無視禁止事項、フォーマット、用語統一など多層的制約テキスト指示だけでは抜け落ちる場面が残存例外処理・厳格運用が必要なほどリスク増大非機能面での問題複雑化に伴い処理時間が伸長、コストも増大体験品質（UX）と収益性に直結する課題早期にシステム設計・運用面での対処が必要「ツールが増えるほど、判断がブレる」「順序の崩れが、そのまま事故になる」「制約は、プロンプトだけでは守り切れない」「遅い・高いは、それだけで失敗要因」

自律性の維持/排除のオーケストレート (マルチエージェント/ワークフロー化) 32 最も一般的な対処は、複数のLLMやエージェントにタスクを割り振りワークフロー化することタスクA タスクB タスクC タスクD 遷移
遷移

最終的な業務自動化システムのイメージ 33 タスクA タスクB タスクE タスクF タスクG タスクD タスクC AIエージェント
1 作業フロールールベース AI処理ルールベース AI処理 AIエージェント 1 loop AIエージェント 2 AIエージェント 3 業務自動化はコンテキストのバランスを見ながら多くの分岐が発生することになる。ツールの実行の内部ツール計画結果の吟味

MCP隆盛から生まれた「ツール常駐」がボトルネック化 34 取り込むツールの多さ、タスクの複雑さとAgentへの汎用性の期待でツール定義は増加しがちになる。また、タスクが汎用になるほど、コンテキストを圧迫しているのに最終的に使われない状況も多発。 MCPの普及がユーザによる積極利用を後押し LLMアプリが外部ツールやデータへ接続するための標準化レイヤが整備。統合ツールレジストリの肥大化接続先が増えるほど、ツール定義＋補足説明＋結果がコンテキストを占有。 LLMへの提示量が増加し、処理コストと遅延が増大。パフォーマンスへの悪影響
コンテキスト圧迫により、コスト増・レスポンス遅延に加え、LLMのツール選択ミスのリスクが発生。コンテキスト削減による改善効果ツール提示を絞るだけで、トークンを50％超削減ツール選択精度 13.62% 43.13% RAG-MCP: Mitigating Prompt Bloat in LLM Tool Selection via Retrieval-Augmented Generation RAG-MCP: Mitigating Prompt Bloat in LLM Tool Selection via Retrieval-Augmented Generation

汎用CLIツールの人気上昇 35 狙いと効果発想：汎用口への集約細粒度なツール定義を大量に並べる代わりに、「汎用の実行口（CLIやコード実行）」へ機能を寄せる。 LLMに提示するツール定義の総量を劇的に減らす。メリット・デメリット多数ツールの定義を常駐させずに済むため、「多サーバ接続で定義と結果がトークンを食いすぎる」という
ボトルネックを緩和。一方で、LLMに渡す権限範囲には注意が必要特定処理しかできないツールを多く抱えることは効率が悪いため、汎用的な処理ができるCLI環境を用意し、ツールの総量を減らすアプローチが人気に。ツールA-2 定義ツールA-1 定義ツールA-3 定義 CLI ツールツール選択パラメータ生成ツールB 定義ツールB 定義 CLIツールが選択された場合、 A-1～A-3に相当するコマンドやコードを動的生成 MCPサーバから実行 MCPサーバから実行

Skills による段階的コンテキストロード 36 狙いと効果発想：動的に必要なコンテキストをロード複雑な手順を伴うサブタスクに関する情報を、必要なときだけ必要な分のみ段階的にロード。必要が無ければコンテキストを圧迫せず温存可能。メリット・デメリット「出会う可能性が低いものの、対処は難しくコンテキストは食う」といった手順が
存在する場合にコンテキストからの外だしが可能。 Subagentsと比較されることも多い。単純な処理でなく、関連コンテキストが多いタスクはSkillsとして切り出し。

Tool Search Tool によるツール定義のRAG 37 ツール情報をインデックス化使用頻度の大きくないツールをインデックス化検索手持ちのツールに無いツールが必要
な場合、Tool Search Tool を選択検索を実行 LLM提示＆実行取得したツール候補から LLMがツールを選択し実行 1 2 3 狙いと効果発想：使用されにくいツールはコンテキストに見せず探させる膨大なツール定義を検索エンジン側に寄せることでLLMが処理しなければならないトークンを低減。通常RAGはナレッジを格納するが、これをツール定義に応用。メリット・デメリット検索エンジンにツール定義を寄せられるため、ツール追加に関する精度低下をあまり躊躇する必要が無くなる。ツールA-2 定義ツールA-1 定義ツールA-3 定義 Tool Search Tool ツールB 定義ツールB 定義使用頻度の低いツールを集約

コンテキストキャッシュへの配慮 (単一ユーザ対話継続視点) 38 コンテキストキャッシュを常に効かせる意識が総コストを大きく抑える。

コンテキストキャッシュへの配慮 (複数ユーザ横断視点) 39 コンテキストキャッシュを常に効かせる意識が総コストを大きく抑える。

コンテキスト・ハーネスエンジニアリングの現在

コンテキスト・ハーネスエンジニアリングの現在

Hirosato Gamo PRO

More Decks by Hirosato Gamo

Other Decks in Technology

Featured

Transcript

1 コンテキスト/ハーネスエンジニアリングの現在 Hirosato Gamo ※解釈しやすいよう抽象度の高い表現をしている箇所や個人的な見解を含みます。Microsoftサービスについての正確な情報は公式ドキュメントをご参照ください。

2 HIROSATO GAMO @hiro_gamo ➢ Microsoft AI Cloud Solution Architect

LLMにおけるプロンプトとコンテキスト 3 振る舞いの指示入出力例ユーザー入力会話履歴ツール定義ツールからの取得結果出力スキーマ入力文章ほか

8 コンテキストウィンドウの進化はやや停滞気味更にコンテキストウィンドウ限界まで入力した場合、顕著に解釈精度が悪化することが知られている。

LLMのコンテキスト解釈のクセ「Lost in the Middle」 9

10 ハーネスエンジニアリングってなに？ (個人的な整理) ハーネスエンジニアリングコンテキストエンジニアリングプロンプトエンジニアリング LLMOps (監視/評価) RAG Skills

11 コンテキストエンジニアリングの各技術のポイント

チャットを超え、改めて「コンテキストの入り口」UI/UXに目を向ける 12

プロンプトだけではない、推論リクエストにおけるプリセット 13 出力スキーマ JSON形式などシステムが期待する構造化データの定義。振る舞い指示 Role設定や禁止事項など例示

Prompt Engineering の本質は1つ。「あらゆる場所で CoT を」 14 LLM自身の出力の活用 (Reasoning) 再帰修正一度出力した内容を再修正することで、初手での誤りを効率的に検出し

【例】JSON出力でプロパティ名を手掛かりにするCoT { “id”: “12345”, “user_impression”: 4, “short_text”: “2023年のMVPは大谷翔平選手。", “short_text_in_en": “Shohei

16 RAG におけるコンテキストエンジニアリング

改めてRAGの仕組みを振り返る 18 LLM技術の最新トレンドを教えて。ユーザオーケストレータ環境 ②リクエスト ④データ取得リクエスト ⑤関連データ ③クエリなどを抽出

RAG関連技術に起こった数年の発展 20 2020 ベクトル検索 RAG 質問と文書をベクトル化。意味的類似度でチャンクを検索。 2021- 23 ハイブリッド検索

精度向上のためのテクニック一覧 RAGにはコンテキストを含む様々な対処が存在。施策概要備考・トレードオフ 1 インデッ

クエリ拡張・加工の手段質問分解 HyDE Hypothetical Document Embeddings クエリ修正問いに対する仮想的な応答をLLMで生成。(関連用語の生成がされることを期待) その応答をEmbeddingでベクトル化して文書を検索。 LangChain

質の良いデータを与えるための抽出パイプラインを把握せよ LLMへ受け渡すデータをどう作るかは、データに依存するためエンジニアの腕が問われる 23

検索対象は必ずしもチャンクした本文ではない # 1. 機械学習 ~~ ## 1.1 教師あり学習 ~

Reasoningモデルの発展と検索への応用 25 OpenAIのo1から発展した推論モデルが主流になり、この仕組みをRAGに応用。ツール使用計画ユーザからの指示、イベントなどのトリガーツールの実行ツールアクセス結果の吟味最終出力

Agentic RAG の威力と仕組み 26 推論モデルと組み合わせることでRAGの精度は大幅に向上 Foundryの最新機能と事例について纏めて検索判断複数クエリ生成

Agentic RAG で生じるコンテキスト問題 27 丁寧で精度的に強力がゆえに Agentic RAG にもいくつかの弊害が存在。 Solution 検索のためのAgentを分離する流れが加速

Agents as Tools による Agent 分離のイメージ 28 データを探索するエージェントをメインから独立させることで、Agentic検索を担当するエージェントの最適化とメインコンテキストの圧迫防止が同時に可能メイン

29 Agent開発で発生するコンテキストエンジニアリング

自律性の維持/排除のオーケストレート (マルチエージェント/ワークフロー化) 32 最も一般的な対処は、複数のLLMやエージェントにタスクを割り振りワークフロー化することタスクA タスクB タスクC タスクD 遷移

最終的な業務自動化システムのイメージ 33 タスクA タスクB タスクE タスクF タスクG タスクD タスクC AIエージェント

Tool Search Tool によるツール定義のRAG 37 ツール情報をインデックス化使用頻度の大きくないツールをインデックス化検索手持ちのツールに無いツールが必要

コンテキストキャッシュへの配慮 (単一ユーザ対話継続視点) 38 コンテキストキャッシュを常に効かせる意識が総コストを大きく抑える。

コンテキストキャッシュへの配慮 (複数ユーザ横断視点) 39 コンテキストキャッシュを常に効かせる意識が総コストを大きく抑える。