Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
チャンク戦略
Search
わいわい
December 24, 2025
Technology
0
3
チャンク戦略
チャンク分割のさまざまな手法について解説しています。
わいわい
December 24, 2025
Tweet
Share
More Decks by わいわい
See All by わいわい
Everything As Code
yosuke_ai
0
310
AI駆動開発
yosuke_ai
0
4
本の読み方
yosuke_ai
0
4
AI時代における情報収集術
yosuke_ai
0
3
生成AIをちゃんと使う
yosuke_ai
0
4
Other Decks in Technology
See All in Technology
20251222_サンフランシスコサバイバル術
ponponmikankan
2
150
さくらのクラウド開発ふりかえり2025
kazeburo
2
1.3k
技術選定、下から見るか?横から見るか?
masakiokuda
0
170
ESXi のAIOps だ!2025冬
unnowataru
0
440
「もしもデータ基盤開発で『強くてニューゲーム』ができたなら今の僕はどんなデータ基盤を作っただろう」
aeonpeople
0
270
Introduce marp-ai-slide-generator
itarutomy
0
150
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
9.9k
Autonomous Database - Dedicated 技術詳細 / adb-d_technical_detail_jp
oracle4engineer
PRO
5
11k
Connection-based OAuthから学ぶOAuth for AI Agents
flatt_security
0
490
Strands AgentsのEvaluatorをLangfuseにぶち込んでみた
andoooooo_bb
0
100
Entity Framework Core におけるIN句クエリ最適化について
htkym
0
140
MySQLとPostgreSQLのコレーション / Collation of MySQL and PostgreSQL
tmtms
1
1.4k
Featured
See All Featured
AI Search: Where Are We & What Can We Do About It?
aleyda
0
6.8k
Statistics for Hackers
jakevdp
799
230k
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
94
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.1k
Done Done
chrislema
186
16k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.6k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
10
770
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
110
What the history of the web can teach us about the future of AI
inesmontani
PRO
0
380
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1k
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
1
36
Transcript
C H U N K S T R A T
E G Y 2024年10月21日 チ ャ ン ク 戦 略 わいわい
生成AI 固定長チャンク 階層チャンク 文ベースチャンク MoGG セマンティック チャンク ベクトルDB エンべディング モデル
チャンク分割 マルチモーダル RAG 01 チャンク分割の立ち位置 プロンプト エンジニアリング RAG 生成AIツール エージェント
生成AI 固定長チャンク 階層チャンク 文ベースチャンク MoGG セマンティック チャンク ベクトルDB エンべディング モデル
チャンク分割 マルチモーダル RAG 01 チャンク分割の立ち位置 プロンプト エンジニアリング RAG 生成AIツール エージェント
02 RAGとは 独⾃の知識ベースを参照した情報を渡して、 Large Language Model(LLM) の出⼒を最適化する⼿法 Retrieval Augmented Generative
検索 拡張 生成 つまりRAGを使うと・・・ LLMが知らない情報を答えてくれるようになる
03 なぜ必要か? ハルシネーション の軽減 LLMが出力した内容が正確か どうかをチェックすることが できるようになる ※ハルシネーションとは AIや言語モデルが事実とは異 なる情報や存在しないデータ
を生成する現象 未学習データ の出力 社内データやインターネット 上にない情報をLLMに回答さ せることが可能になる QAボットや問い合わせボッ トなど専門性が求められるも のに使用することができる
04 RAGの仕組み ユーザー チャット アプリケーション ベクトルDB LLM ① 質問 ⑥
回答 ② 検索 ③ 結果取得 ④ プロンプト ⑤ 回答作成
04 RAGの仕組み
04 RAGの仕組み(ベクトルDBデータ作成) チャンク分割 エンべディングモデル
ベクトルDB エンべディング モデル チャンク分割 ドキュメントの 形式・質 05 精度向上の変数 組み合わせは星の数ほど存在する
ベクトルDB エンべディング モデル チャンク分割 ドキュメントの 形式・質 05 精度向上の変数 組み合わせは星の数ほど存在する
生成AI 固定長チャンク 階層チャンク 文ベースチャンク MoGG セマンティック チャンク ベクトルDB エンべディング モデル
チャンク分割 マルチモーダル RAG 01 チャンク分割の立ち位置 プロンプト エンジニアリング RAG 生成AIツール エージェント
06 チャンクとは? データを小さな「かたまり」に分けて効率的に 検索や処理ができるようにするための手法
07 チャンクの必要性 コンテキストウインドの限界 コンテキストの情報精度の限界
07-1 コンテキストウインドの限界 LLMには、一度に処理できるテキスト量に制限 がある。テキストを小さなチャンクに分割する ことで、LLM は情報をより効率的に処理する ことができます。 LLMには、一度に処理できるテキスト量に制限がある。 テキストを小さなチャンクに分割することで、 LLM
は情報をより効率的に処理することが可能。
07-2 コンテキストの情報精度の限界 LLM が一度に全体のテキストを処理できたとしても、 文書全体のコンテキストを維持するのが難しい。 テキストを特定のアイデアやセクションに焦点を当てた チャンクに分割することで、LLM はテキストの異なる 部分間の関係をよりよく理解することが可能。
08 チャンクの種類 セマンティック チャンク MoGG 固定長チャンク 階層チャンク 文ベース チャンク
08-1 固定長チャンク 一定の文字数やトークン数でテキストを分割する方法 概要 メリット 実装が簡単で、計算資源が少なくて済む デメリット テキストの構造を考慮しないため、文の途中で切れることがある
08-1 固定長チャンク
08-2 セマンティックチャンク 意味的に関連するテキストを一緒に保持する方法 概要 メリット 情報の意味を保持し、検索精度を向上させる デメリット 計算コストが高く、実装が複雑
08-2 セマンティックチャンク
08-3 階層チャンク ⼤きな階層と⼩さな階層でチャンクに親⼦関係を持たせる 概要 メリット 検索時は⼦チャンク、回答⽣成時には親チャンクを利⽤するため、検索・回答⽣成 の両⽅の精度を向上させる デメリット 親⼦関係をネスト化した構造を定義する必要があるため前処理が大変
08-3 階層チャンク
08-4 文ベースチャンク 文の区切り(ピリオドや感嘆符、疑問符、日本語の場合には句読点など)で分割する 概要 メリット 文の意味を保持したまま分割することができる デメリット 文章が離れている場合、精度が下がる
08-5 参照ドキュメントをグラフ化することで、離れた場所にある関連情報を効率的に取 得できる 概要 メリット 他ファイルを参照している場合や、注:などの近くに情報がないナレッジに有効 デメリット 実装コストが高い 引用:https://arxiv.org/abs/2406.00456 MoGG(Mix-of-Granularity-Graph)
08-5 MoGG(Mix-of-Granularity-Graph)
08-5 MoGG(Mix-of-Granularity-Graph) ① 文書を1-2文程度のチャンクに分割
ユーザー 08-5 MoGG(Mix-of-Granularity-Graph) ② 質問文に近い内容のチャンクを取得 例)インボイス制度とは? 近い意味のチャンクのみ取得
08-5 MoGG(Mix-of-Granularity-Graph) ③ 取得したチャンクでグラフを作成
08-5 MoGG(Mix-of-Granularity-Graph) ④ 質問文の難易度によってLLMに渡す情報を数を決定
08-5 MoGG(Mix-of-Granularity-Graph) ⑤ 取得したチャンクをLLMに投げる
T H A N K Y O U