Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
チャンク戦略
Search
わいわい
December 24, 2025
Technology
0
19
チャンク戦略
チャンク分割のさまざまな手法について解説しています。
わいわい
December 24, 2025
Tweet
Share
More Decks by わいわい
See All by わいわい
Everything As Code
yosuke_ai
0
600
AI駆動開発
yosuke_ai
0
48
本の読み方
yosuke_ai
0
11
AI時代における情報収集術
yosuke_ai
0
11
生成AIをちゃんと使う
yosuke_ai
0
18
Other Decks in Technology
See All in Technology
Windows ネットワークを再確認する
murachiakira
PRO
0
220
Webアクセシビリティ技術と実装の実際
tomokusaba
0
180
Introduction to Sansan, inc / Sansan Global Development Center, Inc.
sansan33
PRO
0
3k
バクラクにおける Document Understanding の挑戦:書類の「読取」から「意思決定」へ / document-understanding-in-bakuraku-2026
yuya4
0
190
AIエージェントで変わる開発プロセス ― レビューボトルネックからの脱却
lycorptech_jp
PRO
2
840
AI Coding Agentの地殻変動 ~ ai-coding.info の定点観測 ~
kotauchisunsun
1
500
論文検索を日本語でできるアプリを作ってみた
sailen2
0
160
dbt meetup #19 『dbtを『なんとなく動かす』を卒業します』
tiltmax3
0
140
Interop Tokyo 2025 ShowNet Team Memberで学んだSRv6を基礎から丁寧に
miyukichi_ospf
0
280
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
6
71k
LLM活用の壁を超える:リクルートR&Dの戦略と打ち手
recruitengineers
PRO
1
190
WBCの解説は生成AIにやらせよう - 生成AIで野球解説者AI Agentを実現する / Baseball Commentator AI Agent for Gemini
shinyorke
PRO
0
310
Featured
See All Featured
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
How to Think Like a Performance Engineer
csswizardry
28
2.5k
Amusing Abliteration
ianozsvald
0
120
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
2
270
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
67
37k
Agile that works and the tools we love
rasmusluckow
331
21k
Un-Boring Meetings
codingconduct
0
220
GraphQLの誤解/rethinking-graphql
sonatard
75
11k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.4k
30 Presentation Tips
portentint
PRO
1
250
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
180
Transcript
C H U N K S T R A T
E G Y 2024年10月21日 チ ャ ン ク 戦 略 わいわい
生成AI 固定長チャンク 階層チャンク 文ベースチャンク MoGG セマンティック チャンク ベクトルDB エンべディング モデル
チャンク分割 マルチモーダル RAG 01 チャンク分割の立ち位置 プロンプト エンジニアリング RAG 生成AIツール エージェント
生成AI 固定長チャンク 階層チャンク 文ベースチャンク MoGG セマンティック チャンク ベクトルDB エンべディング モデル
チャンク分割 マルチモーダル RAG 01 チャンク分割の立ち位置 プロンプト エンジニアリング RAG 生成AIツール エージェント
02 RAGとは 独⾃の知識ベースを参照した情報を渡して、 Large Language Model(LLM) の出⼒を最適化する⼿法 Retrieval Augmented Generative
検索 拡張 生成 つまりRAGを使うと・・・ LLMが知らない情報を答えてくれるようになる
03 なぜ必要か? ハルシネーション の軽減 LLMが出力した内容が正確か どうかをチェックすることが できるようになる ※ハルシネーションとは AIや言語モデルが事実とは異 なる情報や存在しないデータ
を生成する現象 未学習データ の出力 社内データやインターネット 上にない情報をLLMに回答さ せることが可能になる QAボットや問い合わせボッ トなど専門性が求められるも のに使用することができる
04 RAGの仕組み ユーザー チャット アプリケーション ベクトルDB LLM ① 質問 ⑥
回答 ② 検索 ③ 結果取得 ④ プロンプト ⑤ 回答作成
04 RAGの仕組み
04 RAGの仕組み(ベクトルDBデータ作成) チャンク分割 エンべディングモデル
ベクトルDB エンべディング モデル チャンク分割 ドキュメントの 形式・質 05 精度向上の変数 組み合わせは星の数ほど存在する
ベクトルDB エンべディング モデル チャンク分割 ドキュメントの 形式・質 05 精度向上の変数 組み合わせは星の数ほど存在する
生成AI 固定長チャンク 階層チャンク 文ベースチャンク MoGG セマンティック チャンク ベクトルDB エンべディング モデル
チャンク分割 マルチモーダル RAG 01 チャンク分割の立ち位置 プロンプト エンジニアリング RAG 生成AIツール エージェント
06 チャンクとは? データを小さな「かたまり」に分けて効率的に 検索や処理ができるようにするための手法
07 チャンクの必要性 コンテキストウインドの限界 コンテキストの情報精度の限界
07-1 コンテキストウインドの限界 LLMには、一度に処理できるテキスト量に制限 がある。テキストを小さなチャンクに分割する ことで、LLM は情報をより効率的に処理する ことができます。 LLMには、一度に処理できるテキスト量に制限がある。 テキストを小さなチャンクに分割することで、 LLM
は情報をより効率的に処理することが可能。
07-2 コンテキストの情報精度の限界 LLM が一度に全体のテキストを処理できたとしても、 文書全体のコンテキストを維持するのが難しい。 テキストを特定のアイデアやセクションに焦点を当てた チャンクに分割することで、LLM はテキストの異なる 部分間の関係をよりよく理解することが可能。
08 チャンクの種類 セマンティック チャンク MoGG 固定長チャンク 階層チャンク 文ベース チャンク
08-1 固定長チャンク 一定の文字数やトークン数でテキストを分割する方法 概要 メリット 実装が簡単で、計算資源が少なくて済む デメリット テキストの構造を考慮しないため、文の途中で切れることがある
08-1 固定長チャンク
08-2 セマンティックチャンク 意味的に関連するテキストを一緒に保持する方法 概要 メリット 情報の意味を保持し、検索精度を向上させる デメリット 計算コストが高く、実装が複雑
08-2 セマンティックチャンク
08-3 階層チャンク ⼤きな階層と⼩さな階層でチャンクに親⼦関係を持たせる 概要 メリット 検索時は⼦チャンク、回答⽣成時には親チャンクを利⽤するため、検索・回答⽣成 の両⽅の精度を向上させる デメリット 親⼦関係をネスト化した構造を定義する必要があるため前処理が大変
08-3 階層チャンク
08-4 文ベースチャンク 文の区切り(ピリオドや感嘆符、疑問符、日本語の場合には句読点など)で分割する 概要 メリット 文の意味を保持したまま分割することができる デメリット 文章が離れている場合、精度が下がる
08-5 参照ドキュメントをグラフ化することで、離れた場所にある関連情報を効率的に取 得できる 概要 メリット 他ファイルを参照している場合や、注:などの近くに情報がないナレッジに有効 デメリット 実装コストが高い 引用:https://arxiv.org/abs/2406.00456 MoGG(Mix-of-Granularity-Graph)
08-5 MoGG(Mix-of-Granularity-Graph)
08-5 MoGG(Mix-of-Granularity-Graph) ① 文書を1-2文程度のチャンクに分割
ユーザー 08-5 MoGG(Mix-of-Granularity-Graph) ② 質問文に近い内容のチャンクを取得 例)インボイス制度とは? 近い意味のチャンクのみ取得
08-5 MoGG(Mix-of-Granularity-Graph) ③ 取得したチャンクでグラフを作成
08-5 MoGG(Mix-of-Granularity-Graph) ④ 質問文の難易度によってLLMに渡す情報を数を決定
08-5 MoGG(Mix-of-Granularity-Graph) ⑤ 取得したチャンクをLLMに投げる
T H A N K Y O U