文章を検索する仕組み

⽂章を検索する仕組み専⾨⽤語をなるべく使わずに解説してみます @segavvy ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7
1 ※内容・意⾒は私個⼈のものであり、所属企業・部⾨⾒解を代表するものではありません。 RAGやコンテキストエンジニアリングでも⼤切!!

はじめに ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 2 ⽂章の検索といえば
ベクトル検索でしょ︖ 検索もいろいろあるのか…… ⽬的にあわせて考えねば︕ 今 15分後 4章にわけてお話しますよろしくお願いします︕

第1章検索は「道具」適切な道具を選べるようになろう︕ ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7
3

検索は「道具」 • ⽬的は「必要な情報を⾒つける」ことであり「◦◦検索」はそのために使う「道具」 • 状況によって適切な道具は変わる a. ある商品のレビューと似たようなレビューを探したい時レビューの⼀覧を⼆分探索したりはしない b.
商品コードがわかっている商品の在庫数が知りたい時商品DBを全⽂検索したりはしない c. ソースコードから特定関数の呼び出し箇所を列挙したい時ソースコードをベクトル検索したりはしない ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 4

使い分けるために道具を知ろう • 定型データ（数値、⽇付、固定⻑の⽂字列など）の検索道具は基本アルゴリズムとして学ぶ機会が多い線形探索、⼆分探索⽊、ハッシュテーブル、etc. • テキストデータの検索道具は学ぶ機会が少ないベクトル検索
第２章でご紹介全⽂検索第３章でご紹介 ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 5

第1章のまとめ • 検索は必要な情報を⾒つけるための道具 • 状況によって適切な道具は変わるので使い分けが必要 • そのために道具を知ろう︕ 第2章ではベクトル検索の仕組みについてご紹介 ©2025
segavvy 2025/11/27 LangChain Meetup Tokyo #7 6

©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 7 ʢٳܜʣࣗݾ঺հ ͕͑͠Β
͔ͨ͠ ߐ಄ و࢙ !TFHBWWZʢηΨϏʣ גࣜձࣾδΣωϥςΟϒΤʔδΣϯπ "*"HFOU5SBJOJOH4QFDJBMJTU ΋ͷͮ͘Γ΍࢓૊Έͮ͘Γ͕େ޷͖ɻ"*ͷࣾձ࣮૷ʹᬏਐதʂ

第2章ベクトル検索の仕組みテキストデータを「意味」で⾼速に検索する仕組み ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7
8

突然ですが脳をコンピューターでマネする話 1943年に神経⽣理学者・外科医のマカロックさんと論理学者・数学者のピッツさんがタッグを組み脳の神経細胞をコンピューターでマネした仕組みを考案脳をマネすればAIが実現できる︕という奇想天外なアプローチ ©2025 segavvy 2025/11/27 LangChain Meetup
Tokyo #7 9

細胞160個で⼿書き数字が認識できた︕ ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 10 各数字に
対応する細胞の出⼒が強くなる⼊⼒は縦28×横28の点からなる画像（784ピクセル）事前に⼤量の⼿書き数字の画像とその正解のペアを⽤意して調整すれば⼿書き数字を認識する仕組みができる︕

細胞を増やしたら写真の分類もできた︕ ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 11 事前に⼤量の写真とその分類のペアを⽤意して調整すれば
写真を分類する仕組みができる︕

⽂章を数値の羅列に凝縮できる︕ ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 13 事前に⼤量の似ている⽂章・似ていない⽂章を⽤意して調整すれば
似た内容を似た数字の羅列に変換する仕組みができる︕

LangChainでベクトル検索するには LangChainの公式ドキュメント「Build a RAG agent with LangChain」では、ベクトル検索を使ったRAG の実装⽅法が解説されてい
ます ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 17 Build a RAG agent with LangChain h3ps://docs.langchain.com/oss/python/langchain/rag

第2章のまとめベクトル検索の仕組み専⾨⽤語 1 ⼈間の脳をマネした仕組みニューラルネットワーク 2 ⼤量のデータを使って教える作業機械学習（Machine Learning、ML）
3 細胞を⼤量に組み合わせて教え込む仕組みディープラーニング 4 数字の羅列ベクトル 5 ⽂章を数字の羅列に凝縮すること⽂章の埋め込み（text embedding） 6 意味が近いものを近い数字の羅列にする仕組み教師ありSimCSE（supervised SimCSE） ※今回の説明の場合 7 数字の羅列を検索する仕組みベクトル空間モデル、ベクトル検索エンジン 8 数字の羅列を検索できるデータベースベクトルDB、ベクトルストア ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 18

©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 19 ʢٳܜʣୈ̎ষͷݩهࣄͷ͝঺հ ୈষ͸ʮʲॳ৺ऀ޲͚ʳ
ຊ౰ʹΘ͔Γ΍͍͢"*ೖ ໳ʯͷൈਮͰ͢ "*શൠʹ͍ͭͯৄ͘͠ղઆ ͍ͯ͠·͢ͷͰɺ͝ڵຯ͕ ͋Γ·ͨ͠Βͥͻʂ https://qiita.com/segavvy/items/9e7e4ab4b253599ac58a

第3章全⽂検索の仕組みテキストデータを「字⾯」で⾼速に検索する仕組み ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo
#7 20

仕組みは本の索引と同じ索引【あ】あご 3巻 13 ⾜ 4巻 239 頭
2巻 192 【い】胃 2巻 28 【う】腕 4巻 32 うなじ 2巻 129 本は索引を⾒れば⽬的ページがすぐわかる「⾜」については 4巻の239ページ︕ 全⽂検索でも検索するために索引をあらかじめ作っておく︕ ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 21

索引に載せる⾔葉はどう選ぶのか︖ 索引にない⾔葉では検索できないどんな条件でも検索できるように索引を作る必要がある代表的な 2つの作り⽅をご紹介 ◦ ”AI”
は検索できる × “RAG” は索引にないので検索できない⾔葉単語の出現場所 AI ⽂書A（5、15⽂字⽬）⽂書F（... 勉強⽂書A（8、18⽂字⽬）⽂書G（… する⽂書A（3、20⽂字⽬）⽂書B（… ⼈達⽂書A（12⽂字⽬）⽂書D（… ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 22

索引の作成時 1.⽤語辞書（品詞や原形）を使い分解 2.助詞などの不要なものを除去 3.変化しているものを原形へ戻す索引の作り⽅︓①⽇本語解析 A I を勉強した⼈達 A
I 勉強する⼈達検索時検索条件の⽂字に対して同様の処理を実施してから索引を調べる索引を⾒てこれらがすべてあるものを探す A I を勉強した⼈達 A I 勉強し⼈達 A I の勉強 A I 勉強 ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 23

A I を勉強した⼈達 A I を勉強した⼈達 A I を勉強した⼈達 A
I を勉強した⼈達 A I を勉強した⼈達 A I を勉強した⼈達 A I を勉強した⼈達 A I を勉強した⼈達索引の作り⽅︓②単純に切り刻む A I を勉強した⼈達検索時検索条件の⽂字に対して同じ⽂字数で切り出す最後の半端は前の⽂字で⽂字数を合わせる※ 索引を⾒てこれらがすべてあるものを探す索引の作成時 1⽂字ずつずらしながら固定の⽂字数で切り出していく A I の勉強 A I の勉勉強 ※ 切り出し⽂字数が2の場合 ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 24

②単純に切り刻む︓⾔葉の途中が該当東京都府中市は東京京都都府府中中市に分解 “京都”
で検索されてしまう索引の課題 ①⽇本語解析︓解析ミス Honda Cars 東京都は Honda Cars 東京都に分解解析部分を調整したり後処理で不要なものを除いたり両⽅の⽅式を組み合わせたり etc. 正しくはひがしきょうと Honda Cars 東京都 ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 25 “京都” で検索できない “東京” で検索されてしまう

表記のゆれに対応する仕組みゆれを統⼀する表や同義語辞書などを⽤意して処理 1 全半⾓ＡＢＣ = ABC アイウ =
ｱｲｳ 2 ⼤⼩⽂字ＡＢＣ = ａｂｃ ABC = abc 3 ひらがな・カタカナりんご = リンゴみかん = ミカン 4 数字 123 = 一二三 = 百二十三 = ⅠⅡⅢ 5 異体字・新旧字体高 = 髙斉 = 齊辺 = 邊 6 送り仮名引っ越し = 引越し = 引越 7 同義語アメリカ = 米国 = 合衆国 = USA 8 記号ー = ｰ = - = － = ― = ‐ ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 26

LangChainで全⽂検索するには ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 27 ⼩規模なデータをインメモリで検索する場合は
TFIDFRetriever や BM25Retriever が利⽤できますが⽇本語の場合は⾔葉を切り出す処理との組み合わせが必要です https://docs.langchain.com/oss/python/integrations/retrievers/tf_idf https://docs.langchain.com/oss/python/integrations/retrievers/bm25 本格的に利⽤する場合は全⽂検索エンジンや検索機能付きのDBなどとの連携が⼀般的です（例）ElasticSearchBM25Retriever https://docs.langchain.com/oss/python/integrations/retrievers/elasticsearch_retriever

第3章のまとめ全⽂検索の仕組み専⾨⽤語 1 事前に索引を作ること・その索引インデキシング・インデックス 2 索引データ（⾔葉と出現位置の対応表）転置インデックス、転置ファイル 3
索引作成のために対象のデータを集めることクローリング、クロールする 4 ⽇本語の解析処理により⾔葉を切り出すこと形態素解析、分かち書き 5 検索で不要な助詞などの⾔葉を索引から除くことストップワードの除去 6 ⽂章を⼀定の⽂字数で単純に切り刻む⽅式 n-gram（エヌ・グラム） 7 ⽂章の分割ミスなどにより検索に該当しないこと検索もれ 8 ⽂章の分割ミスなどにより間違って該当したデータ検索ノイズ 9 表記ゆれを統⼀したり辞書を使って対応する処理正規化、ステミング、辞書展開 ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 28

©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 29 ʢٳܜʣୈ̏ষͷݩهࣄͷ͝঺հ ୈষ͸ʮ୭Ͱ΋Θ͔Δ
શจݕࡧೖ໳ʯͷൈਮͰ ͢ ΋͏গ͠ৄ͘͠ղઆͯ͠ ͍·͢ͷͰɺ͝ڵຯ͕͋ Γ·ͨ͠Βͥͻʂ https://zenn.dev/segavvy/articles/e97fa8417a0ee3

道具は万能ではないので組み合わせよう︕ 検索＋ランカー検索結果のランキング（ベクトル検索はベクトルの類似度、全⽂検索は BM25などの単語の出現頻度ベースが⼀般的）がイマイチの場合は別のアルゴリズムや外部の情報でリランクする検索＋レコメンドどちらも「利⽤者が必要な情報を提供」という⽬的は同じ利⽤者に合わせた情報や検索では該当しない情報も提供できるベクトル検索＋全⽂検索
ベクトル検索は意味検索が得意で全⽂検索は字⾯の検索が得意両者を組み合わせて良いとこ取りする ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 31

⽬的に合わせて道具を調整しよう︕ 全⽂検索は字⾯に関する調整がしやすい固有の商品名・略称・型番などの同⼀視は同義語辞書で対応法律⽂書や史料における異体字の区別は正規化で調整できるベクトル検索は前処理で⽂章をバラす粒度がポイント内容が混ざると精度が落ちるがバラしすぎると情報が⾜りなくなるページ単位、章単位、段落単位、etc… ランカーによる調整も有効⽇付や参照頻度などの別フィールドによるリランクは⽐較的容易
検索単位とは別でリランクする⼿もある（段落で検索してその親の章でリランクするなど） ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 32

道具だけに頼らず⼯夫しよう︕ たとえば社内のファイルを⾃然⽂で検索したい場合 • ファイルが格納された既存DBのインデックスを流⽤する LLMに⾃然⽂の条件からDB向けのクエリーを⽣成させる • 条件が単語のみだと検索の精度が上がらないので LLMに必要な条件が揃うまで聞き返しをさせる
「RAG」で検索された時「RAGの何を知りたいですか︖」と聞き返す • ⼊⼒されなくても分かっている条件を⾃動的に補う「RAGの概要が知りたい」でも営業職と技術職では欲しい情報が違う所属部⾨と連動させて条件を補完したり対象DBを選択したりする ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 33

第4章のまとめ • 道具は万能ではないので組み合わせよう︕ • 道具を⽬的に合わせて調整しよう︕ • 道具だけに頼らず⼯夫しよう︕ 残念ながらまだ万能な検索道具はない要件に合わせて取捨選択や⼯夫をしましょう︕
©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 34

おわりに ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 35 ⽂章の検索といえば
ベクトル検索でしょ︖ 検索もいろいろあるのか…… ⽬的にあわせて考えねば︕ 15分前今このお話が検索の理解の⼀助になれば幸いですお時間をいただきありがとうございました

文章を検索する仕組み

文章を検索する仕組み

segavvy

More Decks by segavvy

Featured

Transcript

⽂章を検索する仕組み専⾨⽤語をなるべく使わずに解説してみます @segavvy ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7

はじめに ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 2 ⽂章の検索といえば

第1章検索は「道具」適切な道具を選べるようになろう︕ ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7

第1章のまとめ • 検索は必要な情報を⾒つけるための道具 • 状況によって適切な道具は変わるので使い分けが必要 • そのために道具を知ろう︕ 第2章ではベクトル検索の仕組みについてご紹介 ©2025

©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 7 ʢٳܜʣࣗݾ঺հ ͕͑͠Β

第2章ベクトル検索の仕組みテキストデータを「意味」で⾼速に検索する仕組み ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7

細胞160個で⼿書き数字が認識できた︕ ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 10 各数字に

細胞を増やしたら写真の分類もできた︕ ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 11 事前に⼤量の写真とその分類のペアを⽤意して調整すれば

この仕組みは情報の凝縮にも使える︕ ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 12

⽂章を数値の羅列に凝縮できる︕ ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 13 事前に⼤量の似ている⽂章・似ていない⽂章を⽤意して調整すれば

数値の羅列を検索する仕組みはすでにある︕ ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 14

⽂章を凝縮して検索の仕組みに⼊れると… ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 15

⽂章の意味を検索できるようになる︕ ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 16

LangChainでベクトル検索するには LangChainの公式ドキュメント「Build a RAG agent with LangChain」では、ベクトル検索を使ったRAG の実装⽅法が解説されてい

第2章のまとめベクトル検索の仕組み専⾨⽤語 1 ⼈間の脳をマネした仕組みニューラルネットワーク 2 ⼤量のデータを使って教える作業機械学習（Machine Learning、ML）

©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 19 ʢٳܜʣୈ̎ষͷݩهࣄͷ͝঺հ ୈষ͸ʮʲॳ৺ऀ޲͚ʳ

第3章全⽂検索の仕組みテキストデータを「字⾯」で⾼速に検索する仕組み ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo

仕組みは本の索引と同じ索引【あ】あご 3巻 13 ⾜ 4巻 239 頭

索引に載せる⾔葉はどう選ぶのか︖ 索引にない⾔葉では検索できないどんな条件でも検索できるように索引を作る必要がある代表的な 2つの作り⽅をご紹介 ◦ ”AI”

索引の作成時 1.⽤語辞書（品詞や原形）を使い分解 2.助詞などの不要なものを除去 3.変化しているものを原形へ戻す索引の作り⽅︓①⽇本語解析 A I を勉強した⼈達 A

A I を勉強した⼈達 A I を勉強した⼈達 A I を勉強した⼈達 A

②単純に切り刻む︓⾔葉の途中が該当東京都府中市は東京京都都府府中中市に分解 “京都”

表記のゆれに対応する仕組みゆれを統⼀する表や同義語辞書などを⽤意して処理 1 全半⾓ＡＢＣ = ABC アイウ =

LangChainで全⽂検索するには ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 27 ⼩規模なデータをインメモリで検索する場合は

第3章のまとめ全⽂検索の仕組み専⾨⽤語 1 事前に索引を作ること・その索引インデキシング・インデックス 2 索引データ（⾔葉と出現位置の対応表）転置インデックス、転置ファイル 3

©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 29 ʢٳܜʣୈ̏ষͷݩهࣄͷ͝঺հ ୈষ͸ʮ୭Ͱ΋Θ͔Δ

第4章検索道具の選び⽅選び⽅のポイントをいくつかご紹介 ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7

第4章のまとめ • 道具は万能ではないので組み合わせよう︕ • 道具を⽬的に合わせて調整しよう︕ • 道具だけに頼らず⼯夫しよう︕ 残念ながらまだ万能な検索道具はない要件に合わせて取捨選択や⼯夫をしましょう︕

おわりに ©2025 segavvy 2025/11/27 LangChain Meetup Tokyo #7 35 ⽂章の検索といえば