SoftMatcha 2: 1兆語規模コーパスの超高速かつ柔らかい検索

SoftMatcha 2 1兆語規模コーパスの超高速かつ柔らかい検索東京大学修士 2 年米田優峻 (@e869120)

自己紹介 2 米田優峻 / E869120 • 2021 年東京大学入学 •
2023 年東京大学理学部情報科学科に進学 • 2025 年修士課程に進学主な実績大学対抗プログラミングコンテスト (ICPC) ‘25 世界大会 2 位著書累計 10 万部突破

諸注意 • 本講演資料は、言語処理学会 2026 での口頭発表 (3/10)、および NLP コロキウムでの発表
(4/1) で用いた資料をより分かりやすく修正したものとなります。 • 情報科学に関心のある高校生でも理解できるように書いたので、ぜひお読みいただければと思います。 • なお、論文は https ://arxiv.org/pdf/ 2602 .10908 にあります 3

はじめに 4

はじめに • SoftMatcha 2 は、 1 兆語規模の大規模なテキストデータ (このようなデータをコーパスと言います )
の中から高速に類似語検索を行うツールです • まずは、次ページのデモをご覧ください 5

オリンピック金メダルと検索すると … → 0.05 秒で類似語が表示！

書き方の多様性と検索 → 同様に類似語が表示！

もっと長い文字列でも、一瞬で類似語が表示！

さらに、具体的な用例も表示できる！

これが今回作成した SoftMatcha 2 となります

背景 11 文字列検索は以前から大きなニーズがありその大きな理由として、応用範囲が広いことが挙げられる情報検索 (Google 等) LLM の意図せぬ挙動の追求
ベンチマーク汚染の検出

しかし、既存の文字列検索では … 12 規模と利便性の両立が困難！

既存の検索ツール 13 誤解を恐れずに書くと、既存の検索ツールは 2 つに大別概要手製爆弾の場合の検索例利点・欠点完全一致検索
あいまい検索

既存の検索ツール 14 概要手製爆弾の場合の検索例利点・欠点完全一致検索完全一致のみを出力手製爆弾
あいまい検索誤解を恐れずに書くと、既存の検索ツールは 2 つに大別

既存の検索ツール 15 概要手製爆弾の場合の検索例利点・欠点完全一致検索完全一致のみを出力手製爆弾
あいまい検索意味や表記揺れも検出手製爆弾手製爆薬 (類語) 手製の爆弾 (挿入) 誤解を恐れずに書くと、既存の検索ツールは 2 つに大別

既存の検索ツール 16 誤解を恐れずに書くと、既存の検索ツールは 2 つに大別しかし、規模と利便性を両立したものはない！概要手製爆弾の場合の検索例利点・欠点
完全一致検索完全一致のみを出力手製爆弾 1 兆語規模になるが類似語検索できないあいまい検索意味や表記揺れも検出手製爆弾手製爆薬 (類語) 手製の爆弾 (挿入) 類似語検索できるが 10 億語規模が限界 ※密ベクトル検索は例外だが、非常にゆるい結果が返ってくるので、利便性に劣る

本研究の貢献 17 そこで本研究では、新たな手法を提案し類似度上位 20 件のあいまい検索で兆語で秒を達成！

手法 18

類似度の定義 • 類似度上位 20 件の単語を出力するには、パターン間の類似度を定義する必要がある 19

類似度の定義 • 類似度上位 20 件の単語を出力するには、パターン間の類似度を定義する必要がある • 類似度はどのように定義するか？ →単語間類似度を使おう！ 20

知識: 単語間のコサイン類似度 • 単語間の類似度を求める方法として、コサイン類似度がある 21 コサイン類似度とは (1/2) 単語には、意味の関係性を右図のようにベクトルで表したものがあり
、単語ベクトルといういちごみかん野菜地震台風のは

知識: 単語間のコサイン類似度 • 単語間の類似度を求める方法として、コサイン類似度がある 22 コサイン類似度とは (2/2) 単語には、意味の関係性を右図のようにベクトルで表したものがあり
、単語ベクトルというその単語ベクトルの角度の cos 値をコサイン類似度という角度が小さいほど cos 値が高く、類似度が高いいちごみかん野菜地震台風のはコサイン類似度 0.92

類似度の定義 23 まずは「 1 文字パターン」の類似度から考えよう 1 文字の単語の類似度は、当然単語間類似度と同じ日本アメリカ 0.67
67 % 類似度単語間類似度

類似度の定義 24 しかし、 2 単語以上でどうするかという問題がある → 概ね「類似度の最小値 ※」を計算結果とするオリンピック金メダル
五輪銀メダル 0.81 79 % 類似度 0.79 ※今回の場合、 0.79 と 0.81 の最小値である 79% を採用

類似度の定義 25 ただし、その方法では最小の単語以外の影響が反映されないので実際には softmin を使う (後述; 79% ではなく 73%
になる ) オリンピック金メダル五輪銀メダル 0.81 73 % 類似度 0.79

類似度の定義 26 挿入削除がある場合は、単語ごとにペナルティを掛ける情報量のない単語 (“の” など ) ほど影響が小さいオリンピック金メダル
五輪の銀メダル 0.81 51 % 類似度 0.79 挿入 0.7 倍 73% ×0.7 倍

補足: softmin とは何かここで、 softmin は最小値を少し柔らかくしたもの • イメージとしては以下 • [80%,
100%, 100%] の softmin は 80% ( 他が 100% だと最小値と同じ ) • [80%, 85%, 90%] の softmin は少し下げた約 74% • [80%, 80%, 80%] の softmin は更に下げた約 69% 厳密には、以下の式で表される (𝛼 = 104 に設定) 27 𝑠𝑜𝑓𝑡𝑚𝑖𝑛 𝑥1 , … , 𝑥𝑚 = 1 − log𝛼 1 + ෍ 𝑖=1 𝑚 𝛼1−𝑥𝑖 − 1

補足:なぜ softmin か？ 28 単純な合計 softmin 単純な min 1 単語が全然違っても
上位に来てしまう類似度がバランスよく反映される最悪の単語以外の差が反映されない 1 単語でどれくらい決まるか低高クエリ : Player 1 上位: Best 1 クエリ : Gold Medal Gold Medals Silver Medals 同類似度

そこで、どうやって類似度の高いパターンを検索するのか？

手法の概要 30 まず、類似度が一定以上の単語を列挙 (閾値は上位 20 件ちょうど取れそうな値に設定 ) 1 類似度 50%
以上のパターンを列挙 2 完全一致検索で存在を判定 3 20 件あれば終了なければ閾値下げ • 完全自動運転 • 完全手動走行 • ほぼ自動運転 • 全て自動的運転完全自動運転完全手動走行ほぼ自動運転全て自動的運転 50% 47% 完全自動運転の検索例

手法の概要 31 次に、パターンの候補についてコーパス内に存在するかどうかを、完全一致検索で判定 1 類似度 50% 以上のパターンを列挙 2
完全一致検索で存在を判定 • 完全自動運転 • 完全手動走行 • ほぼ自動運転 • 全て自動的運転完全自動運転完全手動走行ほぼ自動運転全て自動的運転 3 20 件あれば終了なければ閾値下げ 50% 47%

手法の概要 32 もし 20 件以上得られれば、それを類似度順にを出力そうでなければ、閾値を下げて手順 1 からやり直し 1 類似度
50% 以上のパターンを列挙 2 完全一致検索で存在を判定 3 20 件あれば終了なければ閾値下げ • 完全自動運転 • 完全手動走行 • ほぼ自動運転 • 全て自動的運転完全自動運転完全手動走行ほぼ自動運転全て自動的運転 50% 47%

しかし、その方法を単純に使うと … 手順 1 で列挙するパターンの数が多すぎる！

しかし、その方法を使うと …？ 34 上位 15 件の類似語※ だけでも、 3 単語で 15
×15 ×15 = 3375 通り → 毎秒 1000 回の完全一致検索が出来ても 3 秒かかる！完全すべて全て無欠ほぼ自動自動的無人瞬時手動運転運行走行教習同乗 ※厳密には softmin なので微妙に違うが、簡単のため各単語上位 15 件の組み合わせを列挙する場合を考える

しかし、その方法を使うと …？ 35 4 単語になると、 15 ×15 ×15 ×15 =
約 5 万通り → 毎秒 1000 回の完全一致検索が出来ても 1 分かかる！人工知能の開発人為知能人造天然人間並知性頭脳人間はでからその研究製造建設改良

しかし、その方法を使うと …？ 36 5 単語になると、 15 ×15 ×15 ×15 ×15
= 約 76 万通り → 毎秒 1000 回の完全一致検索が出来ても 13 分かかる！情報化社会の実現はでからその最新耳寄り有益関連具現顕在弱体細分福祉政治経済通念叶い達成両立追求

そこで、本研究では逐次的枝刈りという独自の工夫を採用

逐次的枝刈りの例 38 手順 0 今回は、完全自動運転と検索した場合の例を考える

逐次的枝刈りの例 39 手順 1 単純にやると、まず類似度一定以上の候補を列挙して … 完全ほぼ無欠完全
手動ほぼ手動無欠手動完全自動的完全自動ほぼ自動的ほぼ自動無欠自動的無欠自動完全自動運転完全自動走行完全手動運転完全手動走行完全自動的運転完全自動的走行ほぼ自動運転ほぼ自動走行ほぼ手動運転ほぼ手動走行ほぼ自動的運転ほぼ自動的走行無欠自動運転無欠自動走行無欠手動運転無欠手動走行無欠自動的運転無欠自動的走行

逐次的枝刈りの例 40 手順 2 そして、各候補について、コーパスに存在するかを判定完全一致検索をたくさん行う必要がある！完全ほぼ無欠完全
手動ほぼ手動無欠手動完全自動的完全自動ほぼ自動的ほぼ自動無欠自動的無欠自動完全自動走行完全手動運転完全自動的運転完全自動的走行ほぼ自動運転ほぼ自動走行ほぼ手動運転ほぼ手動走行ほぼ自動的運転ほぼ自動的走行無欠自動運転無欠自動走行無欠手動運転無欠手動走行無欠自動的運転無欠自動的走行完全自動運転完全手動走行

そこで、逐次的枝刈りでは 1 文字ずつ調べていく

逐次的枝刈りの例 42 手順 1a まず、 1 単語目「完全」の類似語を列挙完全ほぼ無欠

逐次的枝刈りの例 43 手順 1b 完全一致検索を行い、コーパスにないものを消す完全ほぼ無欠

逐次的枝刈りの例 44 手順 2a 次に、 2 単語目「完全自動」までの類似語を 1 単語目から伸ばして列挙完全
ほぼ無欠完全手動ほぼ手動完全自動的完全自動ほぼ自動的ほぼ自動

逐次的枝刈りの例 45 手順 2b 完全一致検索を行い、コーパスにないものを消す完全ほぼ無欠完全手動
ほぼ手動完全自動的完全自動ほぼ自動的ほぼ自動

逐次的枝刈りの例 46 手順 3a 完全ほぼ無欠完全手動ほぼ
手動完全自動的完全自動ほぼ自動的ほぼ自動完全自動走行完全自動運転完全手動走行完全手動運転ほぼ自動走行ほぼ自動運転次に、 3 単語目「完全自動運転」までの類似語を 2 単語目から伸ばして列挙

逐次的枝刈りの例 47 手順 3b 完全ほぼ無欠完全手動ほぼ
手動完全自動的完全自動ほぼ自動的ほぼ自動完全自動走行完全自動運転完全手動走行完全手動運転ほぼ自動走行ほぼ自動運転完全一致検索を行い、コーパスにないものを消す

考えるべきパターンの数が大幅に減った！

その他の工夫として完全一致検索自体の高速化も実施

完全一致検索自体の高速化 • 完全一致検索の高速な解法として、接尾辞配列が知られている • しかし、単純な実装では、
ディスク上のランダムアクセスが数十回※ 必要 (1 兆語規模ではデータがメモリに収まらず、アクセスが遅いディスクに載せる必要がある！) • そこで今回は、独自の 2 段階のページング法を利用し、ランダムアクセスを事実上 1 回に削減！ 50 ※厳密には、コーパスサイズ n に対して log n 回。 1 兆語の場合は約 40 回

実験方法

実験設定コーパス • FineWeb -Edu (1.4 兆語) を中心に、複数言語で実験環境 •
AWS i4i.32xlarge を使用 (128 コア／ 1024GB RAM ／30TB SSD) テストデータ • 英語 400 ケース、その他各 100 ケース (いずれも最大 10 単語) • 実行時間の平均値／ワースト 5% を測定 52

結果

検索例 54 文字列類似度 olympics gold medalist 100.0% olympics gold
medallist 89.1% olympic gold medalist 86.4% olympics silver medalist 84.8% : 文字列類似度東京から大阪までの 2時間半 100.0% 東京から大阪までの2時間半 87.5% : 東京から仙台までが 13時間半 52.3% : まず、上の例の通り、類義語や挿入・削除を含めた単語が英語・日本語の両方で出力できている

検索時間 (1/3) 55 検索時間は、 FineWeb -Edu (1.4 兆語) に対して 0.090
秒中央値 0.278 秒ワースト 5%

検索時間 (2/3) 56 左に示す通り、コーパスサイズが増えても実行時間はほぼ一定 (日本語・中国語でも同様の結果※)
既存手法を大きく圧倒 • 通常モードは、 500 億語でメモリ超過 (1024 GB にすら収まらず ) • ディスクモード比 600 倍以上高速化 ※詳細は p.3 の arXiv 論文を参照

検索時間 (3/3) 57 さらに、完全一致検索の時点でも既存手法 (EMNLP ‘25 best paper) を圧倒
0.3 ミリ秒提案手法 11.1 ミリ秒 Infini -gram ※1 ミリ秒 = 0.001 秒

応用実験

応用実験 • SoftMatcha 2 では非常に高速かつ便利な検索ができる • しかし、それだけでなく、
情報検索や大規模言語モデル、生成 AI への応用可能範囲も広い 59

ベンチマーク汚染とは？応用実験 • 今回は応用実験の 1 つとして、大規模言語モデル (LLM) の評価
に利用されているベンチマークの汚染を調査 60 ChatGPT のような生成 AI の開発では、学習用データとしてコーパスが用いられるが、そのコーパスの中に (ベンチマークの ) 問題がほぼそのまま入っていることがある →その場合、実質カンニング状態になる。これをベンチマーク汚染という

応用実験 • 今回は応用実験の 1 つとして、大規模言語モデル (LLM) の評価に利用されているベンチマークの汚染を調査
• これまでは、完全に一致している汚染しか検出されず • 果たして、微妙な表現の違いや挿入削除 (コンマの有無など ) を含めた汚染を検出することが出来るのか？ 61

結果 62 7 種類のベンチマーク 2,564 問中完全一致汚染 338 件に加えて 18
件類似汚染 11 件数値替えを 8割超※ の的中率で発見 ※汚染と判定した 36 件のうち、実際の汚染が 29 件 (18+11) 、擬陽性が 7 件。グラフは arXiv 論文参照

面白い汚染の例 1 MMLU ベンチマーク • 問題文: The difference between dc
and ac in electric circuits is that in dc, charges flow • コーパス : The difference between DC and AC in electric circuits is that in DC, charges flow in one direction . in が抜けていて、直後に答えが書いてある！ 63

面白い汚染の例 2 MATH ベンチマーク • 問題文: The sum of two
numbers is 25 and their difference is 11. What is the larger of the two numbers? • コーパス : The sum of two numbers is 139 while their difference is 19 . What is the larger of two numbers? (以降答えが続く ) 数値が変わっているが、問題自体は同じ！ 64

まとめ

講演のまとめ • 本研究では、生成 AI の学習データとして用いられるような 1 兆語規模コーパスの中から、
高速に類似語検索を行うツールである SoftMatcha 2 を作成した • 1.4 兆語データで検索時間 0.3 秒未満を達成 • さらに、応用実験としてベンチマーク汚染の実験を行った 66

最後に • 本研究では、 2,000 億語規模のデモが公開されています • 爆速が体感できます。ぜひご体
験ください！ 67

SoftMatcha 2: 1兆語規模コーパスの超高速かつ柔らかい検索

SoftMatcha 2: 1兆語規模コーパスの超高速かつ柔らかい検索

Other Decks in Research

Featured

Transcript