いい天気で… 3,1,4,1,5,9,… 洗濯物がび しょ濡れで… 2,6,5,3,5,8,… 吹雪で⽴ち往 ⽣して… 9,7,9,3,2,3,… 海で⽇差しが 眩しくて… 5,3,6,0,4,8,… 数字の羅列に 特化した 検索の仕組み 「晴れの⽇の話」で検索 「4,2,5,0,4,8,…」で検索 「3,1,4,1,5,9,…」と 「5,3,6,0,4,8,…」が近い ⽂を数字の羅列に凝縮する仕組みを流⽤して変換※1 「今⽇は朝からいい天気で…」と 「海で⽇差しが眩しくて…」がヒット︕ 対応する元の⽂章を確認 意味の把握に必要な情報の凝縮も その検索も 既存の流⽤で実現︕※2 ※1 ⽂章を凝縮してベクトルに変換することを、「⽂章の埋め込み」(text embedding)と呼びます。多⾔語に対応する仕組みの場合は、同じ意味なら⽇本語のベクトルも英語のベクトルも中国語のベクトルも近い関係になります。 ※2 これまでの⽂章の検索は「全⽂検索」の利⽤が⼀般的でしたが、字⾯が違いすぎたり表現が違いすぎたりすると意味の似た⽂章を検索できませんでした。⽂章の埋め込みとベクトル検索の組み合わせはこの弱点を補えるものとして⾮常に期待されていますが、 ⽂章の埋め込みに使う仕組みが情報を適切に凝縮できない⽂章は検索できないので、決して万能ではありません。そのため、複数の検索の仕組みを組み合わせたり、検索結果の並びを調整する仕組みと組み合わせたりする⼯夫が重要になっています。