Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Binary and Scalar Embedding Quantization for Si...

Binary and Scalar Embedding Quantization for Significantly Faster & Cheaper Retrieval

Avatar for Shunsuke Kanda

Shunsuke Kanda

May 17, 2024
Tweet

More Decks by Shunsuke Kanda

Other Decks in Technology

Transcript

  1. Binary and Scalar Embedding Quantization for Significantly Faster & Cheaper

    Retrieval Aamir Shakir, Tom Aarsen, and SeanLee https://huggingface.co/blog/embedding-quantization 発表者:Kampersanda
  2. 省メモリ化の方法 1. 次元数削減 • PCA • マトリョーシカ法 • など 2.

    要素圧縮 • Quantization (Binary & Scalar) • など  あとは LSH や Product Quantization などなど 今日のテーマ
  3. Binary Quantization 方法 • 値の符号によって各要素を 0 or 1 に変換 •

    距離計算はハミング距離(異なるビットの数) 以上です
  4. Scalar (int8) Quantization 手順 1. Calibration Dataset から各次元 について min,

    max を算出 2. その範囲で値を 256 等分に  (バケット化) 注意点 • Calibration Dataset は量子化バ ケットを定義するため、性能に 影響する
  5. リランキングによる検索精度改善 [Yamada et al., ACL21] 前提 • データベースには量子化されたベクトルが格納されている 手順 1.

    検索ステップ ◦ クエリ埋め込みを量子化し、量子化されたドキュメントのデータベース に対してベクトル検索 ◦ K件より多めに取ってくる 2. リランキング ◦ 量子化する前のクエリ埋め込みと、量子化されたドキュメントとで内積 を再計算しリランキング