Via Term Impact Decomposition (Findings of EMNLP 2022) Joel Mackenzie (University of Queensland), Antonio Mallia (Amazon Alexa, Italy), Alistair Moffat (University of Melbourne), Matthias Petri (Amazon Alexa, USA) URL: https://aclanthology.org/2022.findings-emnlp.205/
以上の⽂書が k 個以上存在するか?で決まる • ⾃明な閾値は 𝜃 = 0 ◦ より良い閾値を事前に決めることでより多くの⽂書をスキップできるので ⾼速化が可能(Priming) • リスト分割で利⽤可能な閾値 ◦ これはなぜ安全な閾値か? • 閾値をある単語 t の Low List の単語重要度の最⼤値と取ったとする • このとき閾値以上の⽂書集合は,単語 t のHigh List に含まれる⽂書集合を含む • 閾値の取り⽅から,単語 t のHigh List に含まれる⽂書集合は k 以上であるため, この閾値は安全 リスト分割における閾値の初期化(Priming) 49 Low List の 単語重要度の最⼤値 クエリ 𝑄 中の 単語 𝑡 High List の⻑さが k 以上 単語重要度の最⼤値 正確には min(k, |検索結果の⽂書集合|) 個以上