文献紹介: ch2-Information Access Fundamentals of "Fairness and Discrimination in Information Access Systems"
HCIRリサーチユニット輪読会 2021
にて紹介した Fairness and Discrimination in Information Access Systems 第二章 Information Access Fundamentals のスライドです.基本事項が中心なので既に情報検索・推薦をご存じの方にはスキップ可能な内容ですが,もし基本を復習したい方がいらっしゃれば参考になれば幸いです.不適切な記述などがあればご指摘頂ければ嬉しく存じます.
アイテム d (∈D) の表現 𝜙! (𝑑) o e.g. 学術論⽂のテキスト,画像のピクセル,楽曲のオー ディオファイル • メタデータ o アイテム d (∈D) のメタデータの表現 𝜙" (𝑑) o e.g. 作成者,ジャンル (⼈⼿/⾃動),アクセス数,⼈気 • 使⽤データ (usage data) o アイテム d (∈D) の使⽤データの表現 𝜙# (𝑑) o アイテムと情報要求のインタラクション • e.g. アイテムの利⽤者,クリックしたクエリ o メタデータとの違い • システムによって起こされるバイアスが⼤きい • 関連性 (relevance) を強く⽰唆している HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 5
q (∈Q) の表現 𝜌!"#$%" (𝑞) • e.g. o ユーザのデモグラフィック属性 o ユーザが過去にアクセスしたアイテム o 局所的表現:ユーザの変動のある特性 • 情報要求 q (∈Q) の表現 𝜌"#&%" (𝑞) • e.g. o あるセッションにおける閲覧履歴 o 検索機能のオプション (「発⾒」モード or 「ムード」 モード) o 階層的検索では両者の分類は流動的 HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 7
o ユーザは推薦システム利⽤時に,web ページや アプリケーションインタフェースのナビゲーショ ンを通じて適合するコンテンツを決める • ユーザの明⽰的/暗黙的フィードバックに よってアルゴリズムの挙動を変える o ⾳楽推薦システムの楽曲スキップ o 対話システムにおけるスロットフィルタリング HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 9
o (明⽰的) アノテーションの分類 • ユーザアノテーションはラベルの曖昧性あり o コンテキスト依存/汎⽤的の判断が困難 • ⾮ユーザアノテーションは低ラベル曖昧性 o ⾮ユーザ = アノテータ o アノテーションのガイドラインを制御可能 o ただし解釈性は低い (?) HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 11
クリック,視聴,購⼊,ブックマークなど o ただし,どのログが有⽤かはドメインに強く依存 • Web 検索ではクリックが有⽤だが画像検索では無⽤ • 瞬間的に評価可能な有⽤性 o クリック,視聴,ブックマークなど o ⻑期的な有⽤性については保証しない • ⽂書のクリック o コンテキスト依存 o ⾼次元のゴールに対して⾼い有⽤性を持つかは不明 • もし⻑期的な有⽤性 (タスク達成,購⼊など) を観 測できれば o 因果推論,強化学習,多⽬的最適化でシステム構築可能 HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 12
いた評価 o ユーザの負荷なく効率的にアルゴリズムの性 能評価が可能 o データとモデルが研究コミュニティで共有さ れれば標準的なベンチマークになれる • TREC など o 情報要求集合に対するアイテムの有⽤性は⼈ ⼿によるアノテーションが伝統的 HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 14
:クエリ q における⽂書 d のスコアリング関数 o 𝜋 𝑞 :確率的スコアリング関数 • 前置き o 以降,情報アクセスの網羅ではなく機械学習に精通してい る⼈に情報アクセスの特殊性を理解するのに重要な項⽬を 説明 • 情報要求を満たすアルゴリズムの設計⽅針 o 情報要求に対して,どのようなデータと⽂書がどのように 提⽰されるのか? o 適合度は直接推定されるのか,最適化を通して学習される のか? o どんな⽬的関数が適合性の最適化に使われるのか? o 最終的なランキングを作成するためにどのように適合度が 推定されるのか? HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 16
(LSA/LSI) o 特異値分解によって低ランク⾏列として表現 • 推薦システムではよく使われる o 観測が少ないため有⽤なアプローチ o 最適化による次元圧縮 • 機械学習モデルによる適合度推定 • 観測と評価値から関数 𝑠 𝑑|𝑑 を学習 o 適合度以外にもクリック率 (CTR) の推定もある HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 18
構造はベクトル空間モデルや埋め込みなど • 推薦,パーソナライズ検索などで利⽤ o スコアリング時に反映される • ユーザのインタラクション履歴から構築 o ただし時間経過とともにユーザの好みは変動 HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 19
再ランキングは多⽤される • ベースとなるランキングモデル適⽤後にランキング学 習の適⽤など o 再ランキングの例 • 多様性 (MMR) 考慮 o ランキングのバランス調整 o 新規 (下位ランクの) ⽂書のスコアは既存 (上位ランク) の⽂ 書と似ていない⽂書ほど⾼スコア o 仮定:ある⽂書が⾮適合なら似た他の⽂書も⾮適合 • 情報推薦における公平性 o 後の章で紹介 • ⼤規模リポジトリに対する効率的な情報アクセス o 計算コストの低いスコアリング⼿法で絞り込み o ⾼コストなスコアリング⼿法で再ランキング HCIR輪読会2021 Ekstrand, et al.「情報アクセスシステムにおける公平性と差別性」2021.06.24 21