Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介 "My Mouse, My Rules - Privacy Issues of Be...

e_ntyo
April 24, 2021

論文紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking"

IR Reading 2021 Springで使った資料です
https://sigir.jp/post/2021-04-24-irreading_2021spring/

e_ntyo

April 24, 2021
Tweet

More Decks by e_ntyo

Other Decks in Science

Transcript

  1. 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral

    User Profiling via Mouse Tracking" (CHIIR2021) 株式会社 HERP ⻑瀬幸翼 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 1
  2. おことわり / Notice この資料は、ACM SIGIR Tokyo 主催の「IR Reading 2021 春」という勉強会おい

    て、⽇本語で海外論⽂の解説を⾏うために作成された資料です 本資料において引⽤されている⽂章および図表の著作権は、すべて元論⽂の著者 らに帰属します Luis A. Leiva, Ioannis Arapakis, and Costas Iordanou. 2021. My Mouse, My Rules: Privacy Issues of Behavioral User Profiling via Mouse Tracking. In Proceedings of the 2021 Conference on Human Information Interaction and Retrieval (CHIIR '21). Association for Computing Machinery, New York, NY, USA, 51–61. DOI:https://doi.org/10.1145/3406522.3446011 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 2
  3. 発表の構成 1. この論⽂の貢献 2. 研究背景 3. 関連研究 4. 被験者実験 5.

    議論 6. 所感 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 4
  4. 研究背景 > Web ブラウジングにおけるプライバシー Web において、ターゲティング広告などによるユーザのプライバシー侵害が問題 となっている Mozilla Firefox で⼈気のあるブラウザ拡張機能のほとんどは、広告ブロックとユー

    ザのプライバシーに関連したもの https://addons.mozilla.org/en-US/firefox/search/? promoted=recommended&sort=users&type=extension こうした拡張機能は、サイト運営者の収益に悪影響を及ぼし、ユーザと運営 者のどちらにとっても良くない(Tragedy of the Commons ) 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 6
  5. 研究背景 > 広告業界やブラウザベンダーなどの取り組み トラッキング規制のための、広告業界の⾃主的な取り組みは? グッドプラクティスの推奨[18] 特定の広告を受け取る理由をユーザに理解してもらうための AdChoices[2] プライバシー保護のための Web ブラウザ(Braze

    など) は、ユーザーがオンライン 上のプライバシーをよりコントロールできるようにすると同時に、ネットサーフ ィン中に受け取る広告によって⾦銭的なインセンティブを得ることができる 2018 年には、欧州連合が新しい⼀般データ保護規則(GDPR )を定め[96] 、⽶国 のカリフォルニア州が消費者プライバシー法を施⾏[73] 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 7
  6. 研究背景 > ユーザのトラッキングとプロファイリングの⼿法 Web トラッキングとユーザプロファイリングは、ユーザのオンライン⾏動を⼀意 に識別し、⻑期間にわたって追跡するメカニズムに依存 ジオロケーション、訪問したページ、検索キーワード、ソーシャルネットワ ークでの⾏動ログなど あまり知られていない⽅法として、マウスカーソルのトラッキングによるユ ーザーのプロファイリングがある

    この技術は,ユーザビリティテストへの情報提供[10] ,ユーザのエンゲー ジメント[5] とインテント[32, 66] の予測,検索者のフラストレーションの 検出[30] ,Web ページの⼀部に対するユーザの注⽬度の推測[6] などのタ スクに利⽤されている 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 8
  7. 関連研究 > マウスカーソルの動きからの⼈⼝統計学的推論 ⼭内ら[104] は,短い映画を⾒ているユーザの性別や経験した感情を,マウスカー ソルの動きでどの程度特定できるかを調査 この研究は、⾼度なオンライン‧ユーザ‧プロファイリングのためのマウ ス‧カーソル‧データの有⽤性に関する初期の証拠を提供 Kratky ら[50]

    は,電⼦商取引サイトのマウスカーソルの動きを記録し,ユーザの 性別と年齢層を予測するための⼀連のメタ特徴を作成 参加者ごとに数⽇分のデータを⽤いて学習 訓練⽤とテスト⽤のコレクションは参加者のセットが別々 研究者がグランドトルースデータを検証できなかったため,報告された 結果は過度に楽観的[50] 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 10
  8. 被験者実験 > 概要(1) Google 検索の SERP 上でのユーザのマウスムーブのデータセットを構築するた め、被験者実験を実施 実験の流れは以下の通り i.

    タスク前のガイドライン ii. ウェブ検索タスク iii. タスク後のアンケート 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 12
  9. 被験者実験 > 検索クエリ 検索クエリは、すべて Google 検索の⼈気クエリのプールから選ばれ、参加者に ランダムに配布された ショッピングやサービスの検索など、ウェブを媒介とした活動や取引を⾏う 検索意図を⼤まかに表すカテゴリ 検索クエリを使⽤して、対応する

    Google SERP の静的バージョンを作成してお く これに JavaScript コードを注⼊し、被験者のページ上でのイベントをすべて 取得 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 14
  10. 被験者実験 > バイアスの考慮 参加者は、元の SERP のルック&フィールを変更しない専⽤のサーバを介して、 計測対象の SERP にアクセス 各参加者は検索タスクを⼀度だけ実⾏することで、キャリーオーバー効果の可能

    性を回避し、次の検索タスクでの閲覧⾏動に影響を与えないよう留意 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 15
  11. 被験者実験 > JavaScript によるマウストラッキング マウストラッキングのための実装には、smt2 マウス‧トラッキング‧システムか ら派⽣したオープンソースの JavaScript イベント‧トラッキング‧ライブラリで ある

    EvTrack6 を使⽤[59] MouseMoveEvent を 150 ミリ秒ごとに捕捉するほか、その他のすべてのブラウ ザ‧イベント(ロード,クリック,スクロールなど)も捕捉しておく イベントが記録されるたびに、マウスカーソルの位置(xy 座標)、タイムス タンプ、イベント名、イベントに関連する DOM 要素の XPath 、DOM 要素の 属性(もしあれば)などの情報が記録された 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 16
  12. 被験者実験 > 事後アンケート ユーザの性別‧年代‧⺟国語を調査 i. あなたの性別を教えてください [ 男性, ⼥性, ⾔いたくない]

    ii. あなたの年齢層を教えてください [18-23, 24-29, ..., 60-65, +66, ⾔いたくな い] iii. あなたの⺟国語は何ですか? [ プルダウンリスト / ⾔いたくない] 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 17
  13. 被験者実験 > 被験者の募集 クラウドソーシングサービス「Figure Eight 」から参加者を募集 参加者は、国籍も教育歴もさまざま 参加者は全員、英語が堪能で、経験豊富なレベル 3 の参加者

    過去にさまざまな種類のタスクを成功させた実績があり、信頼性が⽐較的⾼ い 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 18
  14. 被験者実験 > インストラクション 参加者は、本研究の条件をよく読むように指⽰された デスクトップまたはラップトップコンピュータからコンピュータマウスを使 ってタスクを実⾏すること - タッチパッド、タブレット、モバイルデバイス の使⽤は不可 参加者は、⾃然に⾏動し、与えられた検索クエリの答えになるものなら何でも選

    ぶように求められた SERP 上の「クリックできる」要素(結果のリンク、画像など)はすべて有 効な答えとみなされるため 「あなたは< 名詞> を買いたい(⾃分または他⼈へのプレゼントとして)ので、 Google 検索に< 名詞> という検索クエリを送信しました」といった簡単な検索タス クの説明 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 19
  15. マウスムーブからのユーザ素性判定タスク > データセットの構築 デモグラフィック情報を提供しなかったユーザと、マウスの動きのデータが少な いユーザー(マウス座標が 10 個以下、これはユーザーインタラクションデータの 約 2 秒に相当)を除外した後、1,467

    件の検索セッションを⼊⼿ 平均的なマウスカーソルの軌跡の⻑さは,25.2 座標(SD=18.7 ,min=11 , max=221 ) データセットを 90:10 の割合でトレーニングとテストに分割 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 20
  16. マウスムーブからのユーザ素性判定タスク > 機械学習モデルの構 築 今回の実験では、現在の機械学習技術と簡単に取得できるマウスカーソルのデー タを利⽤して、ユーザーのプロファイリングメカニズムを実装することがどれだ け可能かを実証することに重点を置いている したがって、簡単にするために、性別と年齢の分類は 2 クラスの問題である

    と仮定 ユーザーの性別または年齢の確率予測 𝑝 を出⼒するモデルを作成 は、ユーザーが多数派のクラスに属することを⽰す(今回のデ ータでは、「男性」と「若い」が多数派のクラス) p > 0.5 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 21
  17. マウスムーブからのユーザ素性判定タスク > 機械学習モデルの構 築 > ベースラインモデル 先⾏研究[78, 104] で提案されたランダムフォレスト分類器を使⽤ マウスカーソルのデータから,⼀連の特徴量(速度,加速度,⾓度,移動距離,

    ホバー,クリックなど)と集約関数(最⼩,最⼤,平均,標準偏差など)を作成 (170 の特徴量) 相関性が⾼く( , )、線形依存性のある特徴を特徴セットか ら除外 特徴量を [0, 1] の範囲で正規化 グリッドサーチを⾏い,最適なハイパーパラメータ値(⽊の数,特徴量の数,𝜖 閾 値,ターミナルノードの最⼩サイズ,ターミナルノードの最⼤数)を決定 r ≤ .80 p < .05 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 22
  18. マウスムーブからのユーザ素性判定タスク > 機械学習モデルの構 築 > RNN モデル マウスの動きは連続的な性質を持っているため、時系列のモデル化に有効な RNN (RNN

    )の特定のタイプをテストする このモデルでは、シーケンス内の各データポイントが前のデータポイントに 依存すると仮定できる 具体的には、⼀般的な⻑短期記憶を簡略化した Gated Recurrent Unit (GRU )記憶を⽤いる ここでは、双⽅向型(BiGRU )を採⽤ 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 23
  19. マウスムーブからのユーザ素性判定タスク > 機械学習モデルの構 築 > RNN モデル RNN は、1つ前の時間ステップの表現しか学習できない ⽂脈をより良く理解するためには、将来の時間ステップから表現を学習しな

    ければならない場合がある BiGRU は、マウスカーソルの位置と時間オフセットの⽣のシーケンスを⼊⼒ とし、これは 3 次元データポイントの多変量時系列と⾒ることができる 隠れ層は,64 個の出⼒ユニットを持つ BiGRU (forward-backward recurrent block )で,双曲タンジェント活性化とシグモイド活性化を⽤いて再帰ステップを ⾏う 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 24
  20. マウスムーブからのユーザ素性判定タスク > 年齢の分類 先⾏研究では、年齢と、コンピュータマウスを使⽤するタスクにおける運動制御 およびポインティングパフォーマンスとの間に関連性を確認[15, 38, 47, 62, 88, 98]

    全体的に、加齢は運動制御能⼒の低下を特徴とする ユーザーのポインティングパフォーマンス、ひいてはコンピュータマウスの 動かし⽅に影響を与える Smith ら[88] は、⾼齢者は若年者に⽐べて、マウスの移動時間が⻑く、副次的 な動作が多く、ポインティングエラーが多いことを観察 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 25
  21. マウスムーブからのユーザ素性判定タスク > 年齢の分類 図 2 は,ユーザの年齢を対象とした分類タスクの結果を⽰している( ユーザーを 2 つの年齢グループ(「18-35 」と「36-66

    」)に分割) これは,ユーザーサンプルに同等の⼆分法を適⽤した先⾏研究 [50, 78] に倣 った 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 26
  22. マウスムーブからのユーザ素性判定タスク > 年齢の分類 RF モデルは F-measure が 0.531 ,ROC -

    AUC が 0.528 であったのに対し, BiGRU は F-measure が 0.653 ,ROC - AUC が 0.712 と同種のモデルよりも優れ ていた Bonferroni-Holm 補正した⽐率のペアワイズ⽐較を⾏ったところ,BiGRU を他の 分類器と⽐較した場合,すべての評価指標で統計的有意差(p < .01 ) 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 27
  23. マウスムーブからのユーザ素性判定タスク > 性別の分類 先⾏研究では、性別による感覚運動の違い[23, 53, 105] が指摘されており、例え ば、カーソル移動距離、ポインティング時間、カーソルパターンに⼤きな違いが ある ユーザのマウスカーソルの動かし⽅の性別による違い

    運動制御に関わるコグニティブなメカニズム(知覚的プロセスや空間的プロ セス)の違い 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 28
  24. マウスムーブからのユーザ素性判定タスク > 性別の分類 RF モデルは F-measure が 0.523 ,ROC -

    AUC が 0.489 であったのに対し, BiGRU モデルは F-measure が 0.641 ,ROC - AUC が 0.650 割合のペアワイズ⽐較(Bonferroni-Holm 補正)では,BiGRU と他の分類器を⽐ 較した場合,Recall を除くすべての指標で統計的有意差(𝑝 < .01 ) 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 29
  25. 敵対的⼿法 > 概要 時刻 にマウス移動イベント が起こるたびに、元の座標から半径 以内に離 れた別のマウス移動イベント を挿⼊(加法性ガウスノイズ) ノイズの量

    は、 のランダムな範囲 t et σ et N(0, σ) ′ x 0 ≤ x ≤ σ 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 32
  26. 敵対的⼿法 > 分類スコアの⽐較 理論的には、ランダムな分類器は、2 クラスの分類問題に対して、ROC - AUC ス コア 0.5

    実験結果と⽐較して、分類性能が低下することが予想される BiGRU が RF モデルよりも優れており、⽣のマウスの動きのみに依存しているこ とから、 BiGRU を対象とする 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 33
  27. https://github.com/luileito/mousefaker/blob/main/src/js/mousefaker.js function main() { var domain = window.location.hostname; var enabled

    = options.disallowed.indexOf(domain) === -1; if (!enabled) return; document.addEventListener("mousemove", fakeMove); } function fakeMove(e) { // Don't trigger fake moves for an already simulated move. if (!e.isTrusted) return; var props = { view: window, bubbles: true, cancelable: true, clientX: noise(e.clientX), clientY: noise(e.clientY), screenX: noise(e.screenX), screenY: noise(e.screenY), }; var event = new MouseEvent("mousemove", props); document.dispatchEvent(event); } function noise(pos, sigma) { if (!sigma) sigma = options.noiseValue; var newPos = pos + generateGaussian(0, sigma); if (newPos < 0) newPos = 0; return parseInt(newPos); } // From https://github.com/errcw/gaussian/ function generateGaussian(mean, std) { var _2PI = Math.PI * 2; var u1 = Math.random(); var u2 = Math.random(); var z0 = Math.sqrt(-2.0 * Math.log(u1)) * Math.cos(_2PI * u2); var z1 = Math.sqrt(-2.0 * Math.log(u1)) * Math.sin(_2PI * u2); return z0 * std + mean; } 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 36
  28. 議論 > ブラウザユーザが⾃⾝のデータをコントロールするために ウェブを閲覧中にマウスカーソルのトラッキングを避けることは⾮常に困難 Incognito モードでも、JavaScript を有効にしていなくても追跡される[42] 実験結果から、⾮常にシンプルな機械学習の実装によって、⼈々の性別や年齢を 不注意に推測できる可能性が判明 今後、ブラウザユーザが⾃分の(マウスの)データをコントロールできるよ

    うにしていきたい 必要な機能のみにアクセスを制限する Google Chorme の ``Privacy Budget'' センシティブな API へのアクセスを必要とする場合には、ユーザーに明⽰的な同 意を求めるように ユーザーを追跡する場合、個々のユーザーではなく、カテゴリーごとに⾏うべき 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 37
  29. 議論 > 研究の限界と展望 今回はコンピュータのマウスで発⽣した動きを分析したため、タブレットやスマ ートフォンではうまくいかない マウスカーソルの位置ではなく、ズーム/ ピンチのジェスチャーやスクロール の動きを追跡するなど、タッチベースのインタラクションを考慮 今回の分類モデルは SOTA

    を達成することに重点を置いていない より多くの再帰層を積み重ねたり(より深いモデル)、隠れニューロンの数 を増やしたり(より広いモデル)する余地あり W3C コンソーシアムは、「trusted events 」という概念を導⼊ 今回の敵対的⼿法は JavaScript を介してプログラム的にマウスカーソルの歪 みをイベントとして追加するものなので、今後使えなくなる可能性 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 38
  30. 所感 あまり IR っぽくない研究(セキュリティ?)で⾯⽩いトピックだと思った IR の分野では SERP において Eye Tracking

    をしたりしているが、その上でプラ イバシーの配慮が必要だなと感じた 当然ある程度されているとは思うが Web ブラウザのカメラやマイクへのアクセスはユーザの許可なしでは不可能だが (Navigator API) 、マウスムーブは普通に取得‧サーバに送信できてしまうと思う ので怖い 2021.04.24 | 論⽂紹介 "My Mouse, My Rules - Privacy Issues of Behavioral User Profiling via Mouse Tracking" | ⻑瀬幸翼 39