Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Learning to Rematch Mismatched P...

[Journal club] Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室 西牧宙輝 Learning to Rematch Mismatched Pairs for Robust

    Cross-Modal Retrieval Haochen Han1 Qinghua Zheng1 Guang Dai2 Minnan Luo1 Jingdong Wang3 1Xi’an Jiaotong University 2SGIT AI Lab 3Baidu Inc CVPR 2024 Han, H., Zheng, Q., Dai, G., Luo, M., Wang, J. (2024). “Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval.” In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp.26679-26688).
  2. 概要 - 2 - 背景 • ウェブから収集したデータにはPartially Mismatched Pair (PMP)

    が存在する • 既存手法ではPMPの学習への寄与を下げて対処 → データの活用不足 提案手法:L2RM • 訓練データからPMPを識別 • PMPのサブセットに対し,最適輸送 (OT) に基づく画像-テキストの再マッチングを実行 結果 • マルチモーダル検索タスクにおいて,PMPを含むデータセットで既存手法を上回った
  3. 背景:PMP (Partially Mismatched Pair) の有効活用は重要である - 3 - 画像→テキスト,テキスト→画像というマルチモーダル検索タスクにおいて •

    厳密に整合した画像-テキストペアの収集は困難 • ウェブから収集したデータには部分的または全体的に不整合なペアであるPMPが存在する • 既存手法ではPMPの学習への寄与を下げて対処 → データの活用不足 Conceptual Captions [Sharma+, ACL18]
  4. 関連研究:既存手法はPMPを活用できていない - 4 - 手法 概要 NCR [Huang+, NeurIPS21] 画像-テキストペアの信頼度を出力する予測関数を導入

    信頼度が低いほど損失への寄与を低減 DECL [Qin+, ACM MM22] 対応するペアの不確実性が大きいほど損失への寄与を低減 RCL [Hu+, TPAMI23] PMPを含む可能性のある正例ではなく,負例を基に学習 NCR [Huang+, NeuIPS21] RCL [Hu+, TPAMI23]
  5. 提案手法:最適輸送 (OT) に基づくPMPの再マッチング - 5 - • 対照学習ではInfoNCE損失やトリプレット損失を最小化したい → 𝑉𝑖

    , 𝑇𝑖 がPMPの場合,学習の妨げになる • 訓練データをPMPで構成されるサブセットとそれ以外に分割 • 最適輸送 (OT) に基づくPMPの再マッチングによる適切な正例・負例の付与 マージン 𝑉𝑖 に最も類似した負例 𝑇𝑖 に最も類似した負例 𝑔(𝑉𝑖 , 𝑇𝑗 ): 画像(𝑉𝑖 )とテキスト(𝑇𝑗 )の類似度
  6. 目的:ある確率分布𝒑を別の確率分布𝒒に最小コストで変換する 𝑿 = {𝑥𝑖 }𝑖=1 𝑚 , 𝐘 = {𝑦𝑗

    }𝑗=1 𝑛 :離散変数 𝑝𝑖 , 𝑞𝑗 :各点における確率 𝛿:ディラック関数 :コスト行列 : 𝑥𝑖 から𝑦𝑗 への輸送コスト 𝑐(∙):コスト関数 :フロベニウス積 輸送計画行列𝝅:𝒑を𝒒に輸送する計画 制約:𝝅の𝑖行目の合計が𝑝𝑖 と一致し,𝝅の𝑗列目の合計が𝑞𝑗 と一致 前提:最適輸送 (OT) - 6 - 𝒑 𝒒
  7. 提案手法(1/4):PMPを特定し,訓練データを2つのサブセットに分割 - 7 - • 損失分布 ℓ = {ℓ𝑖 }𝑖=1

    𝑁 = {ℒtriplet 𝑉𝑖 , 𝑇𝑖 }𝑖=1 𝑁 をEMアルゴリズムで二成分β混合モデルに適合 • 𝑉𝑖 , 𝑇𝑖 がPMPである確率𝑤𝑖 は𝑝(𝑏|ℓ𝑖 )で求められる(𝑏は平均値が高い方のベータ分布) • 𝑤𝑖 に閾値を設定し,マッチしているペア𝔻𝑚 とミスマッチしているペア𝔻 ෥ 𝑚 に分割 データセット 𝔻 = 𝑉𝑖 , 𝑇𝑖 , 𝑚𝑖 𝑖=1 𝑁 𝑉𝑖 , 𝑇𝑖 : 画像-テキストペア,𝑚𝑖 ∈ {1, 0} 予測確率ベクトル 𝑔(𝑉𝑖 , 𝑇𝑗 ): 𝑉𝑖 と𝑇𝑗 の類似度,𝑁𝑏 : バッチサイズ,𝜏: 温度パラメータ 𝑖番目の画像クエリに対する𝑗番目のテキストのマッチング確率. 𝑝𝑖𝑗 𝑡2𝑣も同様
  8. 提案手法(2/4):コスト行列を導くコスト関数を学習する - 8 - • 𝔻𝑚 からランダムに画像を選択し,𝔻 ෥ 𝑚 の画像と置換することでバッチ𝔻′を作成

    • マッチング行列𝝅𝐬𝐮𝐩を教師信号とし,輸送コストを損失としてコスト関数𝑓𝑐 (; Θ𝑐 )を学習
  9. 提案手法(3/4):学習済みコスト関数を基に𝔻 ෥ 𝑚 の最適輸送を導出 - 9 - • 学習済みコスト関数を用いて, 𝔻

    ෥ 𝑚 において再マッチングを行う • 部分最適輸送 (POT) モデルを採用し,特定の量 だけ輸送 → 無理なマッチングの防止,最もコストが低い(マッチ度合いが高い)経路に集中 • 類似度行列の対角成分はFPとみなし,対角成分同士の輸送は行わない → 𝑉𝑖 に対し,バッチ内の他の類似しているテキスト𝑇𝑗 (𝑗 ≠ 𝑖)に優先的に輸送.𝑇𝑖 も同様
  10. 提案手法(4/4): POTによりPMPを再マッチングして学習 - 10 - • 最終的な損失関数: • 教師行列෥ 𝝅:𝒑,

    𝒒は一様分布とし,コスト関数は各ステップごとに更新 ෥ 𝝅𝑖 𝑣2𝑡, ෥ 𝝅𝑖 𝑡2𝑣: 行ごと,列ごとに正規化された𝑖番目のサンプルに対するアラインメント.𝒑𝑖 𝑣2𝑡, 𝒑𝑖 𝑡2𝑣の教師信号 ෥ 𝝅𝑖 𝑣2𝑡 ෥ 𝝅𝑖 𝑡2𝑣
  11. 実験設定 - 11 - データセット • PMPを含むデータセット:CC152k [Sharma+, ACL18] •

    PMPを含まないデータセット:Flickr30k [Plummer+, ICCV15], MS-COCO [Lin+, ECCV14] データセットに操作を加え,PMPを作成 (PMPの割合を0.2, 0.4, 0.6, 0.8に設定) ベースライン • PMPを扱う:NCR [Huang+, NeurIPS21], DECL [Qin+, ACM MM22], RCL [Hu+, TPAMI23] など • PMPを扱わない:SGR, SAF, SGRAF [Diao+, AAAI21] など 評価指標 • Recall@k (k = 1, 5, 10) CC152k [Sharma+, ACL18]
  12. - 14 - 追試およびエラー分析(Text to Image) 失敗例 成功例 • GT画像を上位10位以内に順位付けできなかった場合を失敗と定義

    • 成功例では,2位は「snow」や「bike」,3位は「going down」や「road」と関連 • アート作品は検索対象の画像群に数多く含まれており,GT画像が下位に
  13. まとめ - 15 - 背景 • ウェブから収集したデータにはPartially Mismatched Pair (PMP)

    が存在する • 既存手法ではPMPの学習への寄与を下げて対処 → データの活用不足 提案手法:L2RM • 訓練データからPMPを識別 • PMPのサブセットに対し,最適輸送 (OT) に基づく画像-テキストの再マッチングを実行 結果 • マルチモーダル検索タスクにおいて,PMPを含むデータセットで既存手法を上回った
  14. Appendix:Shinkhorn algorithm - 20 - 𝜆 > 0はエントロピー制約 の正則化パラメータ →

    計算コストの低いSinkhorn-Knoppアルゴリズム [Cuturi, NIPS13] で解けるように
  15. - 22 - • 損失関数 ℒInfoNCE + ℒRCE ℋ: クロスエントロピー関数

    𝒚𝒊 が誤っている可能性があるため,モデルの過信を抑制 Appendix:モデルのウォームアップ
  16. - 24 - 𝑁𝑞 :クエリ数 𝑣𝑖 :𝑖番目の画像埋め込み 𝑡𝑖 :𝑗番目のテキスト埋め込み 𝑠𝑖𝑚(∙,∙):類似度

    𝜏:温度パラメータ Appendix:InfoNCE損失 𝐿 = − 1 𝑁𝑞 ෍ 𝑖=1 𝑁𝑞 log exp( 𝑠𝑖𝑚 𝑣𝑖 , 𝑡𝑖 𝜏 ) σ 𝑗=1 𝑁𝑞 exp( 𝑠𝑖𝑚 𝑣𝑖 , 𝑡𝑗 𝜏 )
  17. - 25 - Appendix:データセットに含まれる画像数 訓練集合 検証集合 テスト集合 CC152k [Sharma+, ACL18]

    150,000 1,000 1,000 Flickr30k [Plummer+, ICCV15] 29,000 1,000 1,000 MS-COCO [Lin+, ECCV14] 113,287 5,000 5,000 • CC152kは画像対テキストが1対1 • Flickr30k, MS-COCOは画像対テキストが1対5