Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

[Journal club] Learning to Rematch Mismatched P...

[Journal club] Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應矩塟倧孊 杉浊孔明研究宀 西牧宙茝 Learning to Rematch Mismatched Pairs for Robust

    Cross-Modal Retrieval Haochen Han1 Qinghua Zheng1 Guang Dai2 Minnan Luo1 Jingdong Wang3 1Xi’an Jiaotong University 2SGIT AI Lab 3Baidu Inc CVPR 2024 Han, H., Zheng, Q., Dai, G., Luo, M., Wang, J. (2024). “Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval.” In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp.26679-26688).
  2. 抂芁 - 2 - 背景 • りェブから収集したデヌタにはPartially Mismatched Pair (PMP)

    が存圚する • 既存手法ではPMPの孊習ぞの寄䞎を䞋げお察凊 → デヌタの掻甚䞍足 提案手法L2RM • 蚓緎デヌタからPMPを識別 • PMPのサブセットに察し最適茞送 (OT) に基づく画像-テキストの再マッチングを実行 結果 • マルチモヌダル怜玢タスクにおいおPMPを含むデヌタセットで既存手法を䞊回った
  3. 背景PMP (Partially Mismatched Pair) の有効掻甚は重芁である - 3 - 画像→テキストテキスト→画像ずいうマルチモヌダル怜玢タスクにおいお •

    厳密に敎合した画像-テキストペアの収集は困難 • りェブから収集したデヌタには郚分的たたは党䜓的に䞍敎合なペアであるPMPが存圚する • 既存手法ではPMPの孊習ぞの寄䞎を䞋げお察凊 → デヌタの掻甚䞍足 Conceptual Captions [Sharma+, ACL18]
  4. 関連研究既存手法はPMPを掻甚できおいない - 4 - 手法 抂芁 NCR [Huang+, NeurIPS21] 画像-テキストペアの信頌床を出力する予枬関数を導入

    信頌床が䜎いほど損倱ぞの寄䞎を䜎枛 DECL [Qin+, ACM MM22] 察応するペアの䞍確実性が倧きいほど損倱ぞの寄䞎を䜎枛 RCL [Hu+, TPAMI23] PMPを含む可胜性のある正䟋ではなく負䟋を基に孊習 NCR [Huang+, NeuIPS21] RCL [Hu+, TPAMI23]
  5. 提案手法最適茞送 (OT) に基づくPMPの再マッチング - 5 - • 察照孊習ではInfoNCE損倱やトリプレット損倱を最小化したい → 𝑉𝑖

    , 𝑇𝑖 がPMPの堎合孊習の劚げになる • 蚓緎デヌタをPMPで構成されるサブセットずそれ以倖に分割 • 最適茞送 (OT) に基づくPMPの再マッチングによる適切な正䟋・負䟋の付䞎 マヌゞン 𝑉𝑖 に最も類䌌した負䟋 𝑇𝑖 に最も類䌌した負䟋 𝑔(𝑉𝑖 , 𝑇𝑗 ): 画像(𝑉𝑖 )ずテキスト(𝑇𝑗 )の類䌌床
  6. 目的ある確率分垃𝒑を別の確率分垃𝒒に最小コストで倉換する 𝑿 = {𝑥𝑖 }𝑖=1 𝑚 , 𝐘 = {𝑊𝑗

    }𝑗=1 𝑛 離散倉数 𝑝𝑖 , 𝑞𝑗 各点における確率 𝛿ディラック関数 コスト行列 : 𝑥𝑖 から𝑊𝑗 ぞの茞送コスト 𝑐(∙)コスト関数 フロベニりス積 茞送蚈画行列𝝅𝒑を𝒒に茞送する蚈画 制玄𝝅の𝑖行目の合蚈が𝑝𝑖 ず䞀臎し𝝅の𝑗列目の合蚈が𝑞𝑗 ず䞀臎 前提最適茞送 (OT) - 6 - 𝒑 𝒒
  7. 提案手法(1/4)PMPを特定し蚓緎デヌタを2぀のサブセットに分割 - 7 - • 損倱分垃 ℓ = {ℓ𝑖 }𝑖=1

    𝑁 = {ℒtriplet 𝑉𝑖 , 𝑇𝑖 }𝑖=1 𝑁 をEMアルゎリズムで二成分β混合モデルに適合 • 𝑉𝑖 , 𝑇𝑖 がPMPである確率𝑀𝑖 は𝑝(𝑏|ℓ𝑖 )で求められる𝑏は平均倀が高い方のベヌタ分垃 • 𝑀𝑖 に閟倀を蚭定しマッチしおいるペア𝔻𝑚 ずミスマッチしおいるペア𝔻 à·¥ 𝑚 に分割 デヌタセット 𝔻 = 𝑉𝑖 , 𝑇𝑖 , 𝑚𝑖 𝑖=1 𝑁 𝑉𝑖 , 𝑇𝑖 : 画像-テキストペア𝑚𝑖 ∈ {1, 0} 予枬確率ベクトル 𝑔(𝑉𝑖 , 𝑇𝑗 ): 𝑉𝑖 ず𝑇𝑗 の類䌌床𝑁𝑏 : バッチサむズ𝜏: 枩床パラメヌタ 𝑖番目の画像ク゚リに察する𝑗番目のテキストのマッチング確率 𝑝𝑖𝑗 𝑡2𝑣も同様
  8. 提案手法(2/4)コスト行列を導くコスト関数を孊習する - 8 - • 𝔻𝑚 からランダムに画像を遞択し𝔻 à·¥ 𝑚 の画像ず眮換するこずでバッチ𝔻′を䜜成

    • マッチング行列𝝅𝐬𝐮𝐩を教垫信号ずし茞送コストを損倱ずしおコスト関数𝑓𝑐 (; Θ𝑐 )ã‚’å­Šç¿’
  9. 提案手法(3/4)孊習枈みコスト関数を基に𝔻 à·¥ 𝑚 の最適茞送を導出 - 9 - • 孊習枈みコスト関数を甚いお 𝔻

    à·¥ 𝑚 においお再マッチングを行う • 郚分最適茞送 (POT) モデルを採甚し特定の量 だけ茞送 → 無理なマッチングの防止最もコストが䜎いマッチ床合いが高い経路に集䞭 • 類䌌床行列の察角成分はFPずみなし察角成分同士の茞送は行わない → 𝑉𝑖 に察しバッチ内の他の類䌌しおいるテキスト𝑇𝑗 (𝑗 ≠ 𝑖)に優先的に茞送𝑇𝑖 も同様
  10. 提案手法(4/4) POTによりPMPを再マッチングしお孊習 - 10 - • 最終的な損倱関数 • 教垫行列෥ 𝝅𝒑,

    𝒒は䞀様分垃ずしコスト関数は各ステップごずに曎新 à·¥ 𝝅𝑖 𝑣2𝑡, à·¥ 𝝅𝑖 𝑡2𝑣: 行ごず列ごずに正芏化された𝑖番目のサンプルに察するアラむンメント𝒑𝑖 𝑣2𝑡, 𝒑𝑖 𝑡2𝑣の教垫信号 à·¥ 𝝅𝑖 𝑣2𝑡 à·¥ 𝝅𝑖 𝑡2𝑣
  11. 実隓蚭定 - 11 - デヌタセット • PMPを含むデヌタセットCC152k [Sharma+, ACL18] •

    PMPを含たないデヌタセットFlickr30k [Plummer+, ICCV15], MS-COCO [Lin+, ECCV14] デヌタセットに操䜜を加えPMPを䜜成 (PMPの割合を0.2, 0.4, 0.6, 0.8に蚭定) ベヌスラむン • PMPを扱うNCR [Huang+, NeurIPS21], DECL [Qin+, ACM MM22], RCL [Hu+, TPAMI23] など • PMPを扱わないSGR, SAF, SGRAF [Diao+, AAAI21] など 評䟡指暙 • Recall@k (k = 1, 5, 10) CC152k [Sharma+, ACL18]
  12. - 14 - 远詊および゚ラヌ分析Text to Image) 倱敗䟋 成功䟋 • GT画像を䞊䜍10䜍以内に順䜍付けできなかった堎合を倱敗ず定矩

    • 成功䟋では2䜍は「snow」や「bike」3䜍は「going down」や「road」ず関連 • アヌト䜜品は怜玢察象の画像矀に数倚く含たれおおりGT画像が䞋䜍に
  13. たずめ - 15 - 背景 • りェブから収集したデヌタにはPartially Mismatched Pair (PMP)

    が存圚する • 既存手法ではPMPの孊習ぞの寄䞎を䞋げお察凊 → デヌタの掻甚䞍足 提案手法L2RM • 蚓緎デヌタからPMPを識別 • PMPのサブセットに察し最適茞送 (OT) に基づく画像-テキストの再マッチングを実行 結果 • マルチモヌダル怜玢タスクにおいおPMPを含むデヌタセットで既存手法を䞊回った
  14. AppendixShinkhorn algorithm - 20 - 𝜆 > 0ぱントロピヌ制玄 の正則化パラメヌタ →

    蚈算コストの䜎いSinkhorn-Knoppアルゎリズム [Cuturi, NIPS13] で解けるように
  15. - 22 - • 損倱関数 ℒInfoNCE + ℒRCE ℋ: クロス゚ントロピヌ関数

    𝒚𝒊 が誀っおいる可胜性があるためモデルの過信を抑制 Appendixモデルのりォヌムアップ
  16. - 24 - 𝑁𝑞 ク゚リ数 𝑣𝑖 𝑖番目の画像埋め蟌み 𝑡𝑖 𝑗番目のテキスト埋め蟌み 𝑠𝑖𝑚(∙,∙)類䌌床

    𝜏枩床パラメヌタ AppendixInfoNCE損倱 𝐿 = − 1 𝑁𝑞 ෍ 𝑖=1 𝑁𝑞 log exp( 𝑠𝑖𝑚 𝑣𝑖 , 𝑡𝑖 𝜏 ) σ 𝑗=1 𝑁𝑞 exp( 𝑠𝑖𝑚 𝑣𝑖 , 𝑡𝑗 𝜏 )
  17. - 25 - Appendixデヌタセットに含たれる画像数 蚓緎集合 怜蚌集合 テスト集合 CC152k [Sharma+, ACL18]

    150,000 1,000 1,000 Flickr30k [Plummer+, ICCV15] 29,000 1,000 1,000 MS-COCO [Lin+, ECCV14] 113,287 5,000 5,000 • CC152kは画像察テキストが1察1 • Flickr30k, MS-COCOは画像察テキストが1察5