SigLIP

SigLIP 2025/05/14 犬この資料は大学で発表したのを公開用に調整したもの

ちょっと宣伝・NeurIPS出します。

Contrastive Learning ・似ているものと似ていないものの対応関係を学習する方法 →もうちょい話すと, ある1つのEncoderから取り出されるベクトルともう1つのEncoderから取り出されるベクトルの対応関係のあるところのコサイン類似度を近づけて, 対応関係のないところのコサイン類似度を遠ざける方法

どうやる?(数式面) ・まずはCLIPから解説する・同じ対応関係のcosine類似度の確率が最大となるように計算をする

どうやる?(コード面) ここのlogitsが各データの同一 batch内でのtextとimageの類似度を示す n番目のデータはn番目に似るべきだというラベル

図で解説これがlogits これがラベル, 対角線上のデータが似るべきだという対応関係

推論・推論の時はImage一つに対してTextが複数, その中で1番確率の高いものを採用するという推論を行う・TextのEmbeddingが近いものなら学習時に無くてもZero-Shot可能というのがCLIP の嬉しいところ・既存のDeepLearningとは違うところ

CLIPのちょっと不便なところ・NeurIPSで発表した時にも突っ込まれたが , CLIPは1つのデータに対して1つの推論しかできない・例えば右の画像はなんと推論すべき ?きゅうり?卵?生姜? みかん?にんじん? ・その組み合わせ? ・あとは勘の良い方は気付かれたかもしれないが
,Batch Sizeに応じて相対確率の値が変化するので Batch Sizeによってもよく変動する

SigLIP ・Google系Multimodalでよく採用されるアーキテクチャ・CLIPとの変更箇所は単純, 損失関数部分をSoftmaxではなくSigmoidに変えただけ, そこで登場するのが以下の難解コード

SigLIP ・実はこう見えてコードはSigmoid BasedなContrastive Lossを計算している・手元で計算してみよう(算数ができる人なら30秒ぐらいで気づくはず)(ヒント: 数式のz_ij は対応関係の時1, 対応関係じゃない時-1)

SigLIP

SigLIP 1 -1 -1 -1 -1 1 -1 -1 -1
-1 1 -1 -1 -1 -1 1 こういう感じの行列になる, 対角成分が対応関係としているのはCLIPと同じ

SigLIP 各成分がこれのn×n行列ができるこれを全成分で合計してnで割るとこの式ができる

推論・推論の時はImage一つに対してTextが複数, その中でSigmoid演算を通して確率が 0.5を超えているものを全て選ぶ

マルチラベルのSigLIPの場合 1 -1 -1 -1 -1 1 -1 -1 -1
-1 1 -1 -1 -1 -1 1 こういう感じの行列になる, 対角成分が対応関係としているのはCLIPと同じ・対角成分を対応関係とすると精度が下がってダメな場合がある・例えば, Batch内に同じ所見が含まれている場合である。・ImageNetなどはラベル数が1000もあるのでBatchが小さい時は同じラベルが含まれる可能性は小さいが, 心電図初見は多くても100なのでBatchが100 を超えてくると鳩の巣原理的に不正な対応関係が必ず存在することになる

マルチラベルのSigLIPの場合 1 -1 1 -1 -1 1 -1 -1 1
-1 1 1 -1 -1 1 1 こういう感じ・そこでラベルのうち同じものが含まれているものは1として追加した(もう少しいい方法がある気がしなくもない) ・これだけでマルチラベルでのF1値が上がった。すごい

SigLIP

SigLIP

SuperHotDog

More Decks by SuperHotDog

Featured

Transcript

SigLIP 2025/05/14 犬この資料は大学で発表したのを公開用に調整したもの

ちょっと宣伝・NeurIPS出します。

どうやる?(数式面) ・まずはCLIPから解説する・同じ対応関係のcosine類似度の確率が最大となるように計算をする

どうやる?(コード面) ここのlogitsが各データの同一 batch内でのtextとimageの類似度を示す n番目のデータはn番目に似るべきだというラベル

図で解説これがlogits これがラベル, 対角線上のデータが似るべきだという対応関係

SigLIP ・Google系Multimodalでよく採用されるアーキテクチャ・CLIPとの変更箇所は単純, 損失関数部分をSoftmaxではなくSigmoidに変えただけ, そこで登場するのが以下の難解コード

SigLIP ・実はこう見えてコードはSigmoid BasedなContrastive Lossを計算している・手元で計算してみよう(算数ができる人なら30秒ぐらいで気づくはず)(ヒント: 数式のz_ij は対応関係の時1, 対応関係じゃない時-1)

SigLIP

SigLIP 1 -1 -1 -1 -1 1 -1 -1 -1

SigLIP 各成分がこれのn×n行列ができるこれを全成分で合計してnで割るとこの式ができる

推論・推論の時はImage一つに対してTextが複数, その中でSigmoid演算を通して確率が 0.5を超えているものを全て選ぶ

マルチラベルのSigLIPの場合 1 -1 -1 -1 -1 1 -1 -1 -1

マルチラベルのSigLIPの場合 1 -1 1 -1 -1 1 -1 -1 1