Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[輪講] SigLIP 2: Multilingual Vision-Language Enc...

[輪講] SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

Google DeepMind が2025年2月に公開した SigLIP 2 についての輪講資料です。
多様な下流タスクの性能を改善するよう CLIP 型モデルを改良した手法であり実用性に優れるほか、多くの技術と関連があるため分野の俯瞰にも役立つ内容となっています。

Avatar for Naoki Kato

Naoki Kato

June 04, 2025
Tweet

More Decks by Naoki Kato

Other Decks in Research

Transcript

  1. ֓ཁ 4JH-*1 4JHNPJE-PTT-BOHVBHF*NBHF1SFUSBJOJOHW • (PPHMF%FFQ.JOE͕೥݄ʹެ։ͨ͠ Φʔϓϯ΢ΣΠτͷଟݴޠ ը૾ςΩετΤϯίʔμϑΝϛϦʔ • ॳ୅ 4JH-*1ͷγάϞΠυֶशΛϕʔεʹ

    ݸผͷݚڀͰఏҊ͞Ε͖ͯͨվྑΛ୯Ұͷ܇࿅Ϩγϐʹ౷߹ • θϩγϣοτ෼ྨ ը૾⁶ςΩετݕࡧʹՃ͑ ϩʔΧϦθγϣϯ ີ༧ଌλεΫ΁ͷੑೳΛେ͖͘վળ • બఆཧ༝ɿ$-*1ܕϞσϧΛಥ͖٧ΊͨΑ͏ͳݚڀͰ͋Γ  ࣮༻ੑ͓Αͼֶशڭࡐͱͯ͠΋༏Ε͍ͯΔΑ͏ʹײͨͨ͡Ί 
  2. Ϟσϧߏ଄ɾσʔληοτɾֶशઃఆ Ϟσϧߏ଄ • ը૾ςΩετΤϯίʔμɿ7J5PS4P7J5N <"MBCEVMNPTIJO /FVS*14`> • (FNNBଟݴޠτʔΫφΠβ <(FNNB5FBN >

    σʔληοτɿ8FC-*σʔληοτ <$IFO *$-3`> 8FC্ͷը૾ͱςΩετΛେن໛ʹूΊͨଟݴޠσʔληοτ ֶशઃఆ • "EBN8 MSF XFJHIUEFDBZF HSBEJFOUDMJQQJOH • όοναΠζL DPTJOFTDIFEVMFXXBSNVQ • ࠷େ୆ͷ 516WF Λ࢖༻ʢ͓ͦΒ͘ 7J5Hʣ  େن໛ͳϞσϧɾσʔλɾ ܭࢉࢿݯ͸લఏ ςΩετ௕ɿτʔΫϯݻఆ ॳ୅ 4JH-*1ͱಉ͡Τϯίʔμߏ੒
  3. 4P7J5 <"MBCEVMNPTIJO /FVS*14`> ܭࢉࢿݯʹରͯ͠࠷దͳϞσϧܗঢ়ʢ෯ ਂ͞ .-1࣍ݩ਺ʣΛ ཧ࿦తʹಋग़ͨ͠ 4IBQFPQUJNJ[FE7JTJPO5SBOTGPSNFS • ༩͑ΒΕͨܭࢉίετʢ('-01Tº

    εςοϓ਺ʣʹ͓͍ͯԼྲྀλεΫޡ͕ࠩ ࠷খʹͳΔΑ͏ͳϞσϧܗঢ়Λ֦ுεέʔϦϯάଇʹج͖ͮղੳతʹಋग़ • 4P7J5N͸ 7J5Hͱಉ౳ͷੑೳΛ൒෼ҎԼͷਪ࿦ίετͰୡ੒  4P7J5NWT7J5H
  4. 8FC-*σʔληοτ <$IFO *$-3`> 8FC͔Βऩू͞Εͨ#ը૾ #ςΩετͷଟݴޠσʔληοτ  ݴޠ಺༁ʢBMUUFYUʣ ݴޠ಺༁ʢ0$3ʣ ը૾ςΩετϖΞ਺ छͷ7-λεΫͰ

    ॏෳআڈΛ࣮ࢪ ඇެ։ English French Thai Chinese Alt-text OCR "free stock photo of matrix and sidekick" "carte joyeux noël anges et étoiles" "ทานตะวันเปนดอกไมที่หัน หนาเขาหาดวงอาทิตย" "太行山 脉 长治 太行山 大 峡谷 林州 河北 平原 长城" "card", "telecom", "5624" "joyeux noël" n/a n/a ը૾આ໌จʢBMUUFYUʣ΍ 0$3ςΩετΛநग़
  5. ࢹ֮ࣄલֶशख๏ -PD$B <8BO /FVS*14`>Ͱ༻͍ΒΕ͍ͯΔͭͷλεΫΛ ิॿଛࣦͱͯ͠ར༻͢Δ͜ͱͰϩʔΧϦθʔγϣϯੑೳΛվળ Ωϟϓγϣϯ༧ଌɾࢀরදݱଛࣦ  ը૾શମͷ ΩϟϓγϣϯΛ༧ଌ Ωϟϓγϣϯ͔Β

    ۣܗ࠲ඪΛ༧ଌ ۣܗྖҬͷ ΩϟϓγϣϯΛ༧ଌ BMUUFYUͷ OHSBNΛର৅ʹ ΦʔϓϯϘΩϟϒϥϦݕग़ثΛ͔͚ ྖҬΩϟϓγϣϯϖΞσʔλΛ࡞੒ DBVTBMBUUFOUJPONBTLΛ༻͍ͯ ࣗݾճؼతʹΩϟϓγϣϯΛ σίʔυ͢Δ͜ͱͰจ຺Λߟྀ
  6. ࣗݾৠཹ %*/0 <$BSPO *$$7`>ͰఏҊ͞Ε 4*-$ </BFFN &$$7`>Ͱࢹ֮ݴޠࣄલֶशʹ ׆༻͞Ε͍ͯΔࣗݾৠཹΛิॿଛࣦͱͯ͠ར༻ • ہॴը૾ΛੜెϞσϧ΁ೖྗ͠

    ग़ྗಛ௃ΛڭࢣϞσϧʢੜెͷࢦ਺Ҡಈฏۉʣʹ͚ۙͮΔ • ಛ௃ྔͷہॴతηϚϯςΟΫεΛվળ  4*-$ͷ࿮૊Έ Image Encoder (Teacher) A cute cat EMA Image Encoder (Student) Text Encoder Projection Projection & Centering Stop gradient Global-view Local-view Text Local crop Global crop 4JH-*1Ͱ͸ͭͷ ੜెϞσϧΛ࢖༻ ͦͷଞͷࣗݾৠཹઃఆ͸ 4*-$Λ౿ऻ ަࠩΤϯτϩϐʔଛࣦ 4*-$͸ରরଛࣦΛ࢖༻
  7. ϚεΫ༧ଌ  5*14 <.BOJOJT *$-3`>ʹ฿͍ ϚεΫ༧ଌΛࢹ֮ݴޠࣄલֶशʹಋೖ • ੜెϞσϧʹ͓͚Δը૾ύονͷΛϚεΫ͠ ͦͷ෦෼ͷಛ௃ྔΛڭࢣϞσϧʹ͚ۙͮΔ •

    ࣗݾৠཹͱಉҰͷڭࢣϞσϧΛ࢖༻͢ΔͨΊܭࢉίετ͕཈͑ΒΕΔ ద༻ظؒ ໨త γάϞΠυଛࣦ શظؒ ϕʔεͷଛࣦ Ωϟϓγϣϯ༧ଌ ɾࢀরදݱଛࣦ શظؒ ϩʔΧϦθʔγϣϯ ੑೳ޲্ ࣗݾৠཹɾϚεΫ༧ଌ ֶशऴ൫ͷΈ ີಛ௃औಘ 4JH-*1ͷଛࣦؔ਺Ұཡ
  8. ෳ਺ղ૾౓΁ͷରԠ • ݻఆղ૾౓Ϟσϧ • ղ૾౓ ύοναΠζϞσϧͷ࣌఺ͷνΣοΫϙΠϯτʹର͠  ҐஔຒΊࠐΈΛϦαΠζͯ͠໨తղ૾౓Ͱ࢒ΓͷֶशΛ࣮ࢪ • ΞεϖΫτอ࣋ɾՄมղ૾౓Ϟσϧʢ/B'MFYʣ

    • ୯ҰϞσϧͰෳ਺ͷγʔέϯε௕Λαϙʔτ͢Δ 'MFYJ7J5 <#FZFS $713`>ͱ ը૾ΛຊདྷͷΞεϖΫτൺͰॲཧ͢Δ /B7J5 <%FIHIBOJ /FVS*14`>ͷٕज़Λ ૊Έ߹ΘͤͨόϦΞϯτ • ϥϯμϜαϯϓϦϯάͨ͠γʔέϯε௕ҎԼʹऩ·Γͭͭ ΞεϖΫτൺͷ࿪ΈΛͰ͖Δ͚ͩখ͘͞อͬͨલॲཧΛߦ͏͜ͱͰֶश • ݻఆղ૾౓Ϟσϧͷ࣌఺ͷνΣοΫϙΠϯτΛຊઃఆͰ࢒Γֶश • จॻը૾ͷॲཧ΍ 0$3౳ͷλεΫͷੑೳʹ༏ΕΔ 
  9. ΞΫςΟϒσʔλΩϡϨʔγϣϯ খن໛Ϟσϧ 7J5# ͷੑೳΛఈ্͛͢ΔͨΊ "$*% "DUJWF$VSBUJPOBT*NQMJDJU%JTUJMMBUJPO <6EBOEBSBP $713`>Λద༻ • ֶश཰ΛFʹԼ͛

    ॏΈݮਰΛऔΓআ͖ γάϞΠυଛࣦͷΈͰ "$*%Λ༻͍ͯ #ࣄྫ෼ GJOFUVOJOH͢Δ • 'JOFUVOJOHͷ֤εςοϓͰ͸ڭࢣϞσϧͱֶशதϞσϧΛ༻͍ͯ ֶशαϯϓϧͷ lMFBSOBCJMJUZzείΞΛࢉग़͠ ্ҐΛֶशʹ࢖༻ • ௿඼࣭σʔλΛআ֎ͨ͠ΩϡϨʔγϣϯσʔληοτ <&WBOT /FVS*14`>Ͱ 4PN Λ#ࣄྫ෼ GJOFUVOJOHͨ͠΋ͷΛڭࢣϞσϧͱͯ͠ར༻  ൺֱ࣮ݧ͕ܝࡌ͞Ε͓ͯΒͣ༗ޮੑ͕ෆಁ໌ σʔλΛϑΟϧλ͢Δ ৠཹͳͷͰ l*NQMJDJUz
  10. ධՁ݁Ռɿ7-.ͷը૾Τϯίʔμͱͯ͠ͷར༻ 4JH-*1Λ 7-.ͷը૾Τϯίʔμͱͯ͠༻͍ͨͱ͖ͷੑೳΛධՁ • (FNNB#--. <(FNNB5FBN >ͱ૊Έ߹ΘͤΔ͜ͱͰ 7-.Λߏங • ֶशํ๏ɿෳ਺ͷ

    7-λεΫͰ --.ͷΈΛֶशͨ͠ޙ  ໨తλεΫͰ 7-.શମΛ GJOFUVOJOHʢ1BMJ(FNNB <4UFJOFS >Λ౿ऻʣ  छͷԼྲྀλεΫͰͷฏۉੑೳ ϞσϧαΠζͷ౳͍͠ ൺֱख๏ͷੑೳΛ྇կ
  11. ධՁ݁ՌɿΦʔϓϯϘΩϟϒϥϦηάϝϯςʔγϣϯ $BU4FH <$IP $713`>ͷϑϨʔϜϫʔΫͰը૾ςΩετΤϯίʔμΛධՁ  $0$04UVGGL Ϋϥε Ͱ $BU4FHΛֶश͠ ޠኮͷҟͳΔσʔληοτͰධՁ

    N*P6 ը૾ςΩετຒΊࠐΈͷ ྨࣅ౓ߦྻΛࣗݾ஫ҙͰ ϦϑΝΠϯ͢Δख๏ 4JH-*1΍େαΠζͷ 0QFO$-*1Λ ্ճΔੑೳΛୡ੒
  12. ೔ຊޠͰͷਪ࿦݁Ռྫ ೔ຊޠؒͰͷ༧ଌ஋ͷॱংؔ܎͸֓Ͷద੾͕ͩ ӳޠͱൺ΂ͯ஋͕খ͞Ίͳ༷ࢠ  ϥϕϧ 🐻 CFBS ۽͕ͪ͜ΒΛݟ͍ͯΔ ඖͷ۽ ۽

    ΧϝϥΛݟ͍ͯͳ͍۽ ΫϚ ΧϝϥΛݟ͍ͯΔ۽ ඖͷ۽ ςσΟϕΞ ݘ ೣ ༧ଌ஋            
  13. ·ͱΊɾॴײ ·ͱΊ • ଟݴޠ ը૾ςΩετΤϯίʔμ 4JH-*1ΛϦϦʔε • ॳ୅ 4JH-*1ʹσίʔμϕʔεͷଛࣦ ࣗݾڭࢣ෇͖ଛࣦ

     ΞΫςΟϒσʔλΩϡϨʔγϣϯͳͲΛಋೖ • ೝࣝ ϩʔΧϦθʔγϣϯ ີ༧ଌλεΫͳͲ෯޿͍λεΫͰߴੑೳ 7-.ͷΤϯίʔμͱͯ͠΋ར༻Մೳ ॴײ • ৽نੑΑΓ΋Ϟσϧͷ࣮༻ੑʹৼΓ੾ͬͨݚڀͱ͍͏ҹ৅ • ޻෉͸ݟΒΕΔ͕ଞͷେن໛Ϟσϧͱಉ༷ʹϦιʔε͋Γ͖ͷख๏Ͱ͋Γ ܭࢉޮ཰Λվળ͢Δํ޲Ͱͷ෼໺ͷਐల͕ඞཁͦ͏