Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Words or Vision: Do Vision-Language Models Have...

Avatar for Daiki Shiono Daiki Shiono
August 24, 2025
100

Words or Vision: Do Vision-Language Models Have Blind Faith in Text? (CVPR2025)

第17回最先端NLP勉強会 (SNLP2025) 発表資料

Avatar for Daiki Shiono

Daiki Shiono

August 24, 2025
Tweet

Transcript

  1. Ԙ໺େً %BJLJ4IJPOP % (SBEVBUF4DIPPMPG*OGPSNBUJPO4DJFODFT 5PIPLV6OJWFSTJUZ !4/-1 "JMJO%FOH 5SJ$BP ;IJSVJ $IFO

    #SZBO)PPJ /BUJPOBM6OJWFSTJUZPG4JOHBQPSF $713 1PTUFS <IUUQTDWQSUIFDWGDPNWJSUVBMQPTUFS >
  2. 2 ໨࣍ ஫ҙࣄ߲ •໨࣍ 4/-1c •஫ҙࣄ߲ ◦ ಛʹஅΓ͕ͳ͍ݶΓɺܝࡌ͍ͯ͠Δਤ΍ද͸ɺࣗ࡞ͨ͠΋ͷ PS঺հݩͷ࿦จʹܝࡌ͞Ε͍ͯΔ΋ͷʹͳΓ·͢ ຊݚڀΛཧղ͢ΔͨΊͷجૅ஌ࣝ

    جૅ஌ࣝ  ຊݚڀͷϞνϕʔγϣϯ എܠ  ຊݚڀͷ֓ཁ ֓ཁ  ࣮ݧํ๏ ํ๏  ࣮ݧ݁Ռ ݁Ռ ஶऀΒͷߟ࡯ ߟ࡯  ຊݚڀͱؔ࿈ͦ͠͏ͳݚڀͷओ؍త঺հ ؔ࿈ݚڀ
  3. 3 େن໛ࢹ֮ݴޠϞσϧ -7-. ͱ͸ʁ 1. 本研究を理解するための基礎知識 ຒΊࠐΈ࣍ݩ਺ͷΈૢ࡞ ը૾ύον਺ʹมԽͳ͠ ը૾ύον਺࣍ݩͷૢ࡞ ຒΊࠐΈ࣍ݩ਺ʹมԽͳ͠

    ը૾τʔΫϯͷຒΊࠐΈ User:<image>What do you see in this image?<eot> Assistant: ը૾Τϯίʔμ Ξμϓλʔ --. <s> ŋŋŋ ŋŋŋ ŋŋŋ ը૾ύον ࠾༻͢Δը૾Τϯίʔμʹ΋ΑΔ͕ جຊతʹݻఆ௕ͷը૾ύονΛग़ྗ .-1૚ 1FSDFJWFS3FTBNQMFS 1JYFM4IVGGMF લॲཧ "QQMZDIBUUFNQMBUF ŋŋŋ <s> User:<image>…<image>What do you see in this image?<eot> Assistant: User : <image> <image> ŋŋŋ <s> ŋŋŋ ▁User : <image> <image> ŋŋŋ JNBHFͷຒΊࠐΈʹ͸ɺ ࠨͷ΋ͷΛར༻͢Δ τʔΫϯຒΊࠐΈΛ࡞੒ : : -.)&"% ▁A What What Assistant Assistant 4/-1c ը૾ͱςΩετΛೖྗͱ͠ ͯɺςΩετΛग़ྗ͢Δ Ϟσϧ Ҏ߱ɺ-7-. ͱݺͿ ◦ ࣄલʹֶश͞Εͨ lը૾Τϯίʔμz ͱ lେن໛ݴޠϞσϧ --. z Λ૊Έ߹Θͤͯ ը૾ςΩετσʔλΛ ࢖༻ͯ͠௥Ճֶश͢Δ ͜ͱͰ -7-. Λߏங͢Δ جૅ஌ࣝ എܠ ֓ཁ ํ๏ ݁Ռ ߟ࡯ ؔ࿈ݚڀ
  4. 4 7JTVBM3"(͸ը૾ͱؔ࿈͢Δ͕ϊΠζΛؚΉจॻΛநग़͢Δ৔߹͕͋Δ 2. 本研究のモチベーション 4/-1c എܠ ֓ཁ ํ๏ ݁Ռ ߟ࡯

    ؔ࿈ݚڀ جૅ஌ࣝ ࢀߟը૾ ը૾ͱؔ࿈͢Δ ςΩετΛ จॻू߹͔Β औͬͯ͘Δ औಘͨ͠ςΩετ 7JTVBM 3"( ʲ೥൛ʳ ɾϝʔΧʔ"VEJP-BC ɾ঎඼໊)FBE'JU 1SP9 ɾՁ֨ ԁ ɾಛ௃γϯϓϧ ߴ඼࣭ ߴڃײ )FBE'JU 1SP9 ɾՁ֨ ԁ ʲ೥൛ʳ •ը૾ͷ৘ใͱؔ࿈͢Δ͕ɺ෦෼తʹໃ६ͨ͠ςΩετ৘ใ͕ நग़͞ΕΔέʔε͕ߟ͑ΒΕΔ
  5. 5 -7-.͸ࢹ֮৘ใͱໃ६ͨ͠ݴޠ৘ใ͕༩͑ΒΕͨ࣌ʹͲ͏ৼΔ෣͏͔ʁ 2. 本研究のモチベーション 4/-1c എܠ ֓ཁ ํ๏ ݁Ռ ߟ࡯

    ؔ࿈ݚڀ جૅ஌ࣝ )FBE'JU 1SP9 ɾՁ֨ ԁ ʲ೥൛ʳ ʲ೥൛ʳ ɾϝʔΧʔ"VEJP-BC ɾ঎඼໊)FBE'JU 1SP9 ɾՁ֨ ԁ ɾಛ௃γϯϓϧ ߴ඼࣭ ߴڃײ ίϯςΩετ ը૾ ίϯςΩετ ςΩετ ΫΤϦςΩετ ࣭໰จ )FBE'JU 1SP9ͷൢചՁ֨͸ʁ -7-. ? •ը૾ͷ৘ใͱ ໃ६ͨ͠ ςΩετ৘ใ͸ͲͪΒ͕༏ઌ͞ΕΔʁ
  6. 6 -7-.͸ը૾ΑΓ΋ ໃ६ͨ͠ ςΩετ৘ใΛڧ͘৴པ͢Δ 3. 本研究の概要 4/-1c •ଟ͘ͷ -7-.͸ɺը૾ͷ৘ใ ΑΓ΋

    ໃ६ͨ͠ ςΩετ৘ใ Λ ڧ͘৴པ͢Δ܏޲͕֬ೝ͞Εͨ എܠ ํ๏ ݁Ռ ߟ࡯ ؔ࿈ݚڀ جૅ஌ࣝ ֓ཁ  ԁ )FBE'JU 1SP9 ɾՁ֨ ԁ ʲ೥൛ʳ ʲ೥൛ʳ ɾϝʔΧʔ"VEJP-BC ɾ঎඼໊)FBE'JU 1SP9 ɾՁ֨ ԁ ɾಛ௃γϯϓϧ ߴ඼࣭ ߴڃײ ίϯςΩετ ը૾ ίϯςΩετ ςΩετ ΫΤϦςΩετ ࣭໰จ )FBE'JU 1SP9ͷൢചՁ֨͸ʁ -7-.
  7. 7 ຊݚڀͷओཁͳ஌ݟ·ͱΊ 3. 本研究の概要 4/-1c •ଟ͘ͷ -7-.ʹ͸ɺࢹ֮৘ใ ͱ ੔߹͠ͳ͍ ςΩετ৘ใ

    Λա౓ʹ ৴པͯ͠͠·͏ςΩετόΠΞε CMJOEGBJUIJOUFYU ͕ଘࡏ͢Δ എܠ ํ๏ ݁Ռ ߟ࡯ ؔ࿈ݚڀ جૅ஌ࣝ ֓ཁ  ԁ )FBE'JU 1SP9 ɾՁ֨ ԁ ʲ೥൛ʳ ʲ೥൛ʳ ɾϝʔΧʔ"VEJP-BC ɾ঎඼໊)FBE'JU 1SP9 ɾՁ֨ ԁ ɾಛ௃γϯϓϧ ߴ඼࣭ ߴڃײ ίϯςΩετ ը૾ ίϯςΩετ ςΩετ ΫΤϦςΩετ ࣭໰จ )FBE'JU 1SP9ͷൢചՁ֨͸ʁ -7-.
  8. 8 ຊݚڀͷओཁͳ஌ݟ·ͱΊ 3. 本研究の概要 4/-1c •ଟ͘ͷ -7-.ʹ͸ɺࢹ֮৘ใ ͱ ੔߹͠ͳ͍ ςΩετ৘ใ

    Λա౓ʹ ৴པͯ͠͠·͏ςΩετόΠΞε CMJOEGBJUIJOUFYU ͕ଘࡏ͢Δ എܠ ํ๏ ݁Ռ ߟ࡯ ؔ࿈ݚڀ جૅ஌ࣝ ֓ཁ •͜ͷςΩετόΠΞεʹӨڹΛ༩͑ಘΔཁૉΛෳ਺ௐࠪͨ͠ ◦ *OTUSVDUJPO1SPNQUT - lը૾ͷํʹ஫໨͠ͳ͍͞zͷΑ͏ͳࢦࣔΛ༩͑ͯ΋ςΩετόΠΞε͸গ͔͠͠վળ͠ͳ͍ ◦ --.`T.PEFM4J[F - -7-.ʹ࠾༻͢Δ --.ͷαΠζΛେ͖ͯ͘͠΋ςΩετόΠΞε͸গ͔͠͠վળ͠ͳ͍ ◦ 5FYU3FMFWBODF - ίϯςΩετ ςΩετͷ ࣭໰จͱͷ ؔ࿈౓͕ߴ͍΄ͲςΩετόΠΞεʹڧ͘Өڹ͢Δ ◦ 5PLFO0SEFS - ը૾ͷલʹίϯςΩετ ςΩετΛૠೖ͢ΔͱςΩετόΠΞε͕ѱԽ͢Δ  ԁ )FBE'JU 1SP9 ɾՁ֨ ԁ ʲ೥൛ʳ ʲ೥൛ʳ ɾϝʔΧʔ"VEJP-BC ɾ঎඼໊)FBE'JU 1SP9 ɾՁ֨ ԁ ɾಛ௃γϯϓϧ ߴ඼࣭ ߴڃײ ίϯςΩετ ը૾ ίϯςΩετ ςΩετ ΫΤϦςΩετ ࣭໰จ )FBE'JU 1SP9ͷൢചՁ֨͸ʁ -7-.
  9. ຊݚڀͷओཁͳ஌ݟ·ͱΊ 3. 本研究の概要 •ଟ͘ͷ -7-.ʹ͸ɺࢹ֮৘ใ ͱ ੔߹͠ͳ͍ ςΩετ৘ใ Λա౓ʹ ৴པͯ͠͠·͏ςΩετόΠΞε

    CMJOEGBJUIJOUFYU ͕ଘࡏ͢Δ എܠ ํ๏ ݁Ռ ߟ࡯ ؔ࿈ݚڀ جૅ஌ࣝ ֓ཁ •͜ͷςΩετόΠΞεʹӨڹΛ༩͑ಘΔཁૉΛෳ਺ௐࠪͨ͠ ◦ *OTUSVDUJPO1SPNQUT - lը૾ͷํʹ஫໨͠ͳ͍͞zͷΑ͏ͳࢦࣔΛ༩͑ͯ΋ςΩετόΠΞε͸গ͔͠͠վળ͠ͳ͍ ◦ --.`T.PEFM4J[F - -7-.ʹ࠾༻͢Δ --.ͷαΠζΛେ͖ͯ͘͠΋ςΩετόΠΞε͸গ͔͠͠վળ͠ͳ͍ ◦ 5FYU3FMFWBODF - ίϯςΩετςΩετͷ ը૾ͱͷ ؔ࿈౓͕ߴ͍΄ͲςΩετόΠΞεʹڧ͘Өڹ͢Δ ◦ 5PLFO0SEFS - ը૾ͷલʹίϯςΩετςΩετΛૠೖ͢ΔͱςΩετόΠΞε͕ѱԽ͢Δ  ԁ )FBE'JU 1SP9 ɾՁ֨ ԁ ʲ೥൛ʳ ʲ೥൛ʳ ɾϝʔΧʔ"VEJP-BC ɾ঎඼໊)FBE'JU 1SP9 ɾՁ֨ ԁ ɾಛ௃γϯϓϧ ߴ඼࣭ ߴڃײ ίϯςΩετ ը૾ ίϯςΩετ ςΩετ ΫΤϦςΩετ ࣭໰จ )FBE'JU 1SP9ͷൢചՁ֨͸ʁ -7-. ͳͥ -7-.͸ςΩετόΠΞεΛ࣋ͭͷ͔ʁ 2 " ຊ࿦จͰ͸ɺ-7-.ͷςΩετόΠΞε͸ ◦ -7-.Λߏ੒͢ΔֶशࡁΈ --.ͷʮςΩετʯֶशσʔλྔ ͱ ◦ -7-.ͷʮը૾ςΩετʯֶशσʔλྔ Λൺֱ͢Δͱɺѹ౗తʹʮςΩετʯֶशσʔλྔͷํ͕ଟ͍ ͜ͱ͔Βੜ͍ͯ͡Δͱ ཧ࿦อূ ෇͖Ͱ આ໌͍ͯ͠Δ 9 4/-1c ˞ ˞ຊεϥΠυͰ͸ɺཧ࿦อূͷৄࡉ·Ͱ౿ΈࠐΈ·ͤΜɻৄࡉΛ஌Γ͍ͨ৔߹͸ɺ঺հ࿦จͷ "QQFOEJYΛ͝ࢀর͍ͩ͘͞ɻ ͜ΕΑΓֶशΛߦΘͳ͍খखઌͷ޻෉Ͱ͸վળ͠ͳ͍͜ͱΛ͍ࣔࠦͯ͠Δ
  10. 10 ධՁࢦඪͷઆ໌ ᶃ 4. 実験⽅法: 使⽤する変数の定義 4/-1c എܠ ֓ཁ ݁Ռ

    ߟ࡯ ؔ࿈ݚڀ ํ๏ جૅ஌ࣝ •ຊݚڀͰ͸ɺҎԼͷ ͭͷ৚݅ԼͰ༧ଌ݁Ռ͕ಘΒΕΔઃఆʹͳ͍ͬͯΔ ɾ𝑄࣭໰จ ɾ𝑓!"!# ($; 𝜃)ύϥϝʔλ 𝜃 Λ࣋ͭ -7-. ◦! 𝒀𝐢𝐦𝐠 ≔ 𝒇𝐥𝐯𝐥𝐦(𝑸, 𝑰; 𝜽) ◦! 𝒀𝐭𝐱𝐭 ≔ 𝒇𝐥𝐯𝐥𝐦 (𝑸, 𝑻; 𝜽) ◦! 𝒀𝐦𝐢𝐱 ≔ 𝒇𝐥𝐯𝐥𝐦 (𝑸, 𝑰, 𝑻; 𝜽) ը૾ ͷΈ͕༩͑ΒΕͨ৔߹ͷ༧ଌ݁Ռ ςΩετ ͷΈ͕༩͑ΒΕͨ৔߹ͷ༧ଌ݁Ռ ը૾ ͱ ςΩετ ྆ํ͕༩͑ΒΕͨ৔߹ͷ༧ଌ݁Ռ ɾ𝐼 ίϯςΩετ ը૾ ɾ𝑇 ίϯςΩετ ςΩετ
  11. ධՁࢦඪͷઆ໌ ᶄछྨͷίϯςΩετςΩετΛ४උ͢Δ 4. 実験⽅法: 使⽤する変数の定義 എܠ ֓ཁ ݁Ռ ߟ࡯ ؔ࿈ݚڀ

    ํ๏ جૅ஌ࣝ 5IF QJ[[BIBTHSFFO QFQQFS TMJDFT PO POF PG JUT TFDUJPOT 5IF QJ[[BIBTHSFFO CSPDDPMJ GMPSFUT PO POF PG JUT TFDUJPOT #FDLIBNPCUBJOFE IJT FBSMZ FEVDBUJPO BU 3PTFMBOE"DBEFNZ JO #BSETUPXO 𝑻𝒎 𝑻𝒄 𝑻𝒊𝒓𝒓 5ZQF .BUDI 5ZQF $PSSVQUJPO 5ZQF *SSFMFWBODF 8IBU HSFFO WFHHJFJT PO UIF QJ[[B QFQQFS ը૾! ࣭໰จ" ਖ਼ղ# (&') 𝑻𝒎 ͚ͩΛ༻͍ͯ 𝑸 ʹղ౴ Ͱ͖ΔΑ͏ͳςΩετΛ࣋ͭ 𝑻𝒄 ͚ͩΛ༻͍ͯ 𝑸 ʹղ౴ ͢Δͱؒҧ͑ͯ͠·͏Α͏ͳ ςΩετΛ࣋ͭ 𝑰, 𝑸 ྆ํʹແؔ܎ͳςΩετΛ࣋ͭ 11 4/-1c
  12. ධՁࢦඪͷઆ໌ ᶄछྨͷίϯςΩετςΩετΛ४උ͢Δ 4. 実験⽅法: 使⽤する変数の定義 എܠ ֓ཁ ݁Ռ ߟ࡯ ؔ࿈ݚڀ

    ํ๏ جૅ஌ࣝ 5IF QJ[[BIBTHSFFO QFQQFS TMJDFT PO POF PG JUT TFDUJPOT 5IF QJ[[BIBTHSFFO CSPDDPMJ GMPSFUT PO POF PG JUT TFDUJPOT #FDLIBNPCUBJOFE IJT FBSMZ FEVDBUJPO BU 3PTFMBOE"DBEFNZ JO #BSETUPXO 𝑻𝒎 𝑻𝒄 𝑻𝒊𝒓𝒓 5ZQF .BUDI 5ZQF $PSSVQUJPO 5ZQF *SSFMFWBODF 8IBU HSFFO WFHHJFJT PO UIF QJ[[B QFQQFS ը૾! ࣭໰จ" ਖ਼ղ# (&') 𝑻𝒎 ͚ͩΛ༻͍ͯ 𝑸 ʹղ౴ Ͱ͖ΔΑ͏ͳςΩετΛ࣋ͭ 𝑻𝒄 ͚ͩΛ༻͍ͯ 𝑸 ʹղ౴ ͢Δͱؒҧ͑ͯ͠·͏Α͏ͳ ςΩετΛ࣋ͭ 𝑰, 𝑸 ྆ํʹແؔ܎ͳςΩετΛ࣋ͭ 12 4/-1c
  13. ධՁࢦඪͷઆ໌ ᶄछྨͷίϯςΩετςΩετΛ४උ͢Δ 4. 実験⽅法: 使⽤する変数の定義 എܠ ֓ཁ ݁Ռ ߟ࡯ ؔ࿈ݚڀ

    ํ๏ جૅ஌ࣝ 5IF QJ[[BIBTHSFFO QFQQFS TMJDFT PO POF PG JUT TFDUJPOT 5IF QJ[[BIBTHSFFO CSPDDPMJ GMPSFUT PO POF PG JUT TFDUJPOT #FDLIBNPCUBJOFE IJT FBSMZ FEVDBUJPO BU 3PTFMBOE"DBEFNZ JO #BSETUPXO 𝑻𝒎 𝑻𝒄 𝑻𝒊𝒓𝒓 5ZQF .BUDI 5ZQF $PSSVQUJPO 5ZQF *SSFMFWBODF 8IBU HSFFO WFHHJFJT PO UIF QJ[[B QFQQFS ը૾! ࣭໰จ" ਖ਼ղ# (&') 𝑻𝒎 ͚ͩΛ༻͍ͯ 𝑸 ʹղ౴ Ͱ͖ΔΑ͏ͳςΩετΛ࣋ͭ 𝑻𝒄 ͚ͩΛ༻͍ͯ 𝑸 ʹղ౴ ͢Δͱؒҧ͑ͯ͠·͏Α͏ͳ ςΩετΛ࣋ͭ 𝑰, 𝑸 ྆ํʹແؔ܎ͳςΩετΛ࣋ͭ 13 4/-1c
  14. 14 ධՁࢦඪͷઆ໌ ᶄछྨͷίϯςΩετςΩετΛ४උ͢Δ 4. 実験⽅法: 使⽤する変数の定義 4/-1c എܠ ֓ཁ ݁Ռ

    ߟ࡯ ؔ࿈ݚڀ ํ๏ جૅ஌ࣝ 5IF QJ[[BIBTHSFFO QFQQFS TMJDFT PO POF PG JUT TFDUJPOT 5IF QJ[[BIBTHSFFO CSPDDPMJ GMPSFUT PO POF PG JUT TFDUJPOT #FDLIBNPCUBJOFE IJT FBSMZ FEVDBUJPO BU 3PTFMBOE"DBEFNZ JO #BSETUPXO 𝑻𝒎 𝑻𝒄 𝑻𝒊𝒓𝒓 5ZQF .BUDI 5ZQF $PSSVQUJPO 5ZQF *SSFMFWBODF 8IBU HSFFO WFHHJFJT PO UIF QJ[[B QFQQFS ը૾! ࣭໰จ" ਖ਼ղ# (&') 𝑻𝒎 ͚ͩΛ༻͍ͯ 𝑸 ʹղ౴ Ͱ͖ΔΑ͏ͳςΩετΛ࣋ͭ 𝑻𝒄 ͚ͩΛ༻͍ͯ 𝑸 ʹղ౴ ͢Δͱؒҧ͑ͯ͠·͏Α͏ͳ ςΩετΛ࣋ͭ 𝑰, 𝑸 ྆ํʹແؔ܎ͳςΩετΛ࣋ͭ ͜ΕΒͷ ίϯς Ωετ ςΩετ ͸ 𝐼 𝑄 Y (GT) Λ جʹͯ͠ (15P ʹΑΓ߹੒͞ΕΔ˞ ˞(15PΛ࢖༻ͨ͠σʔλ߹੒ํ๏ʹ͍ͭͯৄ͘͠஌Γ͍ͨ৔߹͸ɺ࿦จຊจͷ 4FDUJPOΛ͝ࢀর͍ͩ͘͞ɻ
  15. ධՁࢦඪͷઆ໌ ᶅ֤ 5ZQF͝ͱʹಠཱʹҰக౓Λࢉग़ 4. 実験⽅法: 使⽤する変数の定義 എܠ ֓ཁ ݁Ռ ߟ࡯

    ؔ࿈ݚڀ ํ๏ جૅ஌ࣝ ◦! " !"# ≔ $$%$" (&, (; +) ◦! " &'& ≔ $$%$" (&, -; +) ◦! " "!' ≔ $$%$" (&, (, -; +) ը૾ ͷΈ͕༩͑ΒΕͨ৔߹ͷ༧ଌ݁Ռ ςΩετ ͷΈ͕༩͑ΒΕͨ৔߹ͷ༧ଌ݁Ռ ը૾ ͱ ςΩετ ྆ํ͕༩͑ΒΕͨ৔߹ͷ༧ଌ݁Ռ \ը૾͚ͩݴޠ͚ͩ^༩͑ͨ࣌ͷ༧ଌ݁Ռ͕Ұக͠ͳ͍৔߹ ! 𝒀𝐢𝐦𝐠 ≠ ! 𝒀𝐭𝐱𝐭 ͷ ධՁσʔλू߹ 𝓢 ݅਺|𝓢| ʹݶఆ͠ɺϞσϧͷڍಈΛҎԼͷ ৚݅ʹ෼ྨ ɾ𝒏𝐢𝐦𝐠 ( 𝒀𝐦𝐢𝐱 = ( 𝒀𝐢𝐦𝐠 ͱͳΔσʔλ݅਺ ◦𝒑𝐢𝐦𝐠 ≔ 𝒏𝐢𝐦𝐠 |𝓢| ◦𝒑𝐭𝐱𝐭 ≔ 𝒏𝐭𝐱𝐭 |𝓢| ◦𝒑𝐨 ≔ 𝒏𝐨𝐭𝐡𝐞𝐫 |𝓢| ධՁσʔλ 𝒮 ͷதͰɺ! 𝒀𝐦𝐢𝐱 ≠ ! 𝒀𝐢𝐦𝐠 ! 𝒀𝐭𝐱𝐭 ͱͳΔҰக౓ ແؔ܎ग़ྗ ධՁσʔλ 𝒮 ͷதͰɺ! 𝒀𝐦𝐢𝐱 = ! 𝒀𝐢𝐦𝐠 ͱͳΔҰக౓ ը૾༏ઌग़ྗ ධՁσʔλ 𝒮 ͷதͰɺ! 𝒀𝐦𝐢𝐱 = ! 𝒀𝐭𝐱𝐭 ͱͳΔҰக౓ ςΩετ༏ઌग़ྗ ɾ𝒏𝐭𝐱𝐭 ( 𝒀𝐦𝐢𝐱 = ( 𝒀𝐭𝐱𝐭 ͱͳΔσʔλ݅਺ ɾ𝒏𝐨𝐭𝐡𝐞𝐫 ( 𝒀𝐦𝐢𝐱 ≠ ( 𝒀𝐢𝐦𝐠 ( 𝒀𝐭𝐱𝐭 ͱͳΔσʔλ݅਺ 15 4/-1c ◦ ֤λΠϓ .BUDI $PSSVQUJPO *SSFMFWBODF ͝ͱʹಠཱʹˢͷҰக౓Λࢉग़͢Δ
  16. ධՁࢦඪͷઆ໌ ᶆ ͭͷධՁࢦඪΛఆٛ͠ɺ࢖༻͢Δ 4. 実験⽅法: 使⽤する評価指標の定義 എܠ ֓ཁ ݁Ռ ߟ࡯

    ؔ࿈ݚڀ ํ๏ جૅ஌ࣝ 5FYU1SFGFSFODF3BUJP 513 𝐓𝐏𝐑 ≔ 𝒑𝐭𝐱𝐭 𝒑𝐭𝐱𝐭 + 𝒑𝐢𝐦𝐠 -7-.͕ը૾ΑΓ΋ςΩετΛ༏ઌ͢Δ ౓߹͍Λද͢ɻ513͕ߴ͍΄Ͳɺ ΑΓڧ͍ςΩετόΠΞεΛ൓ө͍ͯ͠Δɻ "DDVSBDZ #BTF ΦϦδφϧͷఆٛ௨Γͷ ਖ਼ղ཰ɻ ໰୊ηοτ 𝒬 ݅਺|𝒬| ʹର͢Δ -7-.ͷ ਖ਼ղ཰Λ 𝐀𝐜𝐜 𝒇𝐥𝐯𝐥𝐦; 𝓠 ͱఆٛ͢Δɻ .BDSP"DDVSBDZ .BDSP 𝐌𝐚𝐜𝐫𝐨 𝒇𝐥𝐯𝐥𝐦 ≔ 𝟏 𝟑 ( 𝐀𝐜𝐜 𝒇𝐥𝐯𝐥𝐦; 𝓠𝐌𝐚𝐭𝐜𝐡 +𝐀𝐜𝐜 𝒇𝐥𝐯𝐥𝐦; 𝓠𝐂𝐨𝐫𝐫𝐮𝐩𝐭𝐢𝐨𝐧 +𝐀𝐜𝐜 𝒇𝐥𝐯𝐥𝐦; 𝓠𝐈𝐫𝐫𝐞𝐥𝐞𝐯𝐚𝐧𝐜𝐞 ) ໰୊ηοτ 𝒬 ݅਺|𝒬| ʹରͯ͠ λΠϓ ͝ͱʹࢉग़ͨ͠ਖ਼ղ཰Λฏۉͨ͠΋ͷɻ /PSNBMJ[FE"DDVSBDZ /PSN 𝐍𝐨𝐫𝐦 𝒇𝐥𝐯𝐥𝐦; 𝓠 = 𝐀𝐜𝐜 𝒇𝐥𝐯𝐥𝐦; 𝓠 𝐀𝐜𝐜 𝒇𝐥𝐯𝐥𝐦; 𝓑 ϕʔε໰୊ηοτℬ ʹର͢Δਖ਼ղ཰ͱൺ΂ͯɺ ίϯςΩετ ςΩετͷλΠϓมߋʹΑͬͯ ग़ྗ݁Ռ͕Ͳͷఔ౓ӨڹΛड͚Δ͔Λଌఆ͢Δɻ 16 4/-1c
  17. 17 ࢖༻͢ΔධՁσʔληοτͱൺֱର৅ͷ -7-.T 4. 実験⽅法: 評価データセットとモデル 4/-1c എܠ ֓ཁ ݁Ռ

    ߟ࡯ ؔ࿈ݚڀ ํ๏ جૅ஌ࣝ •࣮ݧʹ࢖༻͢Δ ͭͷධՁσʔληοτ શ  ݅  ݅ ʷ λΠϓ ◦ (FOFSBM72" 72" W WBM  ݅ ◦ %PDVNFOU72" %PD72" WBM  ݅ ◦ .BUI 3FBTPOJOH .BUI7JTUB UFTU  ݅ ◦ #SBOE3FDPHOJUJPO ϑΟογϯάݕग़σʔληοτ UFTU  ݅ •ൺֱର৅ͷ -7-.T શ छྨ ◦ ϓϩϓϥΠΤλϦϞσϧ - (15P (15PNJOJ $MBVEF4POOFU $MBVEF)BJLV ◦ ΦʔϓϯϞσϧ - 1IJ  .PMNP#%  --B7"/F95\# # #^ 2XFO7-#
  18. 18 -7-.T͸ը૾ΑΓ΋ςΩετΛ༏ઌ͢Δ܏޲͕͋Δ CMJOEGBJUIJOUFYU 5. 実験結果: blind faith in text 4/-1c

    എܠ ֓ཁ ํ๏ ߟ࡯ ؔ࿈ݚڀ جૅ஌ࣝ ݁Ռ 𝒏𝐢𝐦𝐠 ! 𝐘𝐦𝐢𝐱 = ! 𝐘𝐢𝐦𝐠 ͱͳΔσʔλ݅਺ 𝒏𝐭𝐱𝐭 ! 𝐘𝐦𝐢𝐱 = ! 𝐘𝐭𝐱𝐭 ͱͳΔσʔλ݅਺ 𝒏𝐨𝐭𝐡𝐞𝐫 ! 𝐘𝐦𝐢𝐱 ≠ ! 𝐘𝐢𝐦𝐠 , ! 𝐘𝐭𝐱𝐭 ͱͳΔσʔλ݅਺ •શମͱͯ͠ɺߴ͍ςΩετ༏ઌൺ཰ 513 ௨ৗˋҎ্ ͕؍࡯͞Εͨ ◦ ಛʹΦʔϓϯϞσϧͰ͜ͷ܏޲͕ݦஶ ◦ ϓϩϓϥΠΤλϦϞσϧͰ΋ɺখن໛ ͳ (15PNJOJ $MBVEF)BJLVͰ͜ͷ܏޲Λ֬ೝ
  19. •શମͱͯ͠ɺߴ͍ςΩετ༏ઌൺ཰ 513 ௨ৗˋҎ্ ͕؍࡯͞Εͨ ◦ ಛʹΦʔϓϯϞσϧͰ͜ͷ܏޲͕ݦஶ ◦ ϓϩϓϥΠΤλϦϞσϧͰ΋ɺখن໛ ͳ (15PNJOJ

    $MBVEF)BJLVͰ͜ͷ܏޲Λ֬ೝ 19 -7-.T͸ը૾ΑΓ΋ςΩετΛ༏ઌ͢Δ܏޲͕͋Δ CMJOEGBJUIJOUFYU 5. 実験結果: blind faith in text 4/-1c എܠ ֓ཁ ํ๏ ߟ࡯ ؔ࿈ݚڀ جૅ஌ࣝ ݁Ռ 𝒏𝐢𝐦𝐠 ! 𝐘𝐦𝐢𝐱 = ! 𝐘𝐢𝐦𝐠 ͱͳΔσʔλ݅਺ 𝒏𝐭𝐱𝐭 ! 𝐘𝐦𝐢𝐱 = ! 𝐘𝐭𝐱𝐭 ͱͳΔσʔλ݅਺ 𝒏𝐨𝐭𝐡𝐞𝐫 ! 𝐘𝐦𝐢𝐱 ≠ ! 𝐘𝐢𝐦𝐠 , ! 𝐘𝐭𝐱𝐭 ͱͳΔσʔλ݅਺ •2XFO7-#͸ɺ.BUDI  ʹൺ΂ͯ $PSSVQUJPO  ͷ৔߹Ͱɺ ߴ͍ςΩετ༏ઌൺ཰ 513Λࣔͨ͠ ◦ ਖ਼֬ͳ৘ใͱෆਖ਼֬ͳ৘ใΛ۠ผ͢Δೳྗ͕ݶఆతͰ͋ΔՄೳੑΛࣔࠦ
  20. 20 -7-.T͸ໃ६ͨ͠ςΩετͷӨڹʹΑΓɺ72"ͷੑೳ͕௿Լ͠΍͍͢ 5. 実験結果: Performance Impact 4/-1c •-7-.͸ໃ६ͨ͠ςΩετͷӨڹΛड͚΍͘͢ɺछʑͷ 72"λεΫͷੑೳ͕௿Լ͢Δ ◦

    ͨͩ͠ྫ֎తʹɺ(15P΍ $MBVEF4POOFUͷΑ͏ͳϓϩϓϥΠΤλϦϞσϧ͸ؤ݈ എܠ ֓ཁ ํ๏ ߟ࡯ ؔ࿈ݚڀ جૅ஌ࣝ ݁Ռ /PSNͷ஋͕খ͍͞΄Ͳɺ$PSSVQUJPOςΩετͷӨڹΛड͚΍͘͢ ੑೳ͕௿Լ͍ͯ͠Δ͜ͱΛ͍ࣔͯ͠Δ /PSN#BTF  ʸ $PSSVQUJPO 
  21. 22 ϞσϧαΠζΛେ͖ͯ͘͠΋ςΩετόΠΞε͸࢒Δ 5. 実験結果: Influencing Factors ② 4/-1c •ϞσϧαΠζΛେ͖ͯ͘͠΋ɺςΩετ༏ઌൺ཰ 513

    ͸গ͔͠͠௿Լ͠ͳ͍ ςΩετόΠΞε CMJOEGBJUIJOUFYU ͸΄ͱΜͲվળ͠ͳ͍ എܠ ֓ཁ ํ๏ ߟ࡯ ؔ࿈ݚڀ جૅ஌ࣝ ݁Ռ
  22. 23 ࣭໰จͱΑΓؔ࿈ͨ͠ςΩετ͸ςΩετόΠΞεΛॿ௕͢Δ܏޲ 5. 実験結果: Influencing Factors ③ 4/-1c •࣭໰จͱΑΓؔ࿈ͨ͠ ίϯςΩετ

    ςΩετ͸ςΩετ༏ઌൺ཰ 513 Λ ॿ௕͢ΔՄೳੑ͕͋Δ ◦ ͨͩϞσϧʹΑͬͯ͸ɺ΄ͱΜͲӨڹΛड͚͍ͯͳ͍Α͏ʹݟ͑Δ΋ͷ΋͋Γɺ΍΍ջٙత എܠ ֓ཁ ํ๏ ߟ࡯ ؔ࿈ݚڀ جૅ஌ࣝ ݁Ռ
  23. 24 ը૾ ຒΊࠐΈ ͷ࿈݁ҐஔʹΑΓςΩετόΠΞε͸มԽ͢Δ 5. 実験結果: Influencing Factors ④ 4/-1c

    •ը૾ͷલʹ ίϯςΩετ ςΩετΛૠೖ͢ΔͱςΩετόΠΞε͕ѱԽ͢Δ ◦ --B7" Ͱ͸ϞσϧͷੑೳʹͦΕ΄Ͳେ͖ͳӨڹ͸ແ͍ͷͰɺֶश࣌ʹ JNBHF͸ৗʹઌ಄ʹ ഑ஔ͞ΕΔΑ͏ʹमਖ਼ͨ͠ͱ (JUIVC *TTVFTʹͯݴٴ͞Ε͍ͯͨ ͕ɺςΩετόΠΞεͷѱԽ ͱ͍͏༧૝֎ͷཁૉ͕ग़͖ͯͨͷͰɺֶश࣌ͷ JNBHFͷ഑ஔʹ͍ͭͯ͸࠶ߟ͍ͨ͠ എܠ ֓ཁ ํ๏ ߟ࡯ ؔ࿈ݚڀ جૅ஌ࣝ ݁Ռ ը૾ ˠ ςΩετ ςΩετ ˠ ը૾ ˞ ˞IUUQTHJUIVCDPNIBPUJBOMJV--B7"JTTVFTJTTVFDPNNFOU
  24.  ԁ )FBE'JU 1SP9 ɾՁ֨ ԁ ʲ೥൛ʳ ʲ೥൛ʳ ɾϝʔΧʔ"VEJP-BC ɾ঎඼໊)FBE'JU

    1SP9 ɾՁ֨ ԁ ɾಛ௃γϯϓϧ ߴ඼࣭ ߴڃײ ίϯςΩετ ը૾ ίϯςΩετ ςΩετ ΫΤϦςΩετ ࣭໰จ )FBE'JU 1SP9ͷൢചՁ֨͸ʁ -7-. 25 4/-1c •ଟ͘ͷ -7-.ʹ͸ɺࢹ֮৘ใ ͱ ੔߹͠ͳ͍ ςΩετ৘ใ Λա౓ʹ ৴པͯ͠͠·͏ςΩετόΠΞε CMJOEGBJUIJOUFYU ͕ଘࡏ͢Δ •͜ͷςΩετόΠΞεʹӨڹΛ༩͑ಘΔཁૉΛෳ਺ௐࠪͨ͠ ◦ *OTUSVDUJPO1SPNQUT - lը૾ͷํʹ஫໨͠ͳ͍͞zͷΑ͏ͳࢦࣔΛ༩͑ͯ΋ςΩετόΠΞε͸গ͔͠͠վળ͠ͳ͍ ◦ --.`T.PEFM4J[F - -7-.ʹ࠾༻͢Δ --.ͷαΠζΛେ͖ͯ͘͠΋ςΩετόΠΞε͸গ͔͠͠վળ͠ͳ͍ ◦ 5FYU3FMFWBODF - ίϯςΩετ ςΩετͷ ࣭໰จͱͷ ؔ࿈౓͕ߴ͍΄ͲςΩετόΠΞεʹڧ͘Өڹ͢Δ ◦ 5PLFO0SEFS - ը૾ͷલʹίϯςΩετ ςΩετΛૠೖ͢ΔͱςΩετόΠΞε͕ѱԽ͢Δ 5. 実験結果: Influencing Factors ࠶ܝ ຊݚڀͷओཁͳ஌ݟ·ͱΊ എܠ ֓ཁ ํ๏ ߟ࡯ ؔ࿈ݚڀ جૅ஌ࣝ ݁Ռ
  25. 26 छྨͷςΩετΛؚΉ 4'5ʹΑΓςΩετόΠΞε͸վળ͢Δʁ 6. 考察: Supervised Finetuning (SFT) の効果 4/-1c

    •छྨͷ ίϯςΩετ ςΩετΛؚΉ 4'5ʹΑΓɺςΩετόΠΞε͕ܰݮ͢Δ ◦ ಛʹɺ.BUDIͱ $PSSVQUJPOͷέʔεΛ ۠ผ͢ΔϞσϧͷೳྗ ΫΤϦʹରͯ͠ ద੾ͳղ౴Λಋͨ͘Ίʹ༏ઌϞμϦςΟΛ બ୒͢Δೳྗ ͕޲্͍ͯ͠Δ എܠ ֓ཁ ํ๏ ݁Ռ ؔ࿈ݚڀ جૅ஌ࣝ ߟ࡯ •ͨͩ͠ɺ ࣮຿ʹ༗༻ͳϨϕϧͰͷ े෼ͳ վળ͸͍ࣔͯ͠ͳ͍ ͱࢲ͸ߟ͍͑ͯΔ  Match Corruption Irrelevance Average
  26. 27 -7-.ͷςΩετόΠΞε͸ࣄલֶशࡁ --.ͷֶशσʔλྔ༝དྷͷ΋ͷ 6. 考察: Theoretical Analysis 4/-1c എܠ ֓ཁ

    ํ๏ ݁Ռ ؔ࿈ݚڀ جૅ஌ࣝ ߟ࡯ •ʮςΩετʯֶशσʔλαΠζ 𝑵 ʮը૾ςΩετʯֶशσʔλαΠζ 𝑴ͱ ͨ࣌͠ɺ֤σʔλʹ͓͚Δظ଴ଛࣦ͸ҎԼͷ߲ͷӨڹΛड͚Δ ʢཧ࿦อূͷ਺ࣜ ͔ΒҰ෦ൈਮʣ ◦ ʮςΩετʯσʔλʹؔͯ͠ 𝑴 𝑵/𝑴 𝜺𝐜𝐫𝐨𝐬𝐬 ◦ʮը૾ςΩετʯσʔλʹؔͯ͠ 𝑵 𝑵0𝑴 𝜺𝐜𝐫𝐨𝐬𝐬 •ͨͩ͠ɺଟ͘ͷ -7-.Ͱ͸ɺ𝑵 ≫ 𝑴 ͱͳΔͨΊɺ ʮը૾ςΩετʯσʔλʹ͓͚Δظ଴ଛࣦ͸େ͖͘ɺ ʮςΩετʯσʔλʹ͓͚Δظ଴ଛࣦ͸খ͍͞ ˠ 𝑵 ͕ۃ୺ʹେ͖͍ͷͰɺ-7-.͸ը૾ΑΓ΋ςΩετΛ༏ઌ͠΍͘͢ͳΔ ◦ ʢ-7-.͕࠷΋खͬऔΓૣ͘ଛࣦΛԼ͛Δઓུ͸ʮը૾Λແࢹͯ͠աڈจ຺ͷςΩετʹ ґଘͯ͠ग़ྗʯ͢Δ͜ͱʹͳΓ͕ͪͩͱࢥ͏ͷͰɺࢲͷ௚ײʹ΋߹͍ͬͯΔʣ ˞ ˞ຊεϥΠυͰ͸ɺཧ࿦อূͷৄࡉ·Ͱ౿ΈࠐΈ·ͤΜɻৄࡉΛ஌Γ͍ͨ৔߹͸ɺ঺հ࿦จͷ "QQFOEJYΛ͝ࢀর͍ͩ͘͞ɻ
  27. 28 ʮ-7-.ͷςΩετόΠΞε͸ࣄલֶशࡁ --.༝དྷͷ΋ͷʯͱ͍͏ ओுΛαϙʔτ͢Δผͷࢹ఺Ͱͷؔ࿈ݚڀ݁Ռ <:BOH *$-3> 7. 本研究と関連しそうな研究の主観的紹介 4/-1c •-7-.ͷݬ֮ϔουʹ͓͚Δ

    "UUFOUJPO.BQ͸ɺ ը૾Λ༩͑ͳ͍৔߹ͱ༩͑ͨ৔߹Ͱڧ͘ྨࣅ͢Δ ◦ ͜Ε͸ֶशࡁϕʔε --.ͷ "UUFOUJPO͕ -7-.ͷֶशͰมԽ͠ʹ͍͘͜ͱʹؔ࿈͕͋Δʁ •-7-.ͷݬ֮ϔουʹ͓͚Δ "UUFOUJPO.BQ͸มԽ͠ʹ͍͘ എܠ ֓ཁ ํ๏ ݁Ռ ߟ࡯ ؔ࿈ݚڀ جૅ஌ࣝ ˛ -7-.ͱͦͷϕʔε--.ͷੜ੒͞ΕͨςΩεττʔΫϯʹର͢Δɺ τοϓͷݬ֮ϔου͓Αͼඇݬ֮ϔουͷ "UUFOUJPO.BQɻ ˛ 7JTVBM*OTUSVDUJPO5VOJOHલͷ -7-.͔Β ͷ "UUFOUJPO.BQͷ+4μΠόʔδΣϯεͷ ֶश TUFQʹ͓͚ΔมԽ <><>6OEFSTUBOEJOHBOE.JUJHBUJOH)BMMVDJOBUJPOJO-BSHF7JTJPO-BOHVBHF.PEFMTWJB.PEVMBS"UUSJCVUJPOBOE*OUFSWFOUJPO :BOH *$-3 'JHVSF 
  28. •ଟ͘ͷ -7-.ʹ͸ɺࢹ֮৘ใ ͱ ੔߹͠ͳ͍ ςΩετ৘ใ Λա౓ʹ ৴པͯ͠͠·͏ςΩετόΠΞε CMJOEGBJUIJOUFYU ͕ଘࡏ͢Δ •͜ͷςΩετόΠΞεʹӨڹΛ༩͑ಘΔཁૉΛෳ਺ௐࠪͨ͠

    ◦ *OTUSVDUJPO1SPNQUT - lը૾ͷํʹ஫໨͠ͳ͍͞zͷΑ͏ͳࢦࣔΛ༩͑ͯ΋ςΩετόΠΞε͸গ͔͠͠վળ͠ͳ͍ ◦ --.`T.PEFM4J[F - -7-.ʹ࠾༻͢Δ --.ͷαΠζΛେ͖ͯ͘͠΋ςΩετόΠΞε͸গ͔͠͠վળ͠ͳ͍ ◦ 5FYU3FMFWBODF - ίϯςΩετςΩετͷ ը૾ͱͷ ؔ࿈౓͕ߴ͍΄ͲςΩετόΠΞεʹڧ͘Өڹ͢Δ ◦ 5PLFO0SEFS - ը૾ͷલʹίϯςΩετςΩετΛૠೖ͢ΔͱςΩετόΠΞε͕ѱԽ͢Δ  ԁ )FBE'JU 1SP9 ɾՁ֨ ԁ ʲ೥൛ʳ ʲ೥൛ʳ ɾϝʔΧʔ"VEJP-BC ɾ঎඼໊)FBE'JU 1SP9 ɾՁ֨ ԁ ɾಛ௃γϯϓϧ ߴ඼࣭ ߴڃײ ίϯςΩετ ը૾ ίϯςΩετ ςΩετ ΫΤϦςΩετ ࣭໰จ )FBE'JU 1SP9ͷൢചՁ֨͸ʁ -7-. ͳͥ -7-.͸ςΩετόΠΞεΛ࣋ͭͷ͔ʁ 2 " ຊ࿦จͰ͸ɺ-7-.ͷςΩετόΠΞε͸ ◦ -7-.Λߏ੒͢ΔֶशࡁΈ --.ͷʮςΩετʯֶशσʔλྔ ͱ ◦ -7-.ͷʮը૾ςΩετʯֶशσʔλྔ Λൺֱ͢Δͱɺѹ౗తʹʮςΩετʯֶशσʔλྔͷํ͕ଟ͍ ͜ͱ͔Βੜ͍ͯ͡Δͱ ཧ࿦อূ ෇͖Ͱ આ໌͍ͯ͠Δ 29 4/-1c ˞ ˞ຊεϥΠυͰ͸ɺཧ࿦อূͷৄࡉ·Ͱ౿ΈࠐΈ·ͤΜɻৄࡉΛ஌Γ͍ͨ৔߹͸ɺ঺հ࿦จͷ "QQFOEJYΛ͝ࢀর͍ͩ͘͞ɻ ͜ΕΑΓֶशΛߦΘͳ͍খखઌͷ޻෉Ͱ͸վળ͠ͳ͍͜ͱΛ͍ࣔࠦͯ͠Δ ࠶ܝ ຊݚڀͷओཁͳ஌ݟ·ͱΊ