Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Words or Vision: Do Vision-Language Models Have...
Search
Daiki Shiono
August 24, 2025
0
100
Words or Vision: Do Vision-Language Models Have Blind Faith in Text? (CVPR2025)
第17回最先端NLP勉強会 (SNLP2025) 発表資料
Daiki Shiono
August 24, 2025
Tweet
Share
More Decks by Daiki Shiono
See All by Daiki Shiono
Large Vision Language Model (LVLM) に関する最新知見まとめ (Part 1)
onely7
28
7.7k
Featured
See All Featured
How to train your dragon (web standard)
notwaldorf
96
6.2k
Rebuilding a faster, lazier Slack
samanthasiow
83
9.2k
Statistics for Hackers
jakevdp
799
220k
Being A Developer After 40
akosma
90
590k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
Producing Creativity
orderedlist
PRO
347
40k
Code Reviewing Like a Champion
maltzj
525
40k
Balancing Empowerment & Direction
lara
3
630
Agile that works and the tools we love
rasmusluckow
330
21k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
850
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
930
Docker and Python
trallard
46
3.6k
Transcript
Ԙେً %BJLJ4IJPOP % (SBEVBUF4DIPPMPG*OGPSNBUJPO4DJFODFT 5PIPLV6OJWFSTJUZ !4/-1 "JMJO%FOH 5SJ$BP ;IJSVJ $IFO
#SZBO)PPJ /BUJPOBM6OJWFSTJUZPG4JOHBQPSF $713 1PTUFS <IUUQTDWQSUIFDWGDPNWJSUVBMQPTUFS >
2 ࣍ ҙࣄ߲ •࣍ 4/-1c •ҙࣄ߲ ◦ ಛʹஅΓ͕ͳ͍ݶΓɺܝࡌ͍ͯ͠Δਤදɺࣗ࡞ͨ͠ͷ PSհݩͷจʹܝࡌ͞Ε͍ͯΔͷʹͳΓ·͢ ຊݚڀΛཧղ͢ΔͨΊͷجૅࣝ
جૅࣝ ຊݚڀͷϞνϕʔγϣϯ എܠ ຊݚڀͷ֓ཁ ֓ཁ ࣮ݧํ๏ ํ๏ ࣮ݧ݁Ռ ݁Ռ ஶऀΒͷߟ ߟ ຊݚڀͱؔ࿈ͦ͠͏ͳݚڀͷओ؍తհ ؔ࿈ݚڀ
3 େنࢹ֮ݴޠϞσϧ -7-. ͱʁ 1. 本研究を理解するための基礎知識 ຒΊࠐΈ࣍ݩͷΈૢ࡞ ը૾ύονʹมԽͳ͠ ը૾ύον࣍ݩͷૢ࡞ ຒΊࠐΈ࣍ݩʹมԽͳ͠
ը૾τʔΫϯͷຒΊࠐΈ User:<image>What do you see in this image?<eot> Assistant: ը૾Τϯίʔμ Ξμϓλʔ --. <s> ŋŋŋ ŋŋŋ ŋŋŋ ը૾ύον ࠾༻͢Δը૾ΤϯίʔμʹΑΔ͕ جຊతʹݻఆͷը૾ύονΛग़ྗ .-1 1FSDFJWFS3FTBNQMFS 1JYFM4IVGGMF લॲཧ "QQMZDIBUUFNQMBUF ŋŋŋ <s> User:<image>…<image>What do you see in this image?<eot> Assistant: User : <image> <image> ŋŋŋ <s> ŋŋŋ ▁User : <image> <image> ŋŋŋ JNBHFͷຒΊࠐΈʹɺ ࠨͷͷΛར༻͢Δ τʔΫϯຒΊࠐΈΛ࡞ : : -.)&"% ▁A What What Assistant Assistant 4/-1c ը૾ͱςΩετΛೖྗͱ͠ ͯɺςΩετΛग़ྗ͢Δ Ϟσϧ Ҏ߱ɺ-7-. ͱݺͿ ◦ ࣄલʹֶश͞Εͨ lը૾Τϯίʔμz ͱ lେنݴޠϞσϧ --. z ΛΈ߹Θͤͯ ը૾ςΩετσʔλΛ ༻ͯ͠Ճֶश͢Δ ͜ͱͰ -7-. Λߏங͢Δ جૅࣝ എܠ ֓ཁ ํ๏ ݁Ռ ߟ ؔ࿈ݚڀ
4 7JTVBM3"(ը૾ͱؔ࿈͢Δ͕ϊΠζΛؚΉจॻΛநग़͢Δ߹͕͋Δ 2. 本研究のモチベーション 4/-1c എܠ ֓ཁ ํ๏ ݁Ռ ߟ
ؔ࿈ݚڀ جૅࣝ ࢀߟը૾ ը૾ͱؔ࿈͢Δ ςΩετΛ จॻू߹͔Β औͬͯ͘Δ औಘͨ͠ςΩετ 7JTVBM 3"( ʲ൛ʳ ɾϝʔΧʔ"VEJP-BC ɾ໊)FBE'JU 1SP9 ɾՁ֨ ԁ ɾಛγϯϓϧ ߴ࣭ ߴڃײ )FBE'JU 1SP9 ɾՁ֨ ԁ ʲ൛ʳ •ը૾ͷใͱؔ࿈͢Δ͕ɺ෦తʹໃ६ͨ͠ςΩετใ͕ நग़͞ΕΔέʔε͕ߟ͑ΒΕΔ
5 -7-.ࢹ֮ใͱໃ६ͨ͠ݴޠใ͕༩͑ΒΕͨ࣌ʹͲ͏ৼΔ͏͔ʁ 2. 本研究のモチベーション 4/-1c എܠ ֓ཁ ํ๏ ݁Ռ ߟ
ؔ࿈ݚڀ جૅࣝ )FBE'JU 1SP9 ɾՁ֨ ԁ ʲ൛ʳ ʲ൛ʳ ɾϝʔΧʔ"VEJP-BC ɾ໊)FBE'JU 1SP9 ɾՁ֨ ԁ ɾಛγϯϓϧ ߴ࣭ ߴڃײ ίϯςΩετ ը૾ ίϯςΩετ ςΩετ ΫΤϦςΩετ ࣭จ )FBE'JU 1SP9ͷൢചՁ֨ʁ -7-. ? •ը૾ͷใͱ ໃ६ͨ͠ ςΩετใͲͪΒ͕༏ઌ͞ΕΔʁ
6 -7-.ը૾ΑΓ ໃ६ͨ͠ ςΩετใΛڧ͘৴པ͢Δ 3. 本研究の概要 4/-1c •ଟ͘ͷ -7-.ɺը૾ͷใ ΑΓ
ໃ६ͨ͠ ςΩετใ Λ ڧ͘৴པ͢Δ͕֬ೝ͞Εͨ എܠ ํ๏ ݁Ռ ߟ ؔ࿈ݚڀ جૅࣝ ֓ཁ ԁ )FBE'JU 1SP9 ɾՁ֨ ԁ ʲ൛ʳ ʲ൛ʳ ɾϝʔΧʔ"VEJP-BC ɾ໊)FBE'JU 1SP9 ɾՁ֨ ԁ ɾಛγϯϓϧ ߴ࣭ ߴڃײ ίϯςΩετ ը૾ ίϯςΩετ ςΩετ ΫΤϦςΩετ ࣭จ )FBE'JU 1SP9ͷൢചՁ֨ʁ -7-.
7 ຊݚڀͷओཁͳݟ·ͱΊ 3. 本研究の概要 4/-1c •ଟ͘ͷ -7-.ʹɺࢹ֮ใ ͱ ߹͠ͳ͍ ςΩετใ
Λաʹ ৴པͯ͠͠·͏ςΩετόΠΞε CMJOEGBJUIJOUFYU ͕ଘࡏ͢Δ എܠ ํ๏ ݁Ռ ߟ ؔ࿈ݚڀ جૅࣝ ֓ཁ ԁ )FBE'JU 1SP9 ɾՁ֨ ԁ ʲ൛ʳ ʲ൛ʳ ɾϝʔΧʔ"VEJP-BC ɾ໊)FBE'JU 1SP9 ɾՁ֨ ԁ ɾಛγϯϓϧ ߴ࣭ ߴڃײ ίϯςΩετ ը૾ ίϯςΩετ ςΩετ ΫΤϦςΩετ ࣭จ )FBE'JU 1SP9ͷൢചՁ֨ʁ -7-.
8 ຊݚڀͷओཁͳݟ·ͱΊ 3. 本研究の概要 4/-1c •ଟ͘ͷ -7-.ʹɺࢹ֮ใ ͱ ߹͠ͳ͍ ςΩετใ
Λաʹ ৴པͯ͠͠·͏ςΩετόΠΞε CMJOEGBJUIJOUFYU ͕ଘࡏ͢Δ എܠ ํ๏ ݁Ռ ߟ ؔ࿈ݚڀ جૅࣝ ֓ཁ •͜ͷςΩετόΠΞεʹӨڹΛ༩͑ಘΔཁૉΛෳௐࠪͨ͠ ◦ *OTUSVDUJPO1SPNQUT - lը૾ͷํʹ͠ͳ͍͞zͷΑ͏ͳࢦࣔΛ༩͑ͯςΩετόΠΞεগ͔͠͠վળ͠ͳ͍ ◦ --.`T.PEFM4J[F - -7-.ʹ࠾༻͢Δ --.ͷαΠζΛେ͖ͯ͘͠ςΩετόΠΞεগ͔͠͠վળ͠ͳ͍ ◦ 5FYU3FMFWBODF - ίϯςΩετ ςΩετͷ ࣭จͱͷ ؔ࿈͕ߴ͍΄ͲςΩετόΠΞεʹڧ͘Өڹ͢Δ ◦ 5PLFO0SEFS - ը૾ͷલʹίϯςΩετ ςΩετΛૠೖ͢ΔͱςΩετόΠΞε͕ѱԽ͢Δ ԁ )FBE'JU 1SP9 ɾՁ֨ ԁ ʲ൛ʳ ʲ൛ʳ ɾϝʔΧʔ"VEJP-BC ɾ໊)FBE'JU 1SP9 ɾՁ֨ ԁ ɾಛγϯϓϧ ߴ࣭ ߴڃײ ίϯςΩετ ը૾ ίϯςΩετ ςΩετ ΫΤϦςΩετ ࣭จ )FBE'JU 1SP9ͷൢചՁ֨ʁ -7-.
ຊݚڀͷओཁͳݟ·ͱΊ 3. 本研究の概要 •ଟ͘ͷ -7-.ʹɺࢹ֮ใ ͱ ߹͠ͳ͍ ςΩετใ Λաʹ ৴པͯ͠͠·͏ςΩετόΠΞε
CMJOEGBJUIJOUFYU ͕ଘࡏ͢Δ എܠ ํ๏ ݁Ռ ߟ ؔ࿈ݚڀ جૅࣝ ֓ཁ •͜ͷςΩετόΠΞεʹӨڹΛ༩͑ಘΔཁૉΛෳௐࠪͨ͠ ◦ *OTUSVDUJPO1SPNQUT - lը૾ͷํʹ͠ͳ͍͞zͷΑ͏ͳࢦࣔΛ༩͑ͯςΩετόΠΞεগ͔͠͠վળ͠ͳ͍ ◦ --.`T.PEFM4J[F - -7-.ʹ࠾༻͢Δ --.ͷαΠζΛେ͖ͯ͘͠ςΩετόΠΞεগ͔͠͠վળ͠ͳ͍ ◦ 5FYU3FMFWBODF - ίϯςΩετςΩετͷ ը૾ͱͷ ؔ࿈͕ߴ͍΄ͲςΩετόΠΞεʹڧ͘Өڹ͢Δ ◦ 5PLFO0SEFS - ը૾ͷલʹίϯςΩετςΩετΛૠೖ͢ΔͱςΩετόΠΞε͕ѱԽ͢Δ ԁ )FBE'JU 1SP9 ɾՁ֨ ԁ ʲ൛ʳ ʲ൛ʳ ɾϝʔΧʔ"VEJP-BC ɾ໊)FBE'JU 1SP9 ɾՁ֨ ԁ ɾಛγϯϓϧ ߴ࣭ ߴڃײ ίϯςΩετ ը૾ ίϯςΩετ ςΩετ ΫΤϦςΩετ ࣭จ )FBE'JU 1SP9ͷൢചՁ֨ʁ -7-. ͳͥ -7-.ςΩετόΠΞεΛ࣋ͭͷ͔ʁ 2 " ຊจͰɺ-7-.ͷςΩετόΠΞε ◦ -7-.Λߏ͢ΔֶशࡁΈ --.ͷʮςΩετʯֶशσʔλྔ ͱ ◦ -7-.ͷʮը૾ςΩετʯֶशσʔλྔ Λൺֱ͢ΔͱɺѹతʹʮςΩετʯֶशσʔλྔͷํ͕ଟ͍ ͜ͱ͔Βੜ͍ͯ͡Δͱ ཧอূ ͖Ͱ આ໌͍ͯ͠Δ 9 4/-1c ˞ ˞ຊεϥΠυͰɺཧอূͷৄࡉ·Ͱ౿ΈࠐΈ·ͤΜɻৄࡉΛΓ͍ͨ߹ɺհจͷ "QQFOEJYΛ͝ࢀর͍ͩ͘͞ɻ ͜ΕΑΓֶशΛߦΘͳ͍খखઌͷͰվળ͠ͳ͍͜ͱΛ͍ࣔࠦͯ͠Δ
10 ධՁࢦඪͷઆ໌ ᶃ 4. 実験⽅法: 使⽤する変数の定義 4/-1c എܠ ֓ཁ ݁Ռ
ߟ ؔ࿈ݚڀ ํ๏ جૅࣝ •ຊݚڀͰɺҎԼͷ ͭͷ݅ԼͰ༧ଌ݁Ռ͕ಘΒΕΔઃఆʹͳ͍ͬͯΔ ɾ𝑄࣭จ ɾ𝑓!"!# ($; 𝜃)ύϥϝʔλ 𝜃 Λ࣋ͭ -7-. ◦! 𝒀𝐢𝐦𝐠 ≔ 𝒇𝐥𝐯𝐥𝐦(𝑸, 𝑰; 𝜽) ◦! 𝒀𝐭𝐱𝐭 ≔ 𝒇𝐥𝐯𝐥𝐦 (𝑸, 𝑻; 𝜽) ◦! 𝒀𝐦𝐢𝐱 ≔ 𝒇𝐥𝐯𝐥𝐦 (𝑸, 𝑰, 𝑻; 𝜽) ը૾ ͷΈ͕༩͑ΒΕͨ߹ͷ༧ଌ݁Ռ ςΩετ ͷΈ͕༩͑ΒΕͨ߹ͷ༧ଌ݁Ռ ը૾ ͱ ςΩετ ྆ํ͕༩͑ΒΕͨ߹ͷ༧ଌ݁Ռ ɾ𝐼 ίϯςΩετ ը૾ ɾ𝑇 ίϯςΩετ ςΩετ
ධՁࢦඪͷઆ໌ ᶄछྨͷίϯςΩετςΩετΛ४උ͢Δ 4. 実験⽅法: 使⽤する変数の定義 എܠ ֓ཁ ݁Ռ ߟ ؔ࿈ݚڀ
ํ๏ جૅࣝ 5IF QJ[[BIBTHSFFO QFQQFS TMJDFT PO POF PG JUT TFDUJPOT 5IF QJ[[BIBTHSFFO CSPDDPMJ GMPSFUT PO POF PG JUT TFDUJPOT #FDLIBNPCUBJOFE IJT FBSMZ FEVDBUJPO BU 3PTFMBOE"DBEFNZ JO #BSETUPXO 𝑻𝒎 𝑻𝒄 𝑻𝒊𝒓𝒓 5ZQF .BUDI 5ZQF $PSSVQUJPO 5ZQF *SSFMFWBODF 8IBU HSFFO WFHHJFJT PO UIF QJ[[B QFQQFS ը૾! ࣭จ" ਖ਼ղ# (&') 𝑻𝒎 ͚ͩΛ༻͍ͯ 𝑸 ʹղ Ͱ͖ΔΑ͏ͳςΩετΛ࣋ͭ 𝑻𝒄 ͚ͩΛ༻͍ͯ 𝑸 ʹղ ͢Δͱؒҧ͑ͯ͠·͏Α͏ͳ ςΩετΛ࣋ͭ 𝑰, 𝑸 ྆ํʹແؔͳςΩετΛ࣋ͭ 11 4/-1c
ධՁࢦඪͷઆ໌ ᶄछྨͷίϯςΩετςΩετΛ४උ͢Δ 4. 実験⽅法: 使⽤する変数の定義 എܠ ֓ཁ ݁Ռ ߟ ؔ࿈ݚڀ
ํ๏ جૅࣝ 5IF QJ[[BIBTHSFFO QFQQFS TMJDFT PO POF PG JUT TFDUJPOT 5IF QJ[[BIBTHSFFO CSPDDPMJ GMPSFUT PO POF PG JUT TFDUJPOT #FDLIBNPCUBJOFE IJT FBSMZ FEVDBUJPO BU 3PTFMBOE"DBEFNZ JO #BSETUPXO 𝑻𝒎 𝑻𝒄 𝑻𝒊𝒓𝒓 5ZQF .BUDI 5ZQF $PSSVQUJPO 5ZQF *SSFMFWBODF 8IBU HSFFO WFHHJFJT PO UIF QJ[[B QFQQFS ը૾! ࣭จ" ਖ਼ղ# (&') 𝑻𝒎 ͚ͩΛ༻͍ͯ 𝑸 ʹղ Ͱ͖ΔΑ͏ͳςΩετΛ࣋ͭ 𝑻𝒄 ͚ͩΛ༻͍ͯ 𝑸 ʹղ ͢Δͱؒҧ͑ͯ͠·͏Α͏ͳ ςΩετΛ࣋ͭ 𝑰, 𝑸 ྆ํʹແؔͳςΩετΛ࣋ͭ 12 4/-1c
ධՁࢦඪͷઆ໌ ᶄछྨͷίϯςΩετςΩετΛ४උ͢Δ 4. 実験⽅法: 使⽤する変数の定義 എܠ ֓ཁ ݁Ռ ߟ ؔ࿈ݚڀ
ํ๏ جૅࣝ 5IF QJ[[BIBTHSFFO QFQQFS TMJDFT PO POF PG JUT TFDUJPOT 5IF QJ[[BIBTHSFFO CSPDDPMJ GMPSFUT PO POF PG JUT TFDUJPOT #FDLIBNPCUBJOFE IJT FBSMZ FEVDBUJPO BU 3PTFMBOE"DBEFNZ JO #BSETUPXO 𝑻𝒎 𝑻𝒄 𝑻𝒊𝒓𝒓 5ZQF .BUDI 5ZQF $PSSVQUJPO 5ZQF *SSFMFWBODF 8IBU HSFFO WFHHJFJT PO UIF QJ[[B QFQQFS ը૾! ࣭จ" ਖ਼ղ# (&') 𝑻𝒎 ͚ͩΛ༻͍ͯ 𝑸 ʹղ Ͱ͖ΔΑ͏ͳςΩετΛ࣋ͭ 𝑻𝒄 ͚ͩΛ༻͍ͯ 𝑸 ʹղ ͢Δͱؒҧ͑ͯ͠·͏Α͏ͳ ςΩετΛ࣋ͭ 𝑰, 𝑸 ྆ํʹແؔͳςΩετΛ࣋ͭ 13 4/-1c
14 ධՁࢦඪͷઆ໌ ᶄछྨͷίϯςΩετςΩετΛ४උ͢Δ 4. 実験⽅法: 使⽤する変数の定義 4/-1c എܠ ֓ཁ ݁Ռ
ߟ ؔ࿈ݚڀ ํ๏ جૅࣝ 5IF QJ[[BIBTHSFFO QFQQFS TMJDFT PO POF PG JUT TFDUJPOT 5IF QJ[[BIBTHSFFO CSPDDPMJ GMPSFUT PO POF PG JUT TFDUJPOT #FDLIBNPCUBJOFE IJT FBSMZ FEVDBUJPO BU 3PTFMBOE"DBEFNZ JO #BSETUPXO 𝑻𝒎 𝑻𝒄 𝑻𝒊𝒓𝒓 5ZQF .BUDI 5ZQF $PSSVQUJPO 5ZQF *SSFMFWBODF 8IBU HSFFO WFHHJFJT PO UIF QJ[[B QFQQFS ը૾! ࣭จ" ਖ਼ղ# (&') 𝑻𝒎 ͚ͩΛ༻͍ͯ 𝑸 ʹղ Ͱ͖ΔΑ͏ͳςΩετΛ࣋ͭ 𝑻𝒄 ͚ͩΛ༻͍ͯ 𝑸 ʹղ ͢Δͱؒҧ͑ͯ͠·͏Α͏ͳ ςΩετΛ࣋ͭ 𝑰, 𝑸 ྆ํʹແؔͳςΩετΛ࣋ͭ ͜ΕΒͷ ίϯς Ωετ ςΩετ 𝐼 𝑄 Y (GT) Λ جʹͯ͠ (15P ʹΑΓ߹͞ΕΔ˞ ˞(15PΛ༻ͨ͠σʔλ߹ํ๏ʹ͍ͭͯৄ͘͠Γ͍ͨ߹ɺจຊจͷ 4FDUJPOΛ͝ࢀর͍ͩ͘͞ɻ
ධՁࢦඪͷઆ໌ ᶅ֤ 5ZQF͝ͱʹಠཱʹҰகΛࢉग़ 4. 実験⽅法: 使⽤する変数の定義 എܠ ֓ཁ ݁Ռ ߟ
ؔ࿈ݚڀ ํ๏ جૅࣝ ◦! " !"# ≔ $$%$" (&, (; +) ◦! " &'& ≔ $$%$" (&, -; +) ◦! " "!' ≔ $$%$" (&, (, -; +) ը૾ ͷΈ͕༩͑ΒΕͨ߹ͷ༧ଌ݁Ռ ςΩετ ͷΈ͕༩͑ΒΕͨ߹ͷ༧ଌ݁Ռ ը૾ ͱ ςΩετ ྆ํ͕༩͑ΒΕͨ߹ͷ༧ଌ݁Ռ \ը૾͚ͩݴޠ͚ͩ^༩͑ͨ࣌ͷ༧ଌ݁Ռ͕Ұக͠ͳ͍߹ ! 𝒀𝐢𝐦𝐠 ≠ ! 𝒀𝐭𝐱𝐭 ͷ ධՁσʔλू߹ 𝓢 ݅|𝓢| ʹݶఆ͠ɺϞσϧͷڍಈΛҎԼͷ ݅ʹྨ ɾ𝒏𝐢𝐦𝐠 ( 𝒀𝐦𝐢𝐱 = ( 𝒀𝐢𝐦𝐠 ͱͳΔσʔλ݅ ◦𝒑𝐢𝐦𝐠 ≔ 𝒏𝐢𝐦𝐠 |𝓢| ◦𝒑𝐭𝐱𝐭 ≔ 𝒏𝐭𝐱𝐭 |𝓢| ◦𝒑𝐨 ≔ 𝒏𝐨𝐭𝐡𝐞𝐫 |𝓢| ධՁσʔλ 𝒮 ͷதͰɺ! 𝒀𝐦𝐢𝐱 ≠ ! 𝒀𝐢𝐦𝐠 ! 𝒀𝐭𝐱𝐭 ͱͳΔҰக ແؔग़ྗ ධՁσʔλ 𝒮 ͷதͰɺ! 𝒀𝐦𝐢𝐱 = ! 𝒀𝐢𝐦𝐠 ͱͳΔҰக ը૾༏ઌग़ྗ ධՁσʔλ 𝒮 ͷதͰɺ! 𝒀𝐦𝐢𝐱 = ! 𝒀𝐭𝐱𝐭 ͱͳΔҰக ςΩετ༏ઌग़ྗ ɾ𝒏𝐭𝐱𝐭 ( 𝒀𝐦𝐢𝐱 = ( 𝒀𝐭𝐱𝐭 ͱͳΔσʔλ݅ ɾ𝒏𝐨𝐭𝐡𝐞𝐫 ( 𝒀𝐦𝐢𝐱 ≠ ( 𝒀𝐢𝐦𝐠 ( 𝒀𝐭𝐱𝐭 ͱͳΔσʔλ݅ 15 4/-1c ◦ ֤λΠϓ .BUDI $PSSVQUJPO *SSFMFWBODF ͝ͱʹಠཱʹˢͷҰகΛࢉग़͢Δ
ධՁࢦඪͷઆ໌ ᶆ ͭͷධՁࢦඪΛఆٛ͠ɺ༻͢Δ 4. 実験⽅法: 使⽤する評価指標の定義 എܠ ֓ཁ ݁Ռ ߟ
ؔ࿈ݚڀ ํ๏ جૅࣝ 5FYU1SFGFSFODF3BUJP 513 𝐓𝐏𝐑 ≔ 𝒑𝐭𝐱𝐭 𝒑𝐭𝐱𝐭 + 𝒑𝐢𝐦𝐠 -7-.͕ը૾ΑΓςΩετΛ༏ઌ͢Δ ߹͍Λද͢ɻ513͕ߴ͍΄Ͳɺ ΑΓڧ͍ςΩετόΠΞεΛө͍ͯ͠Δɻ "DDVSBDZ #BTF ΦϦδφϧͷఆٛ௨Γͷ ਖ਼ղɻ ηοτ 𝒬 ݅|𝒬| ʹର͢Δ -7-.ͷ ਖ਼ղΛ 𝐀𝐜𝐜 𝒇𝐥𝐯𝐥𝐦; 𝓠 ͱఆٛ͢Δɻ .BDSP"DDVSBDZ .BDSP 𝐌𝐚𝐜𝐫𝐨 𝒇𝐥𝐯𝐥𝐦 ≔ 𝟏 𝟑 ( 𝐀𝐜𝐜 𝒇𝐥𝐯𝐥𝐦; 𝓠𝐌𝐚𝐭𝐜𝐡 +𝐀𝐜𝐜 𝒇𝐥𝐯𝐥𝐦; 𝓠𝐂𝐨𝐫𝐫𝐮𝐩𝐭𝐢𝐨𝐧 +𝐀𝐜𝐜 𝒇𝐥𝐯𝐥𝐦; 𝓠𝐈𝐫𝐫𝐞𝐥𝐞𝐯𝐚𝐧𝐜𝐞 ) ηοτ 𝒬 ݅|𝒬| ʹରͯ͠ λΠϓ ͝ͱʹࢉग़ͨ͠ਖ਼ղΛฏۉͨ͠ͷɻ /PSNBMJ[FE"DDVSBDZ /PSN 𝐍𝐨𝐫𝐦 𝒇𝐥𝐯𝐥𝐦; 𝓠 = 𝐀𝐜𝐜 𝒇𝐥𝐯𝐥𝐦; 𝓠 𝐀𝐜𝐜 𝒇𝐥𝐯𝐥𝐦; 𝓑 ϕʔεηοτℬ ʹର͢Δਖ਼ղͱൺͯɺ ίϯςΩετ ςΩετͷλΠϓมߋʹΑͬͯ ग़ྗ݁Ռ͕ͲͷఔӨڹΛड͚Δ͔Λଌఆ͢Δɻ 16 4/-1c
17 ༻͢ΔධՁσʔληοτͱൺֱରͷ -7-.T 4. 実験⽅法: 評価データセットとモデル 4/-1c എܠ ֓ཁ ݁Ռ
ߟ ؔ࿈ݚڀ ํ๏ جૅࣝ •࣮ݧʹ༻͢Δ ͭͷධՁσʔληοτ શ ݅ ݅ ʷ λΠϓ ◦ (FOFSBM72" 72" W WBM ݅ ◦ %PDVNFOU72" %PD72" WBM ݅ ◦ .BUI 3FBTPOJOH .BUI7JTUB UFTU ݅ ◦ #SBOE3FDPHOJUJPO ϑΟογϯάݕग़σʔληοτ UFTU ݅ •ൺֱରͷ -7-.T શ छྨ ◦ ϓϩϓϥΠΤλϦϞσϧ - (15P (15PNJOJ $MBVEF4POOFU $MBVEF)BJLV ◦ ΦʔϓϯϞσϧ - 1IJ .PMNP#% --B7"/F95\# # #^ 2XFO7-#
18 -7-.Tը૾ΑΓςΩετΛ༏ઌ͢Δ͕͋Δ CMJOEGBJUIJOUFYU 5. 実験結果: blind faith in text 4/-1c
എܠ ֓ཁ ํ๏ ߟ ؔ࿈ݚڀ جૅࣝ ݁Ռ 𝒏𝐢𝐦𝐠 ! 𝐘𝐦𝐢𝐱 = ! 𝐘𝐢𝐦𝐠 ͱͳΔσʔλ݅ 𝒏𝐭𝐱𝐭 ! 𝐘𝐦𝐢𝐱 = ! 𝐘𝐭𝐱𝐭 ͱͳΔσʔλ݅ 𝒏𝐨𝐭𝐡𝐞𝐫 ! 𝐘𝐦𝐢𝐱 ≠ ! 𝐘𝐢𝐦𝐠 , ! 𝐘𝐭𝐱𝐭 ͱͳΔσʔλ݅ •શମͱͯ͠ɺߴ͍ςΩετ༏ઌൺ 513 ௨ৗˋҎ্ ͕؍͞Εͨ ◦ ಛʹΦʔϓϯϞσϧͰ͜ͷ͕ݦஶ ◦ ϓϩϓϥΠΤλϦϞσϧͰɺখن ͳ (15PNJOJ $MBVEF)BJLVͰ͜ͷΛ֬ೝ
•શମͱͯ͠ɺߴ͍ςΩετ༏ઌൺ 513 ௨ৗˋҎ্ ͕؍͞Εͨ ◦ ಛʹΦʔϓϯϞσϧͰ͜ͷ͕ݦஶ ◦ ϓϩϓϥΠΤλϦϞσϧͰɺখن ͳ (15PNJOJ
$MBVEF)BJLVͰ͜ͷΛ֬ೝ 19 -7-.Tը૾ΑΓςΩετΛ༏ઌ͢Δ͕͋Δ CMJOEGBJUIJOUFYU 5. 実験結果: blind faith in text 4/-1c എܠ ֓ཁ ํ๏ ߟ ؔ࿈ݚڀ جૅࣝ ݁Ռ 𝒏𝐢𝐦𝐠 ! 𝐘𝐦𝐢𝐱 = ! 𝐘𝐢𝐦𝐠 ͱͳΔσʔλ݅ 𝒏𝐭𝐱𝐭 ! 𝐘𝐦𝐢𝐱 = ! 𝐘𝐭𝐱𝐭 ͱͳΔσʔλ݅ 𝒏𝐨𝐭𝐡𝐞𝐫 ! 𝐘𝐦𝐢𝐱 ≠ ! 𝐘𝐢𝐦𝐠 , ! 𝐘𝐭𝐱𝐭 ͱͳΔσʔλ݅ •2XFO7-#ɺ.BUDI ʹൺͯ $PSSVQUJPO ͷ߹Ͱɺ ߴ͍ςΩετ༏ઌൺ 513Λࣔͨ͠ ◦ ਖ਼֬ͳใͱෆਖ਼֬ͳใΛ۠ผ͢Δೳྗ͕ݶఆతͰ͋ΔՄೳੑΛࣔࠦ
20 -7-.Tໃ६ͨ͠ςΩετͷӨڹʹΑΓɺ72"ͷੑೳ͕Լ͍͢͠ 5. 実験結果: Performance Impact 4/-1c •-7-.ໃ६ͨ͠ςΩετͷӨڹΛड͚͘͢ɺछʑͷ 72"λεΫͷੑೳ͕Լ͢Δ ◦
ͨͩ͠ྫ֎తʹɺ(15P $MBVEF4POOFUͷΑ͏ͳϓϩϓϥΠΤλϦϞσϧؤ݈ എܠ ֓ཁ ํ๏ ߟ ؔ࿈ݚڀ جૅࣝ ݁Ռ /PSNͷ͕খ͍͞΄Ͳɺ$PSSVQUJPOςΩετͷӨڹΛड͚͘͢ ੑೳ͕Լ͍ͯ͠Δ͜ͱΛ͍ࣔͯ͠Δ /PSN#BTF ʸ $PSSVQUJPO
21 lը૾ͷํʹͯ͠zͷΑ͏ͳࢦࣔΛ༩͑ͯςΩετόΠΞεΔ 5. 実験結果: Influencing Factors ① 4/-1c •ಛఆͷϞμϦςΟ͢ΔΑ͏ʹࢦࣔΛ༩͑ͯɺςΩετ༏ઌൺ 513
গ͔͠͠Լ͠ͳ͍ ςΩετόΠΞε CMJOEGBJUIJOUFYU ΄ͱΜͲվળ͠ͳ͍ എܠ ֓ཁ ํ๏ ߟ ؔ࿈ݚڀ جૅࣝ ݁Ռ
22 ϞσϧαΠζΛେ͖ͯ͘͠ςΩετόΠΞεΔ 5. 実験結果: Influencing Factors ② 4/-1c •ϞσϧαΠζΛେ͖ͯ͘͠ɺςΩετ༏ઌൺ 513
গ͔͠͠Լ͠ͳ͍ ςΩετόΠΞε CMJOEGBJUIJOUFYU ΄ͱΜͲվળ͠ͳ͍ എܠ ֓ཁ ํ๏ ߟ ؔ࿈ݚڀ جૅࣝ ݁Ռ
23 ࣭จͱΑΓؔ࿈ͨ͠ςΩετςΩετόΠΞεΛॿ͢Δ 5. 実験結果: Influencing Factors ③ 4/-1c •࣭จͱΑΓؔ࿈ͨ͠ ίϯςΩετ
ςΩετςΩετ༏ઌൺ 513 Λ ॿ͢ΔՄೳੑ͕͋Δ ◦ ͨͩϞσϧʹΑͬͯɺ΄ͱΜͲӨڹΛड͚͍ͯͳ͍Α͏ʹݟ͑Δͷ͋Γɺջٙత എܠ ֓ཁ ํ๏ ߟ ؔ࿈ݚڀ جૅࣝ ݁Ռ
24 ը૾ ຒΊࠐΈ ͷ࿈݁ҐஔʹΑΓςΩετόΠΞεมԽ͢Δ 5. 実験結果: Influencing Factors ④ 4/-1c
•ը૾ͷલʹ ίϯςΩετ ςΩετΛૠೖ͢ΔͱςΩετόΠΞε͕ѱԽ͢Δ ◦ --B7" ͰϞσϧͷੑೳʹͦΕ΄Ͳେ͖ͳӨڹແ͍ͷͰɺֶश࣌ʹ JNBHFৗʹઌ಄ʹ ஔ͞ΕΔΑ͏ʹमਖ਼ͨ͠ͱ (JUIVC *TTVFTʹͯݴٴ͞Ε͍ͯͨ ͕ɺςΩετόΠΞεͷѱԽ ͱ͍͏༧֎ͷཁૉ͕ग़͖ͯͨͷͰɺֶश࣌ͷ JNBHFͷஔʹ͍ͭͯ࠶ߟ͍ͨ͠ എܠ ֓ཁ ํ๏ ߟ ؔ࿈ݚڀ جૅࣝ ݁Ռ ը૾ ˠ ςΩετ ςΩετ ˠ ը૾ ˞ ˞IUUQTHJUIVCDPNIBPUJBOMJV--B7"JTTVFTJTTVFDPNNFOU
ԁ )FBE'JU 1SP9 ɾՁ֨ ԁ ʲ൛ʳ ʲ൛ʳ ɾϝʔΧʔ"VEJP-BC ɾ໊)FBE'JU
1SP9 ɾՁ֨ ԁ ɾಛγϯϓϧ ߴ࣭ ߴڃײ ίϯςΩετ ը૾ ίϯςΩετ ςΩετ ΫΤϦςΩετ ࣭จ )FBE'JU 1SP9ͷൢചՁ֨ʁ -7-. 25 4/-1c •ଟ͘ͷ -7-.ʹɺࢹ֮ใ ͱ ߹͠ͳ͍ ςΩετใ Λաʹ ৴པͯ͠͠·͏ςΩετόΠΞε CMJOEGBJUIJOUFYU ͕ଘࡏ͢Δ •͜ͷςΩετόΠΞεʹӨڹΛ༩͑ಘΔཁૉΛෳௐࠪͨ͠ ◦ *OTUSVDUJPO1SPNQUT - lը૾ͷํʹ͠ͳ͍͞zͷΑ͏ͳࢦࣔΛ༩͑ͯςΩετόΠΞεগ͔͠͠վળ͠ͳ͍ ◦ --.`T.PEFM4J[F - -7-.ʹ࠾༻͢Δ --.ͷαΠζΛେ͖ͯ͘͠ςΩετόΠΞεগ͔͠͠վળ͠ͳ͍ ◦ 5FYU3FMFWBODF - ίϯςΩετ ςΩετͷ ࣭จͱͷ ؔ࿈͕ߴ͍΄ͲςΩετόΠΞεʹڧ͘Өڹ͢Δ ◦ 5PLFO0SEFS - ը૾ͷલʹίϯςΩετ ςΩετΛૠೖ͢ΔͱςΩετόΠΞε͕ѱԽ͢Δ 5. 実験結果: Influencing Factors ࠶ܝ ຊݚڀͷओཁͳݟ·ͱΊ എܠ ֓ཁ ํ๏ ߟ ؔ࿈ݚڀ جૅࣝ ݁Ռ
26 छྨͷςΩετΛؚΉ 4'5ʹΑΓςΩετόΠΞεվળ͢Δʁ 6. 考察: Supervised Finetuning (SFT) の効果 4/-1c
•छྨͷ ίϯςΩετ ςΩετΛؚΉ 4'5ʹΑΓɺςΩετόΠΞε͕ܰݮ͢Δ ◦ ಛʹɺ.BUDIͱ $PSSVQUJPOͷέʔεΛ ۠ผ͢ΔϞσϧͷೳྗ ΫΤϦʹରͯ͠ దͳղΛಋͨ͘Ίʹ༏ઌϞμϦςΟΛ બ͢Δೳྗ ্͕͍ͯ͠Δ എܠ ֓ཁ ํ๏ ݁Ռ ؔ࿈ݚڀ جૅࣝ ߟ •ͨͩ͠ɺ ࣮ʹ༗༻ͳϨϕϧͰͷ ेͳ վળ͍ࣔͯ͠ͳ͍ ͱࢲߟ͍͑ͯΔ Match Corruption Irrelevance Average
27 -7-.ͷςΩετόΠΞεࣄલֶशࡁ --.ͷֶशσʔλྔ༝དྷͷͷ 6. 考察: Theoretical Analysis 4/-1c എܠ ֓ཁ
ํ๏ ݁Ռ ؔ࿈ݚڀ جૅࣝ ߟ •ʮςΩετʯֶशσʔλαΠζ 𝑵 ʮը૾ςΩετʯֶशσʔλαΠζ 𝑴ͱ ͨ࣌͠ɺ֤σʔλʹ͓͚ΔظଛࣦҎԼͷ߲ͷӨڹΛड͚Δ ʢཧอূͷࣜ ͔ΒҰ෦ൈਮʣ ◦ ʮςΩετʯσʔλʹؔͯ͠ 𝑴 𝑵/𝑴 𝜺𝐜𝐫𝐨𝐬𝐬 ◦ʮը૾ςΩετʯσʔλʹؔͯ͠ 𝑵 𝑵0𝑴 𝜺𝐜𝐫𝐨𝐬𝐬 •ͨͩ͠ɺଟ͘ͷ -7-.Ͱɺ𝑵 ≫ 𝑴 ͱͳΔͨΊɺ ʮը૾ςΩετʯσʔλʹ͓͚Δظଛࣦେ͖͘ɺ ʮςΩετʯσʔλʹ͓͚Δظଛࣦখ͍͞ ˠ 𝑵 ͕ۃʹେ͖͍ͷͰɺ-7-.ը૾ΑΓςΩετΛ༏ઌ͘͢͠ͳΔ ◦ ʢ-7-.͕࠷खͬऔΓૣ͘ଛࣦΛԼ͛Δઓུʮը૾Λແࢹͯ͠աڈจ຺ͷςΩετʹ ґଘͯ͠ग़ྗʯ͢Δ͜ͱʹͳΓ͕ͪͩͱࢥ͏ͷͰɺࢲͷײʹ߹͍ͬͯΔʣ ˞ ˞ຊεϥΠυͰɺཧอূͷৄࡉ·Ͱ౿ΈࠐΈ·ͤΜɻৄࡉΛΓ͍ͨ߹ɺհจͷ "QQFOEJYΛ͝ࢀর͍ͩ͘͞ɻ
28 ʮ-7-.ͷςΩετόΠΞεࣄલֶशࡁ --.༝དྷͷͷʯͱ͍͏ ओுΛαϙʔτ͢ΔผͷࢹͰͷؔ࿈ݚڀ݁Ռ <:BOH *$-3> 7. 本研究と関連しそうな研究の主観的紹介 4/-1c •-7-.ͷݬ֮ϔουʹ͓͚Δ
"UUFOUJPO.BQɺ ը૾Λ༩͑ͳ͍߹ͱ༩͑ͨ߹Ͱڧ͘ྨࣅ͢Δ ◦ ͜Εֶशࡁϕʔε --.ͷ "UUFOUJPO͕ -7-.ͷֶशͰมԽ͠ʹ͍͘͜ͱʹؔ࿈͕͋Δʁ •-7-.ͷݬ֮ϔουʹ͓͚Δ "UUFOUJPO.BQมԽ͠ʹ͍͘ എܠ ֓ཁ ํ๏ ݁Ռ ߟ ؔ࿈ݚڀ جૅࣝ ˛ -7-.ͱͦͷϕʔε--.ͷੜ͞ΕͨςΩεττʔΫϯʹର͢Δɺ τοϓͷݬ֮ϔου͓Αͼඇݬ֮ϔουͷ "UUFOUJPO.BQɻ ˛ 7JTVBM*OTUSVDUJPO5VOJOHલͷ -7-.͔Β ͷ "UUFOUJPO.BQͷ+4μΠόʔδΣϯεͷ ֶश TUFQʹ͓͚ΔมԽ <><>6OEFSTUBOEJOHBOE.JUJHBUJOH)BMMVDJOBUJPOJO-BSHF7JTJPO-BOHVBHF.PEFMTWJB.PEVMBS"UUSJCVUJPOBOE*OUFSWFOUJPO :BOH *$-3 'JHVSF
•ଟ͘ͷ -7-.ʹɺࢹ֮ใ ͱ ߹͠ͳ͍ ςΩετใ Λաʹ ৴པͯ͠͠·͏ςΩετόΠΞε CMJOEGBJUIJOUFYU ͕ଘࡏ͢Δ •͜ͷςΩετόΠΞεʹӨڹΛ༩͑ಘΔཁૉΛෳௐࠪͨ͠
◦ *OTUSVDUJPO1SPNQUT - lը૾ͷํʹ͠ͳ͍͞zͷΑ͏ͳࢦࣔΛ༩͑ͯςΩετόΠΞεগ͔͠͠վળ͠ͳ͍ ◦ --.`T.PEFM4J[F - -7-.ʹ࠾༻͢Δ --.ͷαΠζΛେ͖ͯ͘͠ςΩετόΠΞεগ͔͠͠վળ͠ͳ͍ ◦ 5FYU3FMFWBODF - ίϯςΩετςΩετͷ ը૾ͱͷ ؔ࿈͕ߴ͍΄ͲςΩετόΠΞεʹڧ͘Өڹ͢Δ ◦ 5PLFO0SEFS - ը૾ͷલʹίϯςΩετςΩετΛૠೖ͢ΔͱςΩετόΠΞε͕ѱԽ͢Δ ԁ )FBE'JU 1SP9 ɾՁ֨ ԁ ʲ൛ʳ ʲ൛ʳ ɾϝʔΧʔ"VEJP-BC ɾ໊)FBE'JU 1SP9 ɾՁ֨ ԁ ɾಛγϯϓϧ ߴ࣭ ߴڃײ ίϯςΩετ ը૾ ίϯςΩετ ςΩετ ΫΤϦςΩετ ࣭จ )FBE'JU 1SP9ͷൢചՁ֨ʁ -7-. ͳͥ -7-.ςΩετόΠΞεΛ࣋ͭͷ͔ʁ 2 " ຊจͰɺ-7-.ͷςΩετόΠΞε ◦ -7-.Λߏ͢ΔֶशࡁΈ --.ͷʮςΩετʯֶशσʔλྔ ͱ ◦ -7-.ͷʮը૾ςΩετʯֶशσʔλྔ Λൺֱ͢ΔͱɺѹతʹʮςΩετʯֶशσʔλྔͷํ͕ଟ͍ ͜ͱ͔Βੜ͍ͯ͡Δͱ ཧอূ ͖Ͱ આ໌͍ͯ͠Δ 29 4/-1c ˞ ˞ຊεϥΠυͰɺཧอূͷৄࡉ·Ͱ౿ΈࠐΈ·ͤΜɻৄࡉΛΓ͍ͨ߹ɺհจͷ "QQFOEJYΛ͝ࢀর͍ͩ͘͞ɻ ͜ΕΑΓֶशΛߦΘͳ͍খखઌͷͰվળ͠ͳ͍͜ͱΛ͍ࣔࠦͯ͠Δ ࠶ܝ ຊݚڀͷओཁͳݟ·ͱΊ