20221005_AI勉強会

AI࠷৽࿦จಡΈձ2022೥10݄ ᷂tech vein ழມ ॆԝ

ࣗݾ঺հ ழມ ॆԝ (͍ͷ·ͨ ΈͭͻΖ) גࣜձࣾ tech vein / DeepRad
גࣜձࣾ ֤୅දऔక໾ ݉ σϕϩούʔ twitter: @ino2222

Facebook άϧʔϓͷ঺հ IUUQTXXXGBDFCPPLDPNHSPVQT

ΞδΣϯμ https://paperswithcode.com/ ʹΑΔɺ arxiv.org ͷաڈ1ϲ݄ؒͷ࿦จτοϓ10ຊΛ ঺հɻ

Papers with Code https://www.arxiv-sanity.com/top

໨࣍

Top10 1. Git Re-Basin: Merging Models modulo Permutation Symmetries 2.
QuestSim: Human Motion Tracking from Sparse Sensors with Simulated Avatars 3. Understanding Diffusion Models: A Uni fi ed Perspective 4. Transformers are Sample Ef fi cient World Models 5. Brain Imaging Generation with Latent Diffusion Models 6. Learning with Differentiable Algorithms 7. Operationalizing Machine Learning: An Interview Study 8. Decoding speech from non-invasive brain recordings 9. Faithful Reasoning Using Large Language Models 10. AudioLM: a Language Modeling Approach to Audio Generation

1. Git Re-Basinɻฒ΂׵͑ରশੑʹΑΔϞσϧͷϚʔδ (ݪจ: Git Re-Basin: Merging Models modulo Permutation
Symmetries) σΟʔϓϥʔχϯάͷ੒ޭ͸ɺ͋Δछͷڊେͳඇತ࠷దԽ໰୊Λൺֱత༰қʹղ͘͜ͱ͕Ͱ͖ΔΑ͏ʹ ͳ͓͔ͬͨ͛Ͱ͋Δɻඇತ࠷దԽ͸NPࠔ೉Ͱ͋Δʹ΋͔͔ΘΒͣɺ୯७ͳΞϧΰϦζϜʢ͠͹͠͹֬཰ తޯ഑߱Լͷมछʣ͸ɺ࣮ࡍʹେن໛ͳχϡʔϥϧωοτϫʔΫʹద߹͢Δࡍʹڻ͘΂͖༗ޮੑΛࣔ ͢ɻզʑ͸ɺχϡʔϥϧωοτϫʔΫͷଛࣦϥϯυεέʔϓ͸ɺӅΕϢχοτͷ͢΂ͯͷՄೳͳॱྻର শੑΛߟྀͨ͠ޙɺʢ΄΅ʣ୯ҰͷྲྀҬ(basin)ΛؚΉ͜ͱΛओு͢Δɻզʑ͸ɺ͋ΔϞσϧͷϢχο τΛฒ΂ସ͑ͯɺࢀরϞσϧͷϢχοτͱҰகͤ͞ΔͨΊͷ3ͭͷΞϧΰϦζϜΛ঺հ͢Δɻ͜ͷม׵ ʹΑΓɺࢀরϞσϧʹ͍ۙತຍ஍ʹҐஔ͢Δɺػೳతʹ౳ՁͳॏΈͷू߹͕ੜ੒͞ΕΔɻ࣮ݧతʹ͸ɺ CIFAR-10ͱCIFAR-100Ͱಠཱʹֶशͨ͠ResNetϞσϧؒͷθϩόϦΞઢܗϞʔυ઀ଓΛॳΊ࣮ͯূ͢ ΔͳͲɺ༷ʑͳϞσϧΞʔΩςΫνϟͱσʔληοτͰ୯ҰྲྀҬݱ৅Λ࣮ূ͠·ͨ͠ɻ͞Βʹɺ༷ʑͳ Ϟσϧ΍σʔληοτʹ͓͍ͯɺϞσϧ෯΍ֶश࣌ؒͱϞʔυ઀ଓੑͱͷؒʹڵຯਂ͍ݱ৅͕͋Δ͜ͱ Λ໌Β͔ʹ͠·ͨ͠ɻ࠷ޙʹɺ୯ҰྲྀҬཧ࿦ͷܽ఺ʹ͍ͭͯɺઢܗϞʔυ݁߹Ծઆͷ൓ྫΛؚΊͯٞ࿦ ͢Δɻ w ໨తɿϞσϧ࠷దԽɾ࿈߹ֶशɾΞϯαϯϒϧֶशͷͨΊͷجૅݚڀ w ੒Ռɿ$*'"3 Ͱݸผʹֶशͨͭ͠ͷ3FT/FUϞσϧΛθϩόϦΞઢܗϞʔυ઀ଓ͢Δ͜ ͱ͕Ͱ͖ͨ w ํ๏ɿϞσϧϢχοτͷม׵ΞϧΰϦζϜͷಋೖ w ݻ༗໊ɿ(JU3F#BTJO w ஶऀॴଐɿϫγϯτϯେֶίϯϐϡʔλʔαΠΤϯεɾΤϯδχΞϦϯάֶ෦ https://arxiv.org/abs/2209.04836v1

Loss Landscape →Lossؔ਺ͷՄࢹԽख๏ IUUQTBSYJWPSHBCT

ଛࣦϥϯυεέʔϓ͕Single Basin ʢ୯Ұͷ͘΅Έʣ • SGDͰ࠷దղʹͨͲΓண͖΍͍͢ɻ

Linear Mode Connectivity (ઢܗϞʔυ઀ଓ) Ҿ༻࿦จ: Linear Mode Connectivity and the
Lottery Ticket Hypothesis IUUQTBSYJWPSHBCT

Lottery Ticket Hypothesis (͘͡Ҿ͖Ծઆ) • େن໛ͳχϡʔϥϧωοτϫʔΫ͕ߴੑೳΛୡ੒͠΍͢ ͍ͷ͸ɼ͘͡Λͨ͘͞ΜҾ͍͍ͯΔ͔ΒͰ͸ͳ͍͔આɻ • Ϟσϧ಺ʹ౰ͨΓ͘͡ܦ࿏͕͋Δ͔ΒߴੑೳʹͳΔɺͭ ·Γ౰ͨΓ͘͡Ҏ֎͸מΓࠐΜͰ΋݁ՌʹӨڹ͕ͳ͍͸
ͣͱ͍͏࿦ࢫɻ • ʮઢܗิؒ(linear interpolation)ʹΑΔSGDϊΠζʹର ͯ҆͠ఆ͔ʁʯͰמΓࠐΈޮ཰Λௐ΂Δ͜ͱ͕Ͱ͖Δɻ ҆ఆ͞͸ෆ҆ఆੑղੳ(࣍ϖʔδ)Ͱௐ΂Δɻ

Linear instability(ઢܗෆ҆ఆ౓) • ͋ΔϞσϧ͕SDGϊΠζ(ϥϯμϜֶश࣌ͷมԽ)ʹରͯ҆͠ఆੑ͔Λௐ΂ Δํ๏ɻ • ಛఆͷ࣌఺ͷॏΈʹ͍ͭͯෆ҆ఆ౓ΛଌΔʹ͸ɺݸผʹϥϯμϜͳσʔλ (αϯϓϧɾaugumentation)ͰεςοϓT·Ͱֶशͨ͠ॏΈW1 T ͱW2
T Λઢ ܗʹมԽͤͨ࣌͞ͷଛࣦؔ਺(Τϥʔؔ਺)ͷ࠷େ஋ΛInstabilityͱ͢Δɻ͞ Βʹ k εςοϓ·Ͱֶशͯ͠ಉ༷ʹෆ҆ఆ౓ΛଌΓɺෆ҆ఆ౓͕૿͑ͳ͚ Ε͹҆ఆͱ͢Δɻ

Linear mode Connectivity • ̎ͭͷωοτϫʔΫ͕ޡࠩোนͷߴ͞(ϞσϧAɾBͷॏΈ WaʙWbΛઢܗิؒ࣌ͨ࣌͠ͷଛࣦؔ਺ͷ࠷େ஋)͕΄΅ 0(2%ҎԼ)ʹͳΔ(θϩόϦΞͷ)ܦ࿏͕͋Δ৔߹ʹϞʔυ઀ଓ ͞Ε͍ͯΔͱ͍͏ɻઢܗϞʔυ઀ଓ͞Ε͍ͯΔ෦෼ʢʹๅ͘ ͡ܦ࿏ʣҎ֎ΛמΓࠐΜͰ΋ਫ਼౓Λҡ࣋Ͱ͖ΔͷͰɺϞσϧ αΠζΛѹॖͰ͖Δɻ

Ҿ༻࿦จͰ͸ɺઢܗิؒͨ࣌͠ ͷؒͷਫ਼౓͸௿͍ • ෳࡶͳ՝୊(ImageNet)ɾϞσϧ(ResNet)ͳ΄Ͳinstabilityͷน(όϦΞ)͸ߴ ΊʹͳΔ ɻ • όϦΞ͕௿͍ʹๅ͘͡ޮՌ͕ߴ͍(מΓࠐΈѹॖͰ͖Δ)

ࠓճͷ࿦จख๏Ͱ͸ɺઢܗิؒ࣌ͷਫ਼ ౓্͕͕͍ͬͯΔ(ଛࣦ͕ݮ͍ͬͯΔ) • αΠζѹॖޮՌ͕ߴ͘ͳΔ

޻෉: ϞσϧBͷॏΈΛϞσϧAͷॏΈʹҰக ͢ΔΑ͏ɺಛఆͷϧʔϧͰฒͼସ͍͑ͯΔ • Activation matching   ׆ੑ౓ʹΑΔҰக౓ • Weight
matching   ॏΈʹΑΔҰக౓ • STE(Straight-Through Estimator) matching   ετϨʔτεϧʔਪఆྔʢSTEʣΛ࢖ͬͨҰக ౓

2. QuestSim: ໛ٖΞόλʔʹΑΔૄͳηϯαʔ͔Βͷਓମӡಈ௥੻ (ݪจ: QuestSim: Human Motion Tracking from Sparse
Sensors with Simulated Avatars) AR/VRʹ͓͚ΔΠϯλϥΫςΟϒͰ຅ೖײͷ͋Δମݧʹ͸ɺਓମͷಈ͖ΛϦΞϧλΠϜʹτϥο Ωϯά͢Δ͜ͱ͕ॏཁͰ͋Δɻ͔͠͠ɺHMDʢHead Mounted Devicesʣ΍ARάϥεͳͲͷ୯ ମͷ΢ΣΞϥϒϧσόΠε͔ΒಘΒΕΔ਎ମʹؔ͢Δηϯασʔλ͸ඇৗʹݶΒΕͨ΋ͷͰ͋ ΔɻຊݚڀͰ͸ɺHMDͱ2ͭͷίϯτϩʔϥ͔Βͷૄͳ৴߸ΛऔΓࠐΈɺ΋ͬͱ΋Β͘͠ɺ෺ ཧతʹଥ౰ͳશ਎ӡಈΛγϛϡϨʔτ͢ΔڧԽֶशͷϑϨʔϜϫʔΫΛఏࣔ͢ΔɻຊݚڀͰ ͸ɺHMDͱ2ͭͷίϯτϩʔϥ͔Βͷૄͳ৴߸Λೖྗͱ͠ɺ෺ཧతʹଥ౰ͳશ਎ӡಈΛγϛϡ Ϩʔτ͢ΔڧԽֶशϑϨʔϜϫʔΫΛఏҊ͢Δɻͦͷ݁ՌɺHMDͷ6࣍ݩมܗͷΈΛೖྗͱ͠ ͨ৔߹Ͱ΋ɺԼ൒਎ΛҰ੾؍ଌ͢Δ͜ͱͳ͘ɺڻ͘΄Ͳਅ࣮ͱಉ͡Α͏ͳ٭ͷಈ͖Λ͢Δ͜ͱ Λ࣮ূͨ͠ɻ·ͨɺ୯ҰͷϙϦγʔͰɺଟ༷ͳӡಈελΠϧɺҟͳΔମ֨ɺ৽نͷ؀ڥʹର͠ ͯϩόετͰ͋Δ͜ͱΛࣔ͢ɻ w ໨తɿ"373ͷ຅ೖײվળ w ੒Ռɿ).%ʴ̎ίϯτϩʔϥ͚ͩͰશ਎ӡಈΛγϛϡϨʔτ͢ΔֶशϑϨʔϜϫʔΫΛఏҊ w ํ๏ɿ෺ཧۭؒ .FUB2VFTU ΍Ծ૝ۭؒ *TTBDHZN ͰͭͷσόΠεͷ࣠৴߸ೖྗΛ༻͍ ͯڧԽֶश w ݻ༗໊ɿ2VFTU4JN w ஶऀॴଐɿ.FUB https://arxiv.org/abs/2209.09391v1

HMD(ͱίϯτϩʔϥ)ͷ   3࣍ݩҐஔ(3࣠)+֯౓(3࣠)ͷ࠲ඪͱ଎౓͔Β࢟੎Λਪఆ • ࠨ: ̏σόΠε(಄+྆ख) / ӈ:̍σόΠε(಄)

ֶशσʔλɾֶश؀ڥ • σʔληοτ:ඃݧऀ172໊ͷ߹ܭ8࣌ؒͷϞʔ γϣϯΫϦοϓ(ө૾ͱMetaQuestͷ࠲ඪɾ଎ ౓৘ใ) • ֶश؀ڥ: Nvidia PhysXͱRLֶशϑϨʔϜϫʔ ΫIssac
gym

಄ͷηϯαʔ͚ͩͰԼ൒਎ͷಈ ࡞ΛೝࣝͰ͖͍ͯΔ

YoutubeσϞϏσΦ https://www.youtube.com/watch?v=CkTHsz6Ldas

Limitations • ະֶशͷಈ࡞͸׬શʹτϥοΩϯάͰ͖ͳ͍ɻ ෳࡶͳಈ࡞͸ਫ਼౓͕མͪͨΓϒϨͨΓ͢Δɻ • ະֶशͷμΠφϛοΫͳಈ࡞ʢϒϨΠΫμϯεɾ δϟϯϓͳͲʣ͸స౗ͯ͠͠·͏͜ͱ͕͋Δɻ • ্൒਎ͱԼ൒਎͕૬ؔͷͳ͍ಈ͖Ͱ͸ɺϢʔβ ͷϙʔζͱγϛϡϨʔγϣϯ͕Ұக͠ͳ͍Մೳੑ
͕͋Δɻ

3. ֦ࢄϞσϧͷཧղɻ౷Ұతͳࢹ఺ (ݪจ: Understanding Diffusion Models: A Uni fi ed
Perspective) ֦ࢄϞσϧ͸ੜ੒Ϟσϧͱͯ͠ڻ͘΂͖ೳྗΛ͓ࣔͯ͠Γɺ࣮ࡍɺImagen ΍ DALL-E 2 ͳͲͷςΩε τ৚݅෇͖ը૾ੜ੒ʹؔ͢Δݱࡏͷ࠷ઌ୺ϞσϧΛࢧ͍͑ͯΔɻ͜ͷݚڀͰ͸ɺม෼๏ͱείΞϕʔ εͷ྆ํͷ؍఺͔Β֦ࢄϞσϧͷཧղΛݟ௚͠ɺṖΛղ͖ɺ౷Ұ͢Δɻ·ͣɺϚϧίϑܕ֊૚తม෼ ΦʔτΤϯίʔμͷಛघͳέʔεͱͯ͠ม෼֦ࢄϞσϧʢVDMʣΛಋग़͠ɺ3ͭͷॏཁͳԾఆʹΑ ΓɺELBOͷѻ͍΍͍͢ܭࢉͱεέʔϥϒϧͳ࠷దԽΛՄೳʹ͠·͢ɻVDMΛ࠷దԽ͢Δ͜ͱ͸ɺ3ͭ ͷજࡏతͳ໨తͷ1ͭΛ༧ଌ͢ΔͨΊͷχϡʔϥϧωοτϫʔΫͷֶशʹؼண͢Δ͜ͱΛূ໌͠·͢ɻ ͦΕ͸ɺ೚ҙͷϊΠζԽ͞Εͨೖྗ͔ΒݩͷιʔεೖྗΛ༧ଌ͢Δ͜ͱɺ೚ҙͷϊΠζԽ͞Εͨೖྗ ͔ΒݩͷιʔεϊΠζΛ༧ଌ͢Δ͜ͱɺ೚ҙͷϊΠζϨϕϧʹ͓͍ͯϊΠζԽͨ͠ೖྗͷείΞؔ਺ Λ༧ଌ͢Δ͜ͱɺͰ͢ɻ࣍ʹɺείΞؔ਺Λֶश͢Δ͜ͱͷҙຯΛਂ͘۷ΓԼ͛ɺTweedieͷࣜΛ௨ ͯ͠ɺ֦ࢄϞσϧͷม෼తͳ؍఺ͱείΞϕʔεͷੜ੒ϞσϦϯάͷ؍఺Λ໌ࣔతʹ݁ͼ͚ͭΔɻ࠷ ޙʹɺ֦ࢄϞσϧΛ༻͍ͨ৚݅෇͖෼෍ͷֶशํ๏ʹ͍ͭͯɺΨΠμϯεΛ௨ͯ͡આ໌͢Δɻ w ໨తɿ%J ff VTJPO.PEFMΛ౷Ұղऍ͢Δ w ੒Ռɿ&-#0ͷѻ͍΍͍͢ܭࢉͱεέʔϥϒϧͳ࠷దԽΛՄೳʹͨ͠ w ํ๏ɿ w ݻ༗໊ɿ w ஶऀॴଐɿ(PPHMF3FTFBSDI #SBJO5FBN https://arxiv.org/abs/2208.11970v1

ELBO; evidence lower bound • ม෼ਪ࿦Ϟσϧ͕؍ଌσʔλΛͲΕ͘Β͍આ ໌Ͱ͖͍ͯΔ͔ͷධՁࢦඪ

VAE ม෼ΦʔτΤϯίʔμ

HVAE ֊૚ܕม෼ΦʔτΤϯίʔμ • ଟ૚֦ுVAEΛҰൠԽͨ͠΋ͷ

VDM ม෼཭ࢄϞσϧ • ʹ੍ݶ͖ͭϚϧίϑܕHVAEʢMHVAEʣ

4. τϥϯεϑΥʔϚʔ͸αϯϓϧޮ཰తͳੈքϞσϧ (ݪจ: Transformers are Sample Ef fi cient World
Models) ਂ૚ڧԽֶशΤʔδΣϯτ͸αϯϓϧޮ཰͕ѱ͍͜ͱͰ༗໊Ͱ͋Γɺ࣮໰୊΁ͷద༻͕͔ͳΓ੍ݶ͞ Ε͍ͯΔɻۙ೥ɺ͜ͷ໰୊Λղܾ͢ΔͨΊʹଟ͘ͷϞσϧϕʔεख๏͕ߟҊ͞ΕɺੈքϞσϧΛ૝૾ ͠ͳ͕Βֶश͢Δํ๏͕࠷΋ݦஶͳΞϓϩʔνͷҰͭͰ͋Δɻ͔͠͠ɺγϛϡϨʔγϣϯ؀ڥͱͷࣄ ্࣮ແ੍ݶͷΠϯλϥΫγϣϯ͸ັྗతʹฉ͑͜Δ͕ɺੈքϞσϧ͸௕࣌ؒʹΘͨͬͯਖ਼֬Ͱͳ͚Ε ͹ͳΒͳ͍ɻτϥϯεϑΥʔϚʔ͕γʔέϯεϞσϦϯά՝୊Ͱ੒ޭͨ͜͠ͱʹಈػ͚ͮΒΕɺզʑ ͸཭ࢄΦʔτΤϯίʔμͱࣗݾճؼτϥϯεϑΥʔϚʔ͔ΒͳΔੈքϞσϧͰֶश͢Δσʔλޮ཰ͷ ྑ͍ΤʔδΣϯτɺIRISΛ঺հ͢ΔɻΞλϦ100kϕϯνϚʔΫͰΘ͔ͣ2࣌ؒͷήʔϜϓϨΠʹ૬౰ ͢ΔIRIS͸ɺਓؒͷਖ਼نԽฏۉείΞ1.046Λୡ੒͠ɺ26ήʔϜத10ήʔϜͰਓؒΛ྇կ͢ΔੑೳΛ ൃش͢Δɻ͜ͷख๏͸ɺϧοΫϔου୳ࡧΛ༻͍ͳ͍ख๏ͱͯ͠৽ͨͳ஍ҐΛཱ֬͠ɺ͞ΒʹMuZero Λ྇կ͍ͯ͠·͢ɻαϯϓϧޮ཰ͷྑ͍ڧԽֶशͷͨΊͷTransformersͱੈքϞσϧʹؔ͢Δࠓޙͷ ݚڀΛଅਐ͢ΔͨΊɺࢲͨͪͷίʔυϕʔεΛhttps://github.com/eloialonso/iris Ͱެ։͠·͢ɻ w ໨తɿਂ૚ڧԽֶशͷֶशޮ཰ͷվળ w ੒Ռɿݱ࣮తͳֶश࣌ؒͰֶ΂Δσʔλޮ཰ͷྑ͍ΤʔδΣϯτΛ։ൃ w ํ๏ɿ཭ࢄΦʔτΤϯίʔμ ࣗݾճؼτϥϯεϑΥʔϚʔΛ࢖ͬͯɺ૝૾ੈքͰֶश͢Δ w ݻ༗໊ɿ*3*4 w ஶऀॴଐɿδϡωʔϰେֶ εΠε https://arxiv.org/abs/2209.00588v1

ݱ࣮(྘)͔ΒੈքϞσϧ(G)Λ ࢖ͬͯγϛϡϨʔγϣϯֶश

ੈքϞσϧ(G)ͷ༧ଌྫ ্:࣮؀ڥ, Լ:྘࿮͔Βਪ࿦ͨ݁͠Ռ

ੈքϞσϧͷ඼࣭޲্͕؊ • ཭ࢄΦʔτΤϯίʔμͰɺήʔϜཁૉ(Ϙʔ ϧɾϓϨΠϠʔɾఢ)Λਖ਼͘͠࠶ߏங͢Δ • τϥϯεϑΥʔϚʔͰɺใुͷؼଐ΍Τϐ ιʔυͷऴྃΛଊ͑Δ

5. જࡏత֦ࢄϞσϧʹΑΔ೴ը૾ੜ੒ (ݪจ: Brain Imaging Generation with Latent Diffusion Models)
σΟʔϓχϡʔϥϧωοτϫʔΫ͸ɺҩྍը૾ղੳʹ໨֮·͍͠ϒϨʔΫεϧʔΛ΋ͨΒ͍ͯ͠ ·͢ɻ͔͠͠ɺͦͷσʔλϋϯάϦʔͳੑ࣭͔Βɺҩྍը૾ϓϩδΣΫτʹ͓͚Δ߇͑Ίͳσʔ ληοταΠζ͸ɺͦͷજࡏೳྗΛे෼ʹൃش͢Δ๦͛ʹͳ͍ͬͯΔՄೳੑ͕͋Γ·͢ɻ߹੒ σʔλͷੜ੒͸ɺֶशσʔληοτΛิ׬͠ɺΑΓେن໛ͳҩ༻ը૾ݚڀΛՄೳʹ͢Δ༗๬ͳ୅ ସखஈΛఏڙ͠·͢ɻ֦ࢄϞσϧ͸࠷ۙɺϑΥτϦΞϦεςΟοΫͳ߹੒ը૾Λੜ੒͢Δ͜ͱͰ ίϯϐϡʔλϏδϣϯͷίϛϡχςΟͷ஫໨ΛूΊ͍ͯΔɻຊݚڀͰ͸ɼߴղ૾౓೴ը૾͔Β߹ ੒ը૾Λੜ੒͢ΔͨΊʹɼજࡏత֦ࢄϞσϧΛར༻͢Δ͜ͱΛݕ౼͢ΔɽUK Biobankσʔλ ηοτʢN=31,740ʣͷT1w MRIը૾Λ༻͍ͯɺ೥ྸɺੑผɺ೴ߏ଄ମੵͳͲͷڞม਺Λ৚݅ ͱͯ͠ɺ೴ը૾ͷ֬཰త෼෍Λֶश͢ΔϞσϧΛߏஙͨ͠ɻͦͷ݁ՌɼզʑͷϞσϧ͸ݱ࣮తͳ σʔλΛੜ੒͢Δ͜ͱ͕Ͱ͖ɼ৚݅෇͚ม਺Λ༻͍ͯσʔλੜ੒ΛޮՌతʹ੍ޚͰ͖Δ͜ͱ͕Θ ͔ͬͨɽ·ͨɼ10ສຕͷ೴ը૾͔ΒͳΔ߹੒σʔληοτΛ࡞੒͠ɼՊֶքʹެ։ͨ͠ɽ w ໨తɿֶश༻ҩྍը૾σʔληοτͷෆ଍Λิ͏ w ੒Ռɿສຕͷ߹੒೴ը૾σʔληοτΛެ։ w ํ๏ɿ೴ը૾ͷ֬཰෼෍Λֶश͢ΔϞσϧ -%.-BUFOU%J ff VTJPO.PEFMT Λߏங w ݻ༗໊ɿ w ஶऀॴଐɿΩϯάεɾΧϨοδɾϩϯυϯΞϝϦΧࠃཱਫ਼ਆӴੜݚڀॴͳͲ https://arxiv.org/abs/2209.07162v1

ੜ੒ը૾ͷఆྔධՁ

ڞมྔͰ৚݅෇͚ͯ͠ը૾ੜ੒ • ೥ྸ • ੑผ • ೴ߏ଄ମ༰ੵͳͲ • কདྷతʹ͸ɺը૾΍์ࣹઢϨϙʔτ΋ର৅ʹ ͢Δ༧ఆ

https://www.healthdatagateway.org/ (ͳͲ)Ͱ೴ը૾σʔληοτެ։

6. ඍ෼ՄೳͳΞϧΰϦζϜʹΑΔֶश (ݪจ: Learning with Differentiable Algorithms) ݹయతͳΞϧΰϦζϜͱχϡʔϥϧωοτϫʔΫͷΑ͏ͳػցֶशγεςϜ͸ɺͲͪΒ΋೔ৗੜ׆ʹᷓΕͯ ͍ΔɻݹయతͳίϯϐϡʔλαΠΤϯεͷΞϧΰϦζϜ͸ɺେ͖ͳάϥϑͷ࠷୹ܦ࿏ΛٻΊΔΑ͏ͳݫີʹ ఆٛ͞ΕͨλεΫͷਖ਼֬ͳ࣮ߦʹద͍ͯ͠Δ͕ɺχϡʔϥϧωοτϫʔΫ͸ɺਖ਼֬ͳΞϧΰϦζϜʹؐݩͰ
͖ͳ͍ը૾෼ྨͷΑ͏ͳΑΓෳࡶͳλεΫʹ͓͍ͯɺσʔλ͔Βֶशͯ͠࠷΋Մೳੑͷߴ͍౴͑Λ༧ଌ͢Δ ͜ͱ͕ՄೳͰ͋Δɻຊ࿦จͰ͸ɺ྆ऀͷ௕ॴΛੜ͔ͨ͢ΊʹɺΑΓؤ݈ͰɺΑΓߴੑೳͰɺΑΓղऍ͠΍͢ ͘ɺΑΓܭࢉޮ཰ͷߴ͍ɺΑΓσʔλޮ཰ͷߴ͍ΞʔΩςΫνϟʹͭͳ͕Δ྆֓೦ͷ݁߹Λ୳ٻ͍ͯ͠Δɻ ຊ࿦จͰ͸ɺχϡʔϥϧωοτ͕ΞϧΰϦζϜ͔Βɺ͋Δ͍͸ΞϧΰϦζϜͱ࿈ܞֶͯ͠श͢Δ͜ͱΛՄೳ ʹ͢ΔΞϧΰϦζϜ؂ࢹͱ͍͏ߟ͑ํΛఆࣜԽ͠·͢ɻΞϧΰϦζϜΛχϡʔϥϧɾΞʔΩςΫνϟʹ૊Έ ࠐΉ৔߹ɺΞʔΩςΫνϟΛΤϯυπʔΤϯυͰֶशͤ͞ɺޯ഑ΛΞϧΰϦζϜʹ༗ҙٛʹ఻ൖͤ͞Δ͜ͱ ͕Ͱ͖ΔΑ͏ɺΞϧΰϦζϜ͕ඍ෼ՄೳͰ͋Δ͜ͱ͕ॏཁͰ͋Δɻຊ࿦จͰ͸ɺΞϧΰϦζϜΛඍ෼Մೳʹ ͢ΔͨΊʹɺม਺ʹઁಈΛ༩͑ɺดͨ͡ܗͰɺ͢ͳΘͪαϯϓϦϯάͳ͠Ͱظ଴஋Λۙࣅ͢Δ͜ͱʹΑͬ ͯɺΞϧΰϦζϜΛ࿈ଓతʹ؇࿨͢ΔҰൠతͳํ๏ΛఏҊ͢Δɻ͞Βʹɺඍ෼ՄೳͳιʔτωοτϫʔΫɺ ඍ෼ՄೳͳϨϯμϥʔɺඍ෼Մೳͳ࿦ཧήʔτωοτϫʔΫͱ͍ͬͨඍ෼ՄೳͳΞϧΰϦζϜΛఏҊ͢Δɻ ࠷ޙʹɺຊ࿦จ͸ΞϧΰϦζϜΛ༻ֶ͍ͨशͷͨΊͷ୅ସతͳֶशઓུΛఏࣔ͢Δɻ w ໨తɿݹయΞϧΰϦζϜΛχϡʔϥϧωοτϫʔΫʹ׆͔͍ͨ͠ w ੒Ռɿඍ෼ՄೳͳΞϧΰϦζϜͷ։ൃͱϥΠϒϥϦఏڙ w ํ๏ɿΞϧΰϦζϜʹΑΔ؂ࢹ 4VQFSWJTPO ϑϨʔϜϫʔΫΛఆٛɾ։ൃ w ݻ༗໊ɿ w ஶऀॴଐɿίϯελϯπେֶ υΠπ https://arxiv.org/abs/2209.00616v1

ݹయΞϧΰϦζϜΛNNͷੈքʹ ૊ΈࠐΉ • ྫ: खॻ͖จࣈΛจࣈೝࣝͯ͠ιʔτ͢ΔϞσ ϧ

ίʔυྫ IUUQTHJUIVCDPN'FMJY1FUFSTFOBMHPWJTJPO

7. ػցֶशͷӡ༻ԽɻΠϯλϏϡʔௐࠪ (ݪจ: Operationalizing Machine Learning: An Interview Study) اۀ͸MLΛӡ༻͢ΔͨΊʹػցֶशΤϯδχΞʢMLEʣʹཔ͍ͬͯ·͢ɻͭ·ΓɺMLύΠϓϥΠϯΛ
ຊ൪؀ڥʹಋೖ͠ɺҡ࣋͢Δ͜ͱͰ͢ɻMLΛӡ༻͢ΔϓϩηεʢMLOpsʣ͸ɺʢiʣσʔλͷऩूͱϥ ϕϦϯάɺʢiiʣMLͷύϑΥʔϚϯεΛ޲্ͤ͞ΔͨΊͷ࣮ݧɺʢiiiʣଟஈ֊ͷల։ϓϩηεΛ௨ͯ͠ͷ ධՁɺʢivʣӡ༻தͷύϑΥʔϚϯε௿Լͷ؂ࢹɺͱ͍͏ܧଓతͳϧʔϓͰߏ੒͞Ε͍ͯ·͢ɻMLOps ΛͲͷΑ͏ʹߦ͏ͷ͔ɺະղܾͷ՝୊͸Կ͔ɺͦͯ͠πʔϧϏϧμʔʹͱͬͯͲͷΑ͏ͳҙຯ͕͋Δͷ ͔ʁࢲͨͪ͸ɺνϟοτϘοτɺࣗ཯૸ߦंɺۚ༥ͳͲɺ͞·͟·ͳΞϓϦέʔγϣϯͰ׆༂͢Δ18ਓ ͷMLEʹ൒ߏ଄ԽΤεϊάϥϑΟοΫΠϯλϏϡʔΛ࣮ࢪ͠·ͨ͠ɻΠϯλϏϡʔͰ͸ɺML ͷຊ൪ల ։ͷ੒ޭΛࢧ഑͢Δ 3 ͭͷม਺͕໌Β͔ʹͳΓ·ͨ͠ɻϕϩγςΟɺόϦσʔγϣϯɺόʔδϣχϯά Ͱ͢ɻզʑ͸ɺMLͷ࣮ݧɺσϓϩΠϝϯτɺͦͯ͠ຊ൪ύϑΥʔϚϯεΛҡ࣋͢ΔͨΊͷҰൠతͳϓϥ ΫςΟεΛཁ໿͍ͯ͠·͢ɻ࠷ޙʹɺΠϯλϏϡʔʹ౴͑ͯ͘ΕͨਓͨͪͷϖΠϯϙΠϯτ΍Ξϯνύ λʔϯʹ͍ͭͯɺπʔϧσβΠϯ΁ͷࣔࠦΛؚΊͯٞ࿦͠·͢ɻ w ໨తɿػցֶशͷӡ༻ .-0QT ʹ͍ͭͯͷΠϯλϏϡʔௐࠪ w ੒Ռɿ.-ಋೖͷͨΊͷϓϥΫςΟεΛཁ໿ w ํ๏ɿػցֶशΤϯδχΞ໊΁ͷΠϯλϏϡʔ w ݻ༗໊ɿ w ஶऀॴଐɿΧϦϑΥϧχΞେֶόʔΫϨʔߍ https://arxiv.org/abs/2209.09125v1

MLOps ੒ޭͷൿ݃ • ߴ଎   ΞΠσΞͷ࣮ݱ଎౓ɺόάʹਝ଎ʹݕূͰ͖Δσόοά؀ڥΛ༻ҙ ͢ΔͳͲɻ • (ՄೳͳݶΓૣ͍ஈ֊Ͱͷ)ݕূ  
ॲཧίετΛԼ͛ΔͨΊɺͰ͖Δ͚ͩૣ͘มߋΛςετͯ͠ɺΞΠ σΞΛݕূͯ͠מΓࠐΉɻόά؂ࢹΛ͢Δɻ൓෮αΠΫϧΛߴ଎Խ ͢Δɻ • όʔδϣχϯά(όʔδϣϯຖͷҡ࣋؅ཧ)   ੜ࢈ఀࢭ࣌ؒΛ࠷খݶʹ཈͑ΔͨΊɺෳ਺ͷόʔδϣϯͷຊ൪Ϟσ ϧΛҡ࣋ɾ؅ཧɾ੾Γସ͑ΒΕΔ࢓૊ΈΛ༻ҙ͢Δɻ

8. ඇ৵ऻత೴ه࿥͔ΒͷԻ੠ղಡ (ݪจ: Decoding speech from non-invasive brain recordings) ೴׆ಈ͔ΒݴޠΛղಡ͢Δ͜ͱ͸ɺϔϧεέΞͱਆܦՊֶͷ྆෼໺ʹ͓͍ͯ଴ͪ๬·Ε͍ͯͨ໨ඪͰ͋Δɻجຊ
తͳݴޠ՝୊ʹର͢Δ৵ऻతͳ೴൓Ԡ͔Β܇࿅͞Εͨඃݧऀݻ༗ͷύΠϓϥΠϯ͕ɺղऍՄೳͳಛ௃ʢจࣈɺ୯ ޠɺεϖΫτϩάϥϜͳͲʣΛޮ཰తʹσίʔυ͢ΔΑ͏ʹͳͬͨͷͰ͢ɻ͔͠͠ɺ͜ͷΞϓϩʔνΛࣗવͳԻ ੠΍ඇ৵ऻతͳ೴ه࿥΁֦ு͢Δ͜ͱ͸ɺґવͱͯ͠େ͖ͳ՝୊Ͱ͋Δɻຊ࿦จͰ͸ɺࣗવԻ੠ͷࣗݾڭࢣ෇͖ දݱΛ༧ଌ͢ΔͨΊʹɺେن໛ͳݸਓίϗʔτʹ͓͍ͯରরֶशͰ܇࿅͞Εͨ୯ҰͷΤϯυπʔΤϯυͷΞʔΩ ςΫνϟΛఏҊ͢Δɻզʑ͸ɺ169ਓͷϘϥϯςΟΞ͕ࣗવͳԻ੠Λฉ͖ͳ͕Β೴࣓ਤ΍೴೾Λه࿥ͨ͠4ͭͷ ެ։σʔληοτͰզʑͷϞσϧΛධՁͨ͠ɻͦͷ݁ՌɺզʑͷϞσϧ͸3ඵؒͷMEG৴߸͔Βɺ1,594ݸͷҟ ͳΔηάϝϯτͷ͏ͪ72.5%ͷ্Ґ10Ґ·Ͱͷਫ਼౓ʢ্Ґ1Ґ͸44%ʣͱɺEEGه࿥Ͱ͸2,604ݸͷηάϝϯτ ͷ͏ͪ19.1%ͷਫ਼౓ͰରԠ͢ΔԻ੠ηάϝϯτΛࣝผͰ͖Δ͜ͱ͕ࣔ͞Εͨʢֶ͕ͨͬͯ͠शηοτʹଘࡏ͠ͳ ͍ϑϨʔζΛ෮߸͢Δ͜ͱ͕ՄೳͱͳͬͨʣɻϞσϧൺֱͱΞϒϨʔγϣϯղੳʹΑΓɺ͜ΕΒͷੑೳ͸ɺզʑ ͷઃܭ্ͷબ୒ɺ͢ͳΘͪɺʢiʣରর໨తɺʢiiʣࣄલʹֶशͨ͠Ի੠දݱɺʢiiiʣෳ਺ͷࢀՃऀʹಉ࣌ʹֶश ͤͨ͞ڞ௨ͷ৞ΈࠐΈΞʔΩςΫνϟͷ࢖༻͔Β௚઀తʹརӹΛಘ͍ͯΔ͜ͱ͕ࣔ͞Εͨɻ͜ΕΒͷ݁Ռ͸ɺඇ ৵ऻతͳ೴׆ಈه࿥͔ΒࣗવݴޠॲཧΛϦΞϧλΠϜͰղಡ͢ΔͨΊͷ༗๬ͳಓےΛ໌Β͔ʹ͢Δ΋ͷͰ͋Δɻ w ໨తɿ೴׆ಈ͔Βͷݴޠղಡ w ํ๏ɿԻ੠ͱ೴࣓ਤ .&( ೴ిਤ &&( Λڭࢣσʔλͱͯ͠ɺ೴ͷ׆ಈΛֶश w ੒Ռɿඵͷ.&(&&(͔Βߴ͍ਫ਼౓ͰԻ੠ηάϝϯτΛࣝผͰ͖ͨ w ݻ༗໊ɿ w ஶऀॴଐɿ.FUB https://arxiv.org/abs/2208.12266v1

Thank you for coming Ed. ͱௌ͍ͨ࣌ͷඃݧऀ(3ਓ)ͷ೴൓Ԡ

9. େن໛ݴޠϞσϧʹΑΔ஧࣮ͳਪ࿦ (ݪจ: Faithful Reasoning Using Large Language Models) ݱ୅ͷେن໛ݴޠϞσϧ(LM)͸ҹ৅తͳ࣭໰Ԡ౴ೳྗΛ͕ࣔ͢ɺͦͷճ౴͸௨ৗɺϞσϧ΁
ͷ1ճͷݺͼग़͠ͷ݁ՌͰ͋Δɻ͜ͷͨΊɺಛʹຊ࣭తʹଟஈ֊ͷ໰୊ʹ͓͍ͯ͸ɺ޷·͘͠ ͳ͍ෆಁ໌ੑΛ൐͍ɺੑೳΛ௿Լͤ͞Δɻ͜ΕΒͷ੍ݶʹରॲ͢ΔͨΊɺզʑ͸ɺҼՌߏ଄ ͕໰୊ͷ࿦ཧߏ଄Λ൓ө͢ΔϓϩηεΛհͯ͠ɺLM͕஧࣮ͳϚϧνεςοϓਪ࿦Λ࣮ߦͰ͖ ΔΑ͏ʹ͢Δํ๏Λࣔ͢ɻຊख๏͸ɺਪ࿦εςοϓΛ࿈࠯తʹ࣮ߦ͢Δɻ֤εςοϓ͸ɺ2ͭ ͷඍௐ੔͞ΕͨLMʢ1ͭ͸બ୒༻ɺ΋͏1ͭ͸ਪ࿦༻ʣͷݺͼग़͔͠Β੒Γɺ༗ޮͳਪ࿦τ ϨʔεΛੜ੒͢Δɻຊख๏͸ɺਪ࿦඼࣭Λ޲্ͤ͞ΔͨΊʹɺਪ࿦τϨʔεͷۭؒΛ௨ͯ͠ ϏʔϜαʔνΛߦ͏ɻզʑ͸ɺଟஈ֊ͷ࿦ཧతਪ࿦ͱՊֶత࣭໰Ԡ౴ʹ͓͚ΔຊϞσϧͷ༗ ޮੑΛ࣮ূ͠ɺ࠷ऴతͳճ౴ਫ਼౓ʹ͓͍ͯϕʔεϥΠϯΑΓ༏Ε͍ͯΔ͜ͱɺ·ͨɺϢʔβ ͕ଥ౰ੑΛνΣοΫͰ͖ΔਓؒతʹղऍՄೳͳਪ࿦τϨʔεΛੜ੒Ͱ͖Δ͜ͱΛࣔ͢ɻ w ໨తɿେن໛ݴޠϞσϧͷ࣭໰Ԡ౴ೳྗͷվྑ w ੒Ռɿଟஈ֊ͷ࿦ཧతਪ࿦ͱՊֶత࣭໰Ԡ౴ʹ͓͚ΔຊϞσϧͷ༗ޮੑΛ࣮ূ w ํ๏ɿਪ࿦εςοϓΛϚϧνεςοϓͰ࣮ߦ͢Δ w ݻ༗໊ɿ w ஶऀॴଐɿ%FFQ.JOE https://arxiv.org/abs/2208.14271v1

ContextΛݩʹબ୒ͱਪଌΛ܁Γฦ͠ ͯ࠷ऴతʹQuestionͷ౴͑Λಋ͘ɻ

• SelectionϞσϧ…Context͚͔ͩΒཁૉબ୒ • InferenceϞσϧ…Selection݁Ռ͚͔ͩΒਪ࿦ • HalterϞσϧ…Infarance݁Ռʴ࣭໰͔Β౴͑ Λग़͢ɻ·ͩෆ໌ͳΒUnknownɻ

Selection -> Inference -> Halter

10. AudioLM: ݴޠϞσϦϯάʹΑΔԻ੠ੜ੒ͷΞϓϩʔν (ݪจ: AudioLM: a Language Modeling Approach to
Audio Generation) ຊ࿦จͰ͸ɺ௕ظతͳҰ؏ੑΛอͬͨߴ඼࣭ͳԻ੠ੜ੒ͷͨΊͷϑϨʔϜϫʔΫͰ͋ΔAudioLMΛ঺հ ͢ΔɻAudioLM͸ೖྗԻ੠Λ཭ࢄతͳτʔΫϯͷྻʹରԠ෇͚ɺԻ੠ੜ੒Λ͜ͷදݱۭؒʹ͓͚Δݴޠ ϞσϦϯάλεΫͱͯ͠౤͔͚͛Δɻզʑ͸ɺطଘͷԻ੠τʔΫϯԽث͕࠶ߏ੒඼࣭ͱ௕ظߏ଄ͷؒͰ ͍͔ʹҟͳΔτϨʔυΦϑΛఏڙ͍ͯ͠Δ͔Λࣔ͠ɺ྆໨తΛୡ੒͢ΔͨΊͷϋΠϒϦουτʔΫφΠ θʔγϣϯεΩʔϜΛఏҊ͢Δɻ͢ͳΘͪɺԻ੠Ͱࣄલֶशͨ͠ϚεΫݴޠϞσϧͷ཭ࢄԽ׆ੑΛར༻ ͯ͠௕ظߏ଄Λଊ͑ɺχϡʔϥϧԻ੠ίʔσοΫʹΑͬͯੜ੒͞ΕΔ཭ࢄԽίʔυΛར༻ͯ͠ߴ඼࣭ͳ ߹੒Λ࣮ݱ͢ΔɻAudioLM͸ɺେن໛ͳੜԻ੠ίʔύεͰֶश͢Δ͜ͱͰɺ୹͍ϓϩϯϓτͰࣗવͰҰ ؏ੑͷ͋Δ࿈ଓԻ੠Λੜ੒͢Δ͜ͱΛֶश͢Δɻ·ͨɺॻ͖ى͜͠΍஫ऍͷͳ͍Ի੠ʹରֶͯ͠शΛ ߦͬͨ৔߹ɺAudioLM͸ߏจతɾҙຯతʹଥ౰ͳԻ੠ͷ࿈ଓΛੜ੒͠ɺ͞Βʹະ஌ͷ࿩ऀʹରͯ͠΋࿩ ऀͷಛఆͱӆ཯Λҡ࣋͢Δ͜ͱ͕Ͱ͖Δɻ͞Βʹɺզʑ͸ɺԻָͷ৅௃తͳදݱ͕ͳ͍ʹ΋͔͔ΘΒ ͣɺटඌҰ؏ͨ͠ϐΞϊԻָͷ࿈ଓΛੜ੒͢Δ͜ͱͰɺզʑͷΞϓϩʔν͕Ի੠Λ௒͑Δ͜ͱΛ࣮ূ͢ Δɻ w ໨తɿߴ඼࣭ͳԻ੠ੜ੒Ϟσϧͷ࡞੒ w ੒ՌɿԻ੠ੜ੒ϑϨʔϜϫʔΫ"VEJP-.ͷ։ൃ w ํ๏ɿҙຯτʔΫϯͱԻڹτʔΫϯΛ૊Έ߹Θͤͨ̏ஈ֊ͷݴޠϞσϧΛ઀ଓ w ݻ༗໊ɿ"VEJP-. w ஶऀॴଐɿ(PPHMF3FTFBSDI https://arxiv.org/abs/2209.03143v1

ֶशσʔλ͔ΒԻڹτʔΫϯɾ ҙຯτʔΫϯΛ࡞Δ

ࢀߟ: SoundStream • ϏοτϨʔτՄมͳχϡʔϥϧΦʔσΟΦ ίʔσοΫ

ԻڹτʔΫϯɾҙຯτʔΫϯΛ εςʔδʹΑͬͯ࢖͍෼͚Δ • ҙຯτʔΫϯ: ݴޠత಺༰΍Իָͷટ཯ɾϦζϜ • ߥ͍ԻڹτʔΫϯ: ࿩ऀͷࣝผ΍࿥Ի৚݅ͳͲͷԻڹಛੑ • ਫ਼ີͳԻڹτʔΫϯ:
ߴ඼࣭ͷԻ੠߹੒

σϞαΠτ IUUQTHPPHMFSFTFBSDIHJUIVCJPTFBOFUBVEJPMNFYBNQMFT

σϞͷछྨ • εϐʔνͷ๯಄3ඵͷԻ੠͔ΒࣗવͳܧଓεϐʔνΛੜ੒ • ࿩ऀ͚ͩม͑ͨಉ͡εϐʔνͷੜ੒ • ϥϯμϜͳ࿩ऀɾݴޠɾ؀ڥͰແ৚݅ੜ੒ • ҙຯτʔΫϯͳ͠Ͱͷੜ੒(ҙຯΛͳ͞ͳ͍εϐʔν) •
SoundStreamͰͷԻ੠࠶ߏ੒࣌ͷྔࢠԽԻ࣭ൺֱ • ϐΞϊટ཯ͷ๯಄4ඵͷԻ੠͔Βࣗવͳટ཯Λੜ੒

ෆਖ਼ར༻Λݕग़͢ΔࢼΈ • ؆୯ʹߴ඼࣭ͳ߹੒Ի੠͕࡞Εͯ͠·͏ͷͰ๷ࢭࡦ Λ༻ҙ(Section IV-H) • ಛఆͷԻ੠σʔλ͕AudioLMͰ࡞ΒΕͨ߹੒σʔλ ͔Ͳ͏͔Λݕग़͢ΔػߏΛ૊ΈࠐΜͩɻ(ݩσʔλͱ ߹੒σʔλͰֶश) •
ਓؒͷࣖʹ͸۠ผ͕͔ͭͳͯ͘΋ػցతʹ͸؆୯ʹ ൑ผͰ͖Δ͜ͱ͕Θ͔ͬͨ

DeepL Translator (deepl.com) https://www.deepl.com/en/translator

20221005_AI勉強会

20221005_AI勉強会

More Decks by M.Inomata

Other Decks in Science

Featured

Transcript