【ICASSP2024】音声変換に関する全論文まとめ【Parakeet株式会社】

Ի੠ม׵࿦จ·ͱΊ ݱࡏ 1BQFSMJTU!*$"441

ࣥචऀ ࣗ ݾ ঺ հ l தଜହوʢͳ͔ΉΒ ͍͖ͨʣ l ෱ౡߴઐిؾ޻ֶՊˠ౦େ޻ֶ෦ˠ౦େӃ৘ใཧ޻ʢम࢜՝ఔˠݱࡏത࢜՝ఔ೥ʣ
l 1BSBLFFUגࣜձࣾ ୅දऔక໾$&0 l ςΩετԻ੠߹੒ɺԻ੠ม׵͕ઐ໳ l 9ˠIUUQTYDPNTVQJLJUJ l 1BSBLFFUגࣜձࣾʢIUUQTQBSBLFFUJODDPNʣ l ೥૑ۀ l ͲΜͳձ͔ࣾ l テキスト音声合成と音声変換の分野で、最先端の研究開発に取り組む会社です。 l ձࣾϝϯόʔͷόοΫάϥ΢ϯυ l 東大や東北大の大学院で実際に音声合成を研究する研究者が数多く在籍しています。 l ձࣾͷଘࡏҙٛʢύʔύεʣ l 革新的で高品質な製品を通して、人々のコミュニケーション体験を豊かにし、あらゆる人々が楽しく快適に暮らせる社会を実現するために存在しています。 l ձ͕ࣾ޲͔͏ઌʢϛογϣϯʣ l 2030年までに、”世界で最も傑出した音声合成技術を持つ会社”という評価を確立する。

ϦΞϧλΠϜ"*ϘΠενΣϯδϟʔʮ1BSBWPʯ 1BSBLFFUגࣜձ͕ࣾಠࣗ։ൃ͢ΔϦΞϧλΠϜԻ੠ม׵αʔϏεͰ͢ɻ ϚΠΫʹೖྗ͞Εͨ͋ͳͨͷ੠ΛҰॠͰΩϟϥΫλʔͷ੠ʹม׵͠·͢ɻ ϦΞϧλΠϜԻ੠ม׵ʹΑͬͯ ίϛϡχέʔγϣϯͷ՝୊Λղܾ͠·͢ɻ ঁੑ͔Βஉੑͷ੠ʹม׵͠ɺηΫϋϥ΍໎࿭ి࿩ͷղܾ ૬खʹࣗ෼ͷຊ౰ͷ੠Λฉ͔Εͳ͍ͨΊɺ৺ཧతෛ୲Λܰݮ ޷͖ͳ੠৭Ͱ࿩͢͜ͱʹΑΓɺձ࿩ͷָ͠Έ͕૿Ճ 1BSBWP DL数
4万突破 1 B S B W P ੡ ඼ ঺ հ

4 ςΩετԻ੠߹੒Ի੠ม׵ΛݚڀͰ͖Δํ 3VTU΍ϑϩϯτΤϯυͷ྆ํʹ໌Δ͍ํ ΛͦΕͧΕৗ࣌ืू͍ͯ͠·͢ʂ ˠڵຯ͋Δํ͸ɺࢲͷ9ͷ%.΁ʂ $90ɺਖ਼ࣾһɺΞϧόΠτɺۀ຿ҕୗͳͲ ༷ʑͳܗଶͰॊೈʹରԠͰ͖·͢ɻ

5 ·ͱΊͨ࿦จ਺ɿຊ δϟϯϧ ຊ਺ ϦΞϧλΠϜԻ੠ม׵ ;FSP POF TIPUԻ੠ม׵
੠࣭ม׵ͷ৽ΞʔΩςΫνϟ ײ৘Ի੠ม׵ ελΠϧɾΞΫηϯτม׵ Ի੠ϓϥΠόγʔؔ࿈ Ի੠ม׵ʹΑΔσʔλ֦ு

6 ϦΞϧλΠϜ੠࣭ม׵

4 53&".7$3&"-5*.&-08-"5&/$:70*$&$0/7&34 *0/ l ܰྔͳϦΞϧλΠϜԻ੠ม׵ϞσϧͷఏҊ l ܰྔͳҼՌత৞ΈࠐΈΛ࢖༻ɻ&ODPEFSग़ྗΛ)V#&35૚໨ग़ྗʹ͚ۙͮΔ͜ͱͰɺೖྗԻ੠͔Β$POUFOU৘ใΛநग़ɻ l %FDPEFS͸ɺ4PVOE4USFBNͷ΋ͷΛ࢖༻ɻ'΍࿩ऀ৘ใͷ%FDPEFS΁ͷ݁߹ʹ͸ɺ'J-.Λ࢖༻ɻ l
ೖྗԻ੠ͷਪఆ'஋Λൃ࿩୯Ґͷಛ௃ྔͰਖ਼نԽɻਪ࿦࣌͸ɺҠಈฏۉΛ࢖༻ɻ͜ΕʹΑΓɺೖྗ࿩ऀͷ੠৭Λ࡟আɻ l ݁Ռ l -JCSJ554 ࣌ؒɺ࿩ऀ ɺL)[Λ࢖༻ɻ1JYFMJ1IPOFͰɺೖग़ྗMBUFODZNTΛୡ੒ɻ l '΍ന৭Խ'ΛೖΕΔ͜ͱʹΑΓɺӆ཯ͷ࠶ݱ౓͕޲্ɻࣗવੑ͸ैདྷͷ7$ͱಉ౳ɺ໌ྎੑ͸ैདྷͷ7$ΑΓ޲্ɻ < 4 U S F B N 7 $ : B O H >

% 6"-7$ %:/".*$."4 ,&% $0/70-65*0/'036/*'*&% 4 53&".*/( "/% /0/
4 53&".*/( 70*$&$0/7&34 *0/ < % V B M 7 $ / J O H > l ඇετϦʔϛϯά͓ΑͼετϦʔϛϯάԻ੠ม׵͕ՄೳͳಈతϚεΫ৞ΈࠐΈͷఏҊ l ετϦʔϛϯάΛඇετϦʔϛϯά༻్Ͱ࢖༻͢Δ৔߹ɺաڈͷ৘ใͷΈ࢖༻͢ΔͨΊੜ੒ʹ͔͔࣌ؒΓɺࣗવੑ΍ྨࣅੑ΋௿͍ɻ l %VBM7$ɿετϦʔϛϯάΛඇετϦʔϛϯάϞσϧͰৠཹɻετϦʔϛϯάग़ྗ͕ະདྷΛ༧ଌͰ͖ɺ඼࣭͕޲্ɻ l Decoderが自己回帰で効率悪い。因果的畳み込みはチャンク内の将来の情報を活用できない。無声フレームのノイズに弱い。 l %VBM7$ɿ$POGPSNFSϕʔεʹஔ׵ɻಈతνϟϯΫϚεΫΛ࣋ͭඇҼՌత৞ΈࠐΈʹมߋɻ2VJFU"UUFOUJPOΛೖΕϊΠζ଱ੑ61 l Data Augmentation：MUSANを使用したノイズ、リバーブ、テンポ変更を実施。

% 6"-7$ % :/".*$."4 ,&% $0/70-65*0/'036/*'*&% 4 53&".*/( "/%
/0/ 4 53&".*/( 70*$&$0/7&34 *0/ < % V B M 7 $ / J O H > l ࣮ݧ l "*4)&-- TQLɺ ൃ࿩ ɻDMFBOɺOPJTZൃ࿩Λม׵ݩԻ੠ͱͯ͠࢖༻ɻର৅࿩ऀ͸உঁ໊ɻL)[Ի੠ੜ੒ɻ C 2VJFU"UUFOUJPOͷޮՌ 2VJFU"UUFOUJPOΛೖΕΔ͜ͱͰ ແ੠۠ؒͷϊΠζ͕ݮগ͍ͯ͠Δ D ಈతϚεΫ৞ΈࠐΈͷޮՌ ඇ࿈ଓతͳΫϦοΫԻ͕ݮগ͍ͯ͠Δ %VBM7$͸%VBM7$ʹର͠શͯվળ %.$Λར༻͢Δ͜ͱͰɺ DMFBOɺOPJTZ྆ํͰվળ 2VJFU"UUFOUJPOɺ%BUB"VHʹΑΓ /PJTZͰ඼࣭վળ *OUFMJ6Λ࢖༻ɻ$IVOLTJ[F͸NTͷ ͨΊɺશମͷ஗Ԇ͸ɺNTɻ

10 [FSP POF TIPU੠࣭ม׵

4 &'7$4 1&",&3&.#&% % */( '3&&;&304 )0570*$&$0/7&34 *0/ 8*5)$304 4
"55&/5*0/ < 4 & ' 7 $ - J > l ࿩ऀຒΊࠐΈΛ࢖༻ͤͣର৅࿩ऀԻ੠Λ௚઀༻͍ͨ;FSPTIPU7$ͷఏҊ l ࣄલֶशࡁΈ࿩ऀຒΊࠐΈϞσϧΛ࢖༻͢Δ৔߹ɺ୹͍Ի੠ͷ࿩ऀຒΊࠐΈ͸҆ఆ͠ͳ͍ˠ࿩ऀຒΊࠐΈϞσϧ'SFF l ର৅࿩ऀͷූ߸ԽԻ੠͔ΒҐஔΤϯίʔσΟϯάΛ࢖༻͠ͳ͍DSPTTBUUFOUJPOΛ༻͍ͯ࿩ऀੑΛநग़ l 位置エンコードを使用しないと本来時間順序が壊れるが、声色は本来時間に依存しないため、あえてランダムにすることで声色のみ抽出可能 l Ի੠Λฉ͍ͨݸਓతײ૝ ೖྗ࿩ऀͷ'ύλʔϯ͕ਖ਼͘͠൓ө͞ΕͨԻ੠Ͱ͸ͳ͍ҹ৅ɻ)V#&35ຒΊࠐΈͷΈ࢖༻͍ͯ͠Δ͔Βʁ 4&$4࿩ऀຒΊࠐΈͷίαΠϯྨࣅ౓ ର৅࿩ऀԻ੠͸ඵͷ΋ͷΛ࢖༻ ࿩ऀຒΊࠐΈϕʔεͷ :PVS554ɺ4437$ΑΓߴ඼࣭ ຊϞσϧͷDSPTTBUUFOUJPOΛ ֶशࡁΈ࿩ऀຒΊࠐΈϞσϧʹ ࠩ͠ସ͑ͨ৔߹ͱൺֱ $SPTTBUUFOUJPOͷํ͕ྨࣅੑˢ

( 3 4 &-' 4 61&37*4 &% ( -0#"-3&13&4 &/5"5*0/-&"3/*/(
'03 ;&304 )0570*$&$0/7&34 *0/ < ( 3 8 B O H > l θϩγϣοτԻ੠ม׵ͷͨΊͷMPDBM৘ใͱ෼཭͢ΔHMPCBM৘ใΛநग़Ͱ͖ΔࣗݾڭࢣϞσϧͷఏҊ l 8BW7FDͳͲͷԻ੠44-Ϟσϧ͸ɺMPDBM৘ใΛநग़Ͱ͖Δ%WFDUPSͳͲͷHMPCBM৘ใΛநग़Ͱ͖ΔϞσϧ͸ֶशʹϥϕϧ͕ඞཁ l େྔͷϥϕϧແ͠XJMEσʔλ͔ΒHMPCBM৘ใͷຒΊࠐΈΛֶश͢Δ44-ͷఏҊɻ;FSPTIPUԻ੠ม׵Ͱ࿩ऀͷ੠৭நग़ʹԠ༻ɻ l ಉҰ࿩ऀͷҧ͏ൃ࿩۠ؒΛͦΕͧΕMPDBMGFBUVSFFYUSBDUPST(3FODPEFSʹೖΕɺݩԻ੠ͱͷ࠶ߏ੒ޡࠩ("/MPTTͰֶश l "OZUPBOZͷख๏ͱൺֱ͠ɺ༏Ґʹࣗવੑྨࣅੑ͕վળɻ ˡ.044*..04݁Ռ

1 0 4 5 & 3 * 0 3
7 " 3 * " / $ & 1 " 3 " . & 5 & 3 * 4 & % ( " 6 4 4 * " / % 3 0 1 0 6 5 * . 1 3 0 7 * / ( % * 4 & / 5 " / ( - & % 4 & 2 6 & / 5 * " - " 6 5 0 & / $ 0 % & 3 4 ' 0 3 ; & 3 0 4 ) 0 5 7 0 * $ & $ 0 / 7 & 3 4 * 0 / l QWQ(%ɿ;FSPTIPU7$ʹ؆୯ʹద༻ՄೳͳϩʔΧϧ৘ใΛ੍ݶ͢ΔΨ΢γΞϯESPQPVUͷఏҊ l HMPCBM৘ใ ੠৭ ͱMPDBM৘ใ ݴޠ৘ใ ʹ෼཭͢Δ7$ͷ৔߹ɺHMPCBM৘ใ͕MPDBM৘ใΑΓ৘ใ͕গͳ͍ͨΊ่յ͢Δ܏޲ʹ͋Δɻ l (MPCBM৘ใ͸ֶशࡁΈͷ࿩ऀຒΊࠐΈΛར༻͢Δํ๏΋͋Δ͕ɺHMPCBM৘ใ΋7"&ͷજࡏม਺ͰϞσϦϯάͰ͖Δͱɺ ϞσϧΛ׬શʹڭࢣͳ͠ͰֶशͰ͖Δ͚ͩͰͳ͘ɺQ ࿩ऀຒΊࠐΈ ͔Β৽͍͠࿩ऀαϯϓϦϯάͰ͖Δɻ l ৐ࢉ͢ΔΨ΢εϊΠζΛద༻͢Δ͜ͱͰMPDBM৘ใΛ੍ݶ͠ɺϞσϧ͕HMPCBM৘ใΛޮ཰తʹར༻͢ΔΑ͏༠ಋ͢Δ%SPQPVUख๏ΛఏҊɻ l ఏҊ๏ɿHMPCBM৘ใͱMPDBM৘ใͷόϥϯεΛऔΔͨΊͷHMPCBM৘ใ΁ͷϊΠζ l HMPCBM৘ใͷજࡏม਺͕ҙຯΛ࣋ͨͳ͘ͳ͍ͬͯΔ ่յ͍ͯ͠Δ ࣌͸ɺHMPCBM৘ใͷશͯͷ࣍ݩͷ෼ࢄ͕΄΅ʹ૿Ճ͢Δɻ ͢ΔͱɺMPDBM৘ใʹ͔͚ΔϊΠζ͕େ͖͘ͳΓɺHMPCBM৘ใ੍͕ݶ͞ΕΔɻ l ҰํͰɺMPDBM৘ใʹ͔͚ΔϊΠζΛখ͘͢͞ΔͨΊʹɺ੠৭৘ใͷ෼ࢄͷੵΛແݶখʹ͠Α͏ͱͯ͠΋ɺ7"&༝དྷͷHMPCBM৘ใΛ ද͢જࡏม਺ʹ͔͔Δ,-߲ͷͨΊʹɺඪ४ਖ਼ن෼෍ ෼ࢄ ʹۙͮ͘ϖφϧςΟ͕͔͔ΔˠHMPCBMͱMPDBMͷόϥϯε͕औΕΔ࢓૊Έɻ < ( B V % S P Q P V U - V P > ఏҊ๏ͷଛࣦؔ਺ 7"& -PDBM৘ใʹ෇Ճ͢ΔϊΠζͷ෼ࢄɻ ੠৭৘ใͷ ෼ࢄͷੵ Ψ΢εϊΠζ͸୯७ʹMPDBM৘ใʹֻ͚Δɻ

1 0 4 5 & 3 * 0 3
7 " 3 * " / $ & 1 " 3 " . & 5 & 3 * 4 & % ( " 6 4 4 * " / % 3 0 1 0 6 5 * . 1 3 0 7 * / ( % * 4 & / 5 " / ( - & % 4 & 2 6 & / 5 * " - " 6 5 0 & / $ 0 % & 3 4 ' 0 3 ; & 3 0 4 ) 0 5 7 0 * $ & $ 0 / 7 & 3 4 * 0 / l ࣮ݧ l QWQ(%Λ෼཭ܕ[FSPTIPU7$ͷ"EB*/7$<$IPV>ɺ%4"&<-JBO -V>ʹద༻ͯ͠ݕূɻ7$5,࿩ऀͰֶशɻ l %4"&4ɿ%4"&ʹࣄલֶशࡁΈ࿩ऀຒΊࠐΈΛಋೖ͠ɺ࠷ऴ૚ʹΨ΢ε૚͠ɺ֬཰తʹ࢖༻ͨ͠΋ͷɻ l %4"&72ɿ%4"&ͷMPDBM৘ใΛ੍ݶ͢ΔͨΊʹίʔυϒοΫʹΑΔྔࢠԽ72Λద༻ͨ͠΋ͷɻ l ධՁࢦඪɿ4QFBLFSBDDFQUBODFSBUF 4"3ɺֶशࡁΈ࿩ऀೝূثʹม׵Ի੠͕ͲΕ͚ͩ௨͔ͬͨ ɻ$&3ɻ l ਤɺࠨ্ʹ͋Δ΄Ͳྑ͍ QWQ(%ΛೖΕͨ΋ͷ ృΓͭͿ͠ਤܗ ͕ೖΕͳ͍΋ͷ ృΓͭͿ͠ͳ͠ਤܗ ΑΓɺ࿩ऀྨࣅੑ͕޲্ɻ $&3͸มԽͳ͠ ݴޠ৘ใΛଛͳ͍ͬͯͳ͍ ɻ72ʹΑΔMPDBM৘ใͷ੍ݶ͸ɺ$&3͕ඇৗʹѱԽ͢Δ݁Ռͱͳͬͨɻ < ( B V % S P Q P V U - V P > ਤ

6/*':*/( 0/& 4 )0570*$&$0/7&34 *0/"/% $-0/*/( 8*5) % *4 &/5"/(
-&% 4 1&&$)3&13&4 &/5"5*0/4 l 0OFTIPUԻ੠ม׵ͱςΩετԻ੠߹੒Λ౷߹͢ΔͨΊͷ7"&֦ு๏ͷఏҊɻ l 7"&ܕͷ7$Ͱ͸Ќ7"&ͳͲɺݴޠ৘ใͱ࿩ऀ৘ใΛ֤જࡏม਺Ͱදݱ ෼཭ ͢Δɻ֤ม਺Λ܎਺Ͱௐ੔͢Δ͕ɺֶश͕܎਺ʹաහɻ l 一般的には、言語情報が話者情報を含むように学習されてしまうことが多いため、言語情報に正則化をかけて学習に制限をかけることが多い。 l 本研究では、言語情報を適切に正則化するために、訓練可能なテキスト認識事前分布を組み込むことを提案。 l 7"&ͷݴޠ৘ใͷࣄલ෼෍͸௨ৗɺඪ४Ψ΢ε෼෍ɻຊݚڀͰ͸ɺςΩετ৚݅෇͖ͱ͢ΔֶशՄೳͳݴޠ৘ใͷࣄલ෼෍ΛఏҊɻ l 具体的には、音響特徴量に対応するテキストから言語情報の事前分布を表現する DNN を学習する。 l テキストを条件付とした言語情報の潜在変数と、入力された話者の音響特徴量を条件付とした言語情報の潜在変数が近くなるように、KLでloss。 l ݁Ռతʹɺݴޠ৘ใͷࣄલ෼෍ΛςΩετ͔Βਪଌֶͨ͠शՄೳͳࣄલ෼෍Ͱஔ͖׵͑ͨํ͕ɺ෼཭ੑೳ͕޲্ɻ < $ M P O J O H - V > ࣄલ෼෍ΛֶशՄೳʹ͢Δ͜ͱͰ ෼཭ੑೳ޲্ɻ7"&(17"&51 4$(MPX554ʹର͠ɺ$&3ѱԽɻ 7"&(17"&51 ࣄલ෼෍ΛֶशՄೳʹ͢Δ͜ͱͰɺ ࿩ऀੑͱ໌ྎੑվળɻ

16 ੠࣭ม׵ͷ৽ΞʔΩςΫνϟ

8"7 7&$7$70*$&$0/7&34 *0/7*")*% % &/3&13&4 &/5"5*0/4 0' 8"7 7&$
< 8 B W W F D 7 $ - J N > l 8BW7FDͷӅΕ૚ग़ྗΛू໿ͨ͠ຒΊࠐΈʹجͮ͘Ի੠ม׵Ϟσϧ l ݴޠ৘ใͱ࿩ऀ৘ใΛ෼཭͢Δ7$͸ɺ֤ຒΊࠐΈʹର͠໌ࣔతͳଛࣦ߲Λద༻͓ͯ͠ΓɺֶशΛ೉͍ͯ͘͠͠Δɻ l 8BWWFD7$͸ɺ8BWWFDͷӅΕ૚͔Βݴޠ৘ใͱ࿩ऀ৘ใΛ෼཭͠ɺ࠶ߏ੒ޡࠩͷΈͰֶश l શମ૾ɺ'JH ೖྗ࿩ऀԻ੠ɺର৅࿩ऀԻ੠Λ8BW7FDʹೖྗɻࣄલֶश͞ΕͨॏΈʹΑΓ֤ຒΊࠐΈΛநग़͠ɺԻ੠Λ߹੒ɻ l ࣄલֶशɺ'JH 8BW7FD֤૚ग़ྗʹର͠ɺॏΈΛదԠ͠ɺݴޠ৘ใ࿩ऀ৘ใΛޮՌతʹநग़͢ΔΑ͏ɺॏΈΛֶशɻ l ओ؍ɺ٬؍ධՁ͸লུɺ'JH ݴޠ৘ใ͸࿩ऀඇґଘɺ࿩ऀ৘ใ͸࿩ऀʹґଘͨ͠΋ͷ͕औΕ͍ͯΔ 'JHશମ૾ 'JHࣄલֶश 'JHՄࢹԽ

-&"3/*/( % *4 &/5"/( -&% 4 1&&$)3&13&4 &/5"5*0/4 8*5) $0/53"4
5*7&-&"3/*/( "/% 5*.&*/7"3*"/53&53*&7"- l $57$ɿରরֶशͱ࣌ෆมݕࡧʹجͮ͘ݴޠ৘ใͱ࿩ऀ৘ใΛ෼཭ՄೳͳԻ੠ม׵ϞσϧͷఏҊ l ਤத্ ݴޠຒΊࠐΈ͕ಉ͡ԻૉؒͰίαΠϯྨࣅ౓Λߴ͘ ٯ͸௿͘ ͢Δଛࣦ߲ (3-ʹΑΓݴޠ৘ใ͕࿩ऀ৘ใʹඇґଘʹɻ l ਤதԼ ೖྗϝϧεϖ4@Yͷࠨ൒෼ɺӈ൒෼͔ΒͦΕͧΕϑϨʔϜͷ4FH@ɺ4FR@Λ੾Γग़͢ɻೖྗಛ௃ྔશମ͔Β൒෼Ҏ্ͷ 4FH@ΛϥϯμϜʹ੾Γग़͢ɻ4@Yͱશͯͷ4FH͔Β࿩ऀຒΊࠐΈΛநग़͠ɺ4FR@ͱ4FR@ɺ4FR@ͱ4@Yͷ࿩ऀຒΊࠐΈͷ ૬ޓ৘ใྔͷ࿨͕࠷େԽ͞ΕΔΑ͏ֶश͢Δɻೖྗϝϧεϖͷ೚ҙͷ͔۠ؒΒٻΊͨ࿩ऀຒΊࠐΈ͸શͯࣅͨ΋ͷʹͳΔͱ͍͏Ծఆɻ l "*4)&--ͰݕূɻൺֱͷͨΊɺDPOUFOUFOD DPNQSFTTJPOΛֶशࡁΈ)V#&35Ͱஔ͖׵͑ͨ΋ͷΛɺ57$ͱͨ͠ɻ < $ 5 7 $ % F O H > (3-ޯ഑൓స૚ ະ஌࿩ऀʹରͯ͠΋ैདྷํʹର͠վળ (3-ͱ5*3͕࿩ऀྨࣅੑͷվળʹد༩ 5*3

$ 0 / 7 / & 9 5 5
5 4 " / % $ 0 / 7 / & 9 5 7 $ $ 0 / 7 / & 9 5 # " 4 & % ' " 4 5 & / % 5 0 & / % 4 & 2 6 & / $ & 5 0 4 & 2 6 & / $ & 5 & 9 5 5 0 4 1 & & $ ) " / % 7 0 * $ & $ 0 / 7 & 3 4 * 0 / < $ P O W O F Y U 5 5 4 0 L B N P U P > l ߴ଎ͳਪ࿦͕Մೳͳ$POW/F9UϕʔεͷΤϯίʔμɺσίʔμɺϘίʔμΛ࣋ͭ5547$ͷఏҊ l $POW/F9Uɿ૚ਖ਼نԽɺEFQUIXJTF৞ΈࠐΈɺQPJOUXJTF৞ΈࠐΈɺ(&-6Λ3FT/FUʹೖΕͨ΋ͷɻ4XJO5SBOTGPSNFSΑΓߴੑೳɻ l Vocos：複数のConvNeXtブロック+STFTベースのアップサンプリング層からなるボコーダ。 l WaveNeXt：Vocosの推論速度を保ったまま、品質を向上させるために、STFTベースのアップサンプリング層を学習可能な線形層に変えたもの。 l $/+&54$/+&547$ΛఏҊʢ+&54+&547$ɿ5SBOTGPSNFS )J'J("/ͷ5SBOTGPSNFSΛ$POW/F9Uϕʔεʹม͑ͨ΋ͷɻʣ l $POW/F9U554$POW/F9U7$ΛఏҊʢ$/+&54$/+&547$ͷ)J'J("/Λ8BWF/F9Uʹม͑ͨ΋ͷɻʣ .04 ࿩ऀྨࣅ౓ڞʹ+&54ϕʔεͱಉ౳ ଎౓͸ɺ 5SBOTGPSNFSˠ$POW/F9UͰ35'޲্ )J'J("/ˠ8BWF/F9UͰ35'޲্ ྆ํͰɺ35'޲্

20 ײ৘Ի੠ม׵

1"7*54 &91-03*/( 1304 0% :"8"3& 7*54 ' 03& /%50&/%
&.05*0/"-70*$&$0/7&34 *0/ < 1 " 7 * 5 4 2 J > l 7*54ϕʔεͷ໌ࣔతͳӆ཯ͷϞσϦϯάΛؚΉ&OEUP&OEײ৘ม׵ϞσϧͷఏҊ l ςΩετ͔Βͷӆ཯༧ଌ 5FYUVBMQSPTPEZ511 l ςΩετͱײ৘ϥϕϧ͔Βӆ཯༧ଌثͰԻૉ୯Ґͷӆ཯Λ༧ଌ l Իૉ୯Ґͷӆ཯৘ใͱԻૉ৘ใ͔Βײ৘ʹґଘͨ͠Իૉܧଓ௕Λ༧ଌ l Ի੠͔Βͷӆ཯༧ଌ "DPVTUJDQSPTPEZNPEFMJOH"11 l ֶशࡁΈײ৘༧ଌث<8BHOFS>Λ༻͍ͯઢܗεϖΫτϩάϥϜ͔Β ϑϨʔϜ୯Ґͷӆ཯৘ใΛ༧ଌɻ l 1SPTPEZ*OUFHSBUPS࿩ऀґଘ৘ใͱ಺༰ґଘ৘ใΛ౷߹ɻ l ϑϨʔϜ୯Ґͷ511ͱ"11Λӆ཯ΞϥΠϯϝϯτʹΑΓ౷߹ɻ ˡχϡʔτϥϧ͔Βײ৘Ի੠΁ ม׵ͨ݁͠Ռͷײ৘ྨࣅ౓ධՁ #BTFMJOFΑΓྨࣅ౓ߴ͍ ݻఆ௕ม׵ Ի੠͔ΒԻ੠ ΑΓ χϡʔτϥϧԻ੠Λ"43Ͱ Իૉྻʹ͠ɺԻૉྻ͔Βײ৘ Ի੠ʹม׵ͨ͠ํ͕ྨࣅ౓ߴ͍

&.0$0/7% *''% *''64 *0/#"4 &% 4 1&&$)&.05*0/$0/7&34 *0/ '03/0/1"3"--&-"/% */
5)&8*-% % "5" < & . 0 $ 0 / 7 1 S B C I V > l &.0$0/7%*''ɿϊϯύϥϨϧ*OUIFXJMEσʔλͰֶशՄೳͳ֦ࢄϞσϧϕʔεͷײ৘Ի੠ม׵ l ϊϯύϥϨϧײ৘ม׵ϞσϧΛֶश͢Δ৔߹ɺԻ੠Λޠኮ৘ใɾײ৘৘ใɾ࿩ऀ৘ใʹ෼཭͢Δඞཁˠ෼཭ੑೳߴ͍֦ࢄϞσϧΛ࢖༻ l ֶशࡁΈԻૉΤϯίʔμ͔Βग़ྗ͞ΕͨฏۉԽ͞ΕͨԻૉ৘ใ:͔ΒݩͷԻ੠9΁ͷٯ֦ࢄ໰୊Λֶश l 具体的には、条件として感情埋め込み E(X0) & 話者埋め込み S(X0)、tステップ情報 Xt から Xt の対数尤度の勾配を予測するネットワークを学習 l 推論時には、対象感情の埋め込み E(e-)を代わりに与えて、感情変換を実現。スコアマッチングロスと音響特徴量の再構成誤差で学習。 l .411PEDBTUEBUBTFU IPVST TQL ɺײ৘Λ੍ޚ͢Δࢦඪͱͯ͠"SPVTBM ֮੧౓ SFMBYFE d BDUJWBUFE Λ࢖༻ l ྆ํͷଛࣦ߲ΛೖΕͨ΋ͷ͕ैདྷ๏<1SBCIV>ʹର͠վળɻ֮੧౓Λڧ͘͢Δ΄Ͳɺैདྷ๏ʹର͠ɺײ৘࠶ݱ౓͕޲্ɻ

& 4 7 $ $ 0 . # *
/ * / ( " % " 1 5 * 7 & 4 5 : - & ' 6 4 * 0 / " / % . 6 -5 * - & 7 & - ' & "5 6 3 & % * 4 & / 5" / ( - & . & / 5 ' 0 3 & 9 1 3 & 4 4 * 7 & 4 * / ( * / ( 7 0 * $ & $ 0 / 7 & 3 4 * 0 / < & 4 7 $ : B O H > l Վखͷ੠৭ͱײ৘ελΠϧΛಉ࣌ʹม׵Ͱ͖Δ47$ΛఏҊɻ l 4UZMF৘ใͱ$POUFOU৘ใ͸ՃࢉͰ͸ͳ͘"EB*/Λ࢖༻ɻ l $POUFOU৘ใͱඇ$POUFOU৘ใͷ෼཭ͷͨΊɺ$POUFOU৘ใͱ'৘ใɺ࿩ऀײ৘*%ͷؒͰ૬ޓ৘ใྔ .* ࠷খԽͷ࿮૊ΈΛ࢖༻ɻ l ม׵͞ΕͨՎͷ੠৭ͱײ৘Λ෼཭͢ΔͨΊɺ࿩ऀɺײ৘ʹؔ͢ΔͦΕͧΕͷ5SJQMFUଛࣦΛಋೖɻ l Ϟσϧߏ଄͸4PWJUTTWDɻ l ࣄલֶशͰ0QFODQPQɺGJOFUVOJOHͰ&4%ɺධՁͰ0QFOTJOHFSΛ࢖༻ɻ l ײ৘͝ͱͷ٬؍ධՁ '3.4& Ͱ͸ɺ&47$ X-FNP XP-TJO Ͱ4BE B ͱIBQQZ C Ͱѱ͍݁Ռʹɻײ৘ͱ࿩ऀ৘ใ͸ີ઀ʹ ݁ͼ͍͓ͭͯΓɺยํΛվળ͢Δͱยํ͕ѱԽ͢Δɻ࿩ऀ৘ใʹؔ͢Δ5SJQMFUଛࣦ΋ಉ࣌ʹՃ͑ͳ͍ͱੑೳ͕ѱԽ͢Δɻ l 4PWJUTTWD͸ײ৘ม׵͕ऑ͍ɻײ৘ͷ5SJQMFUଛࣦΛೖΕΔͱɺ੠৭ม׵͕ѱԽɻશ෦ೖΕ͕Ұ൪ྑ͍ɻ '3.4& )[ 4.04ͱϓϦϑΝϨϯεςετ

24 ελΠϧɾΞΫηϯτม׵

1 3 0 . 1 5 7 $
' - & 9 * # - & 4 5 : - * 4 5 * $ 7 0 * $ & $ 0 / 7 & 3 4 * 0 / * / - " 5 & / 5 4 1 " $ & % 3 * 7 & / # : / " 5 6 3 " - - " / ( 6 " ( & 1 3 0 . 1 5 4 < 1 S P N Q U W D :B P > l જࡏ֦ࢄϞσϧΛϕʔεͱͨ͠ϓϩϯϓτ੍ޚՄೳͳԻ੠ελΠϧม׵ϞσϧͷఏҊ l ࣄલఆٛ͞ΕͨελΠϧ΁ม׵͢ΔϞσϧ͸ɺଟ༷ੑʹ͚ܽΔର৅Ի੠ͰελΠϧΛࢦఆ͢Δํ๏΋ղऍੑʹ͚ܽΔ l ςΩετʹΑΔελΠϧ੍ޚՄೳͳ7$ͷఏҊˡςΩετʹΑΓ৚݅෇͚͞ΕͨελΠϧϕΫτϧΛજࡏ֦ࢄϞσϧͰੜ੒ l 音声変換モデル自体は VITS + prosody loss。拡散モデルは、テキスト潜在変数を条件付けしたノイズからスタイルベクトルを予測するよう学習。 l ൃ࿩ͷL)[ɺ࣌ؒͷதࠃޠ಺෦σʔλͰݕূɻશൃ࿩ʹର͠ɺਓͷΞϊςʔλʔʹΑΓελΠϧจΛ෇༩ɻ ैདྷ๏ͱൺֱ͢Δࡍ͸ɺ4UZMFFODPEFSग़ྗͷελΠϧΛ࢖༻ ैདྷ๏ʹର͠ɺԻ੠඼࣭ɺελΠϧྨࣅ౓ͲͪΒ΋༏Ґʹ޲্ Ի੠͔Β௚઀ελΠϧຒΊࠐΈܭࢉWTϓϩϯϓτ͔ΒͷຒΊࠐΈ ϓϩϯϓτ͔Β΋͋Δఔ౓ͷελΠϧྨࣅ౓ΛදݱͰ͖͍ͯΔ

53"/4 '&35)&-*/( 6*4 5*$3&13&4 &/5"5*0/4 '30.554 50 "$$& /5$0/7& 34
*0/8*5)/0/1"3"--&-% "5" < 5 S B O T B D D F O U $ I F O > l 554ͷݴޠຒΊࠐΈΛར༻ͨ͠ඇࣗݾճؼܕϊϯύϥϨϧΞΫηϯτԻ੠ม׵ϞσϧͷఏҊ l ௨ৗΞΫηϯτม׵ʹ͸ҟͳΔΞΫηϯτΛ࣋ͪจ຺৘ใ͕ಉҰͷύϥϨϧσʔλ͕ඞཁˠςΩετ৘ใͱͷBMJHONFOUʹΑΓղܾ l 4UBHF ςΩετ͔Βର৅ΞΫηϯτԻ੠ͷ߹੒Λ͢Δ554Λֶश l 4UBHF Ի੠ຒΊࠐΈ͕ݴޠຒΊࠐΈʹۙͮ͘Α͏ʹֶशɻԻ੠ຒΊࠐΈ͕ೖྗ࿩ऀͷΞΫηϯτʹඇґଘʹͳΔ͜ͱΛظ଴ɻ l 4UBHF ࣮ࡍͷೖྗ࿩ऀͷΞΫηϯτσʔλΛ༻͍ͯɺӈਤࠨଆΛpOFUVOFɻ l ࣮ݧ l 4UBHF͸-JCSJ5543 ࣌ؒɺ࿩ऀɺL)[ Λ࢖༻ɻ l 4UBHF͸ɺώϯσΟʔΞΫηϯτ࿩ऀ உੑɾঁੑ໊ͣͭɺจΛֶशʹ࢖༻ l "DDFOUOFTT͸ม׵Ի੠͕ೖྗ࿩ऀͷΞΫηϯτΛͲΕؚ͚ͩΜͰ͍Δ͔Λද͢ओ؍ධՁࢦඪ l "CMBUJPO ϝϧεϖΫτϩάϥϜͰ͸ͳ͘8IJTQFSΛ࢖༻͢Δ͜ͱͰΞΫηϯτվળ l 0VS 4UBHFͷݴޠ৘ใͱԻ੠৘ใͷΞϥΠϯϝϯτΛߦ͏͜ͱͰɺ໌ྎੑΛେ͖͘վળɻ

27 Ի੠ϓϥΠόγʔؔ࿈

*/7&35*#-&70*$&$0/7&34*0/8*5)1"3"--&-%"5" l ม׵͞ΕͨԻ੠͔Βม׵ݩ࿩ऀΛಛఆɺ෮ݩͰ͖ΔzՄٯzͳԻ੠ม׵ϞσϧͷఏҊ l Մٯม׵͕Մೳͳ'MPXϞσϧΛ࢖༻ɻӅΕಛ௃্൒෼Λอ࣋͠ɺԼ൒෼ͷΈΛม׵ɻ5SBOTGPSNFSϕʔεͷΞʔΩςΫνϟɻ l "3$5*$$.6EBUBCBTF L)[ TQL จ
ɻ"OZUPͷ৚݅Ͱ͸ݕূͯ͠ͳ͍͜ͱʹ஫ҙɻ l ٞ࿦ $MPTFE࿩ऀର͔ͭύϥϨϧσʔλͷ৚݅ԼͰ෮ݩͰ͖͕ͨɺ0QFO࿩ऀೖྗ͕૝ఆ͞ΕΔ࣮༻ར༻ʹ͸ఔԕ͍ɻ < * / 7 & 3 5 $ B J > 7$ͱͯ͠ͷࣗવੑɺྨࣅੑ͸ɺඇՄٯͳ5SBOTGPSNFS7$ʹٴ͹ͣɻ ม׵Ի੠ͱม׵Ի੠͔Βೖྗ࿩ऀϝϧεϖΫτϩάϥϜʹ໭ͨ͠΋ͷͷ ϝϧέϓ࿪Έ͸ʹͳͬͨʢ׬શʹ໭͢͜ͱ͕Ͱ͖ͨʣ

" % 7 & 3 4 " 3 * "
- 4 1 & & $ ) ' 0 3 7 0 * $ & 1 3 * 7" $ : 1 3 05 & $ 5 * 0 / ' 3 0 . 1 & 3 4 0 / " - * ; & % 4 1 & & $ ) ( & / & 3 "5 * 0 / l ਓؒͷࣖʹ΋ࣝผෆՄೳͳɺఢରతԻ੠ٕज़Λར༻ͨ͠Ի੠ͷอޢํ๏ͷఏҊ l طଘͷԻ੠ಗ໊Խख๏͸ɺԻ੠͔Β࿩ऀੑΛฤू͢Δ͜ͱͰݩͷ࿩ऀ͕୭͔Θ͔Βͳ͘͢Δɻਓؒͷௌ֮తʹ΋ɻ l ຊݚڀͰ͸ɺਓؒͷௌ֮తʹ͸ݩ࿩ऀͷ੠ͷ··ʹฉ͑͜Δ͕ɺ7$ͳͲʹ࢖༻͞ΕΔ࿩ऀೝূػʹ͔͚Δͱޡೝࣝ͢Δํ๏ΛఏҊɻ l ·ͣ͸ɺϗϫΠτϘοΫεঢ়گΛ૝ఆ͠ɺ:PVS554ʹΑΓର৅࿩ऀͷԻ੠͕෮ݩ͞Εͳ͍Α͏ͳఢରతख๏ΛఏҊɻ l ϊΠζͷ෇༩ʹ͸ɺҰճ͚ͩϊΠζΛ෇༩͢Δ'(4.ͱɺෳ਺ճϊΠζ෇༩͢Δ*'(4.<,VSBLJO>Λ࢖༻ɻ l ݩͷԻ੠ͷ࿩ऀຒΊࠐΈͱϊΠζ෇༩ޙͷ࿩ऀຒΊࠐΈͷίαΠϯྨࣅ౓͕ ߴ͘ͳΔํ޲΁ϊΠζΛ෇༩͢Δ࿮૊Έɻ l -JCSJTQFFDIUFTUDMFBOɻL)[ɻ൓෮ճ਺ɻม׵Ի੠Λ༻͍ͯɺ [FSPTIPU5547$Ͱݕূɻ"47ʹΑΔ&&3 Λࢦඪͱͨ͠ɻ l *'(4.ʹΑΔϊΠζ෇༩͸ɺશͯͷύλʔϯͰର৅࿩ऀԻ੠ͷ෮ݩΛΑΓࠔ೉ʹɻ < " E W $ I F O > ఢରతϊΠζͷ෇༩ ࣜ*'(4.<,VSBLJO>

" 6 % * 0 % & & 1
' " , & % & 5 & $ 5 * 0 / 8 * 5 ) 4 & - ' 4 6 1 & 3 7 * 4 & % 8 " 7 - . " / % . 6 - 5 * ' 6 4 * 0 / " 5 5 & / 5 * 7 & $ - " 4 4 * ' * & 3 l 8BW-.ͱෳ਺ͷղ૾౓Λ΋ͭ஫ҙػߏΛ༗͢ΔԻ੠ͷσΟʔϓϑΣΠΫݕग़ख๏ͷఏҊ l 8BW7FD΍9-43ΑΓ࿩ऀʹґଘͨ͠λεΫʹڧ͍8BW-.Λ࠾༻ɻ֤தؒ૚ग़ྗʹ"41Λ௨͢ .'"DMBTTJGJFS ɻ l "47TQPPGDIBMMFOHFͷMPHJDBMBDDFTT -" ͱTQFFDIEFFQGBLF %' QBSUJUJPOTΛ࢖༻ɻ < E F F Q G B L F E F U F D U J P O ( V P > 8BW7FDΛ༻͍ΔΑΓ8BW-.ͷํ͕վળɻ

.0% &-*/( 14 &6% 04 1&",&36/$&35"*/5:*/70*$& "/0/:.*;"5*0/ l Ի੠ಗ໊ԽͷͨΊͷෆ࣮֬ੑΛٖ࣋ͭࣅ࿩ऀදݱख๏ͷఏҊ l
Ի੠ಗ໊ԽͰ͸ɺೖྗ࿩ऀͷ੠৭Λผͷٖࣅ࿩ऀूஂͷฏۉ੠৭Ͱஔ׵͢Δ͜ͱͰ࣮ݱɻٖࣅ࿩ऀूஂͷYWFDUPSͷฏۉΛ࢖༻ɻ l ैདྷͷݚڀͰ͸ೖྗԻ੠ΛͦΕͧΕҟͳΔٖࣅ࿩ऀूஂฏۉʹม׵ͯ͠΋ɺ౳ՁΤϥʔ཰ &&3 ͕௿͍܏޲ɻ l 入力話者がX、変換先擬似話者をそれぞれA、Bとすると、AとBがなるべく同じ話者と判定されないようにしたい(EERは大きいほどよい)。 l 従来の研究では、異なる集団話者から計算された平均ベクトル間の多様性が低かった(入力話者音声を匿名化すると似た声色になりがちだった)。 l ͜Ε·Ͱ͸ٖࣅ࿩ऀΛ఺ਪఆ͍͕ͯͨ͠ɺຊݚڀͰ͸ɺٖࣅ࿩ऀͷෆ࣮֬ੑΛߟྀ ٖࣅ࿩ऀͷࣄޙ෼෍Λਪఆ ɻ l 入力音声を条件とした話者埋め込みの平均、分散を出力する学習済みXi-vector[Lee21]を使用。DNN出力とXi-vector出力を近づけるよう学習。 l ݁ՌͰ͸ɺΦϦδφϧԻ੠ 0 ಗ໊ԽޙͷԻ੠ " ɺҟͳΔٖࣅ࿩ऀಉ࢜ͷ&&3 "" ΛൺֱɻͲͪΒ΋ߴ͍΄ͲΑ͍ɻ l 従来法は特に、A-Aの結果が低く、どの擬似話者にしても似た特徴の音声になっていた(多様性の減少)。提案法は全てにおいてEERが高い傾向に。 < " O P O Z N J [ B U J P O $ I F O > 9JWFDUPS ࣮ࡏ࿩ऀ͔Β਺໊બ୒ ٖࣅ࿩ऀͷ࿩ऀ෼෍Λ Ψ΢ε෼෍Ͱදݱ ϊΠζ͔Β%//Ͱಗ໊࿩ऀͷ ෼෍ύϥϝʔλΛ,-MPTTͰֶश ͪ͜Β͸ GSP[FO %//Λֶश

%0&4"6%*0%&&1'",&%&5&$5*0/3&-:0/"35*'"$54 l Ի੠ͷEFFQGBLFݕग़͕Ի੠ʹ৐͍ͬͯΔΞʔςΟϑΝΫτʹґଘ͍ͯ͠Δ͔Λݕূͨ͠࿦จ l طଘͷԻ੠EFFQGBLFݕग़ٕज़͸ɺม׵Ի੠ʹࡌ͍ͬͯΔΞʔςΟϑΝΫτ ਓ޻తͳࠟ੻ Λݩʹ൑அ͍ͯ͠Δɻ l 将来的にdeepfake技術が向上し、アーティファクトが変換音声に乗らなくなった場合、検出技術は正しく真偽判定できるのだろうか？ l
現在の検出モデルはアーティファクトに依存しない堅牢な特徴を検出できるか？→realとfake音声それぞれに同じアーティファクトを載せて検証。 l 3FBMͱ'BLFͰۉҰͳΞʔςΟϑΝΫτΛؚΉධՁσʔλ #&"3 ΛఏҊɻ8IJUF#&"3ɺ(SBZ#&"3ͷͭΛఏҊɻ l 問題設定（音声変換）：入力話者Xから対象話者Yの音声に変換しようとした変換音声を、Zとする。 l White-BEAR：white-box音声変換を用いて、YをX’に変換し、X’をY‘に変換。Y’はアーティファクトは載っているが限りなくYに近い。 l Gray-BEAR：YとZそれぞれに、強度をいくつかのパターンで変えたガウスノイズを加算。 l 8IJUF#&"3ɺ(SBZ#&"3͍ͣΕʹ͓͍ͯ΋&&3͕͔Β࠷େ·ͰѱԽɻ͍ͣΕͷݕग़ٕज़΋ΞʔςΟϑΝΫτ͕Ի੠ʹ ࡌ͍ͬͯΔ͔Ͳ͏͔Ͱ൑ఆ͍ͯ͠Δ܏޲͕ڧ͍ˠকདྷΞʔςΟϑΝΫτ͕ͳ͘ͳΔ΄ͲEFFQGBLF͕޲্ͨ͠ͱ͖ʹಥഁ͞ΕΔةݥੑɻ < " S U J G B D U 4 I J I >

'4%"O*OJUJBM$IJOFTF%BUBTFUGPS'BLF4POH%FUFDUJPO l தࠃޠͷՎ੠ʹؔ͢ΔԻ੠EFFQGBLF༻ͷσʔληοτ'4%Λߏஙɻ l ࿩͠੠ʹؔ͢ΔԻ੠EFFQGBLF "%% ݕग़ثֶशͷͨΊͷσʔληοτ͸਺ଟ͋͘ΔɻՎ੠͸υϝΠϯ͕ҟͳΔ্ɺগͳ͍ɻ l Ұൠతͳ"%%ΛՎ੠ݕग़ʹస༻͠Α͏ͱ͢ΔͱɺָثτϥοΫ΍ϘʔΧϧͷసௐ΍ϐονมಈʹΑΓޡ࡞ಈΛى͜͢Մೳੑɻ l
ۙ೥Վ੠ม׵ʹ࢖༻͞Ε͍ͯΔ7*54Λ༻͍ͨ4P7*54ɺ%JGG4JOHFSɺ37$͔ΒͳΔͭͷख๏ʹΑΓ'4%Λߏஙɻ l 実際の歌から楽器トラックを抽出して、歌声を歌声変換で変換することでfakeを作り、楽器トラックを混ぜ、偽データを作成。 l 200の本物の楽曲と、450の偽楽曲で構成。3つの So-VITS（normal、NFS-HiFiGAN with Snake、with shallow diffusion）をそれぞれ、F01、F02、F03。DiffSingerを F04、RVCを F05 とする。DiffSingerだけ、歌声変換ではなく、歌声合成。 l F01〜F03、F05に関しては、実際の楽曲から歌声を抜き出し、違う歌手に変換し、楽曲を付与。F04は、歌声を歌詞から合成し、楽曲のせた。 < ' 4 % 9 J F > ָۂ෇ِ͖Վ੠σʔλʹର͢Δ&&3ʢ௿͍΄Ͳྑ͍ʣ ָۂͳِ͠Վ੠σʔλʹର͢Δ&&3ʢ௿͍΄Ͳྑ͍ʣ ࿩͠੠Ͱֶशͨ͠Ϟσϧ͸Վ੠Ͱ͸ࠅ͍݁Ռ Վ੠Ͱֶशͨ͠Ϟσϧ͸ָۂ෇ِ͖Վ੠ʹ΋ߴ͍ݕग़཰ Վ੠Ͱֶशͨ͠Ϟσϧ͸ِՎ੠͚ͩͩͱɺ͞Βʹߴ͍ݕग़཰ ࿩͠੠EFFQGBLFݕग़Ͱ 405"ͷϞσϧୡ

34 Ի੠ม׵ʹΑΔσʔλ֦ு

& / ) " / $ * / ( .
6 -5 * - * / ( 6 " - 5 5 4 8 * 5 ) 7 0 * $ & $ 0 / 7 & 3 4 * 0 / # " 4 & % % "5" " 6 ( . & / 5"5 * 0 / " / % 1 0 4 5 & 3 * 0 3 & . # & % % * / ( l Ի੠ม׵ʹΑΔσʔλ֦ுΛ༻͍ͨଟݴޠଟ࿩ऀ .. 554ͷఏҊɻ l ಉ͡࿩ऀͷෳ਺ݴޠͷσʔλΛूΊΔͷ͸ࠔ೉ˠ୯ݴޠଟ࿩ऀσʔλͰֶशͤͨ͞DSPTTMJOHVBMଟ࿩ऀ7$ $.7$ Ͱσʔλ֦ு l 'JH ͦΕͧΕͷݴޠͷ࿩ऀσʔλͰ.BOZUPNBOZ4DZDMPOF7$Ϟσϧ<-FF>ΛֶशɻͦΕΛ༻͍ͯଟݴޠ΁σʔλ֦ுɻ l ӳޠɺ೔ຊޠɺؖࠃޠͷ̏ݴޠΛର৅ͱ͠ɺͭͷݴޠͰࣅ͍ͯΔԻૉΛ*1"ʹै͍ɺϚʔδɻશ෦ͰͷԻૉ΁ɻ l ୯ʹ֦ுσʔλΛ554ʹ૊ΈࠐΉͱʮ͜΋ͬͨԻʯʹͳΔɻ7"&Λ௨ͨ͠ࣄޙ෼෍Λ554΁ೖྗɻ໌ࣔతͳ࿩ऀ*%ͱݴޠ*%Λ߹Θͤͯ Ճ͑Δ͜ͱʹΑΓɺ7"&ग़ྗͷࣄޙ෼෍͕ʮ֦ுσʔλʯʮݪԻ੠ʯͷͦΕͧΕͷ෼෍Λଊ͑ΒΕΔΑ͏ʹͳΔɻ l $.554 σʔλ֦ுͳ͠ ..554 σʔλ֦ு͋Γɺ7"&ͳ͠ ..554@WBF ͋Γɺ͋Γʣ < " V H :P P O > 'JHԻ੠ม׵ʹΑΔσʔλ֦ு 'JH֦ுσʔλΛ༻͍ͨ..554 σʔλ֦ு͋Γͷํ͕ͳ͠ʹൺ΂ɺվળ ೔ຊޠ݁Ռ͸লུ ୯७ͳσʔλ֦ுͰ͸඼࣭ྼԽʢ$.554..554ʣ 7"&ʹΑΔσʔλ֦ுͰ͸඼࣭͕େ෯ʹ޲্

Ҿ༻ l <4USFBN7$:BOH>::BOH FUBM 453&".7$3FBM5JNF-PX-BUFODZ7PJDF$POWFSTJPO 1SPD*$"441 QQ
l <4&'7$-J>+-J :(VP 9$IFOBOE,:V 4&'7$4QFBLFS&NCFEEJOH'SFF;FSP4IPU7PJDF$POWFSTJPOXJUI $SPTT"UUFOUJPO 1SPD*$"441 QQ l <1SPNQUWD:BP>+:BP FUBM 1SPNQUWD'MFYJCMF4UZMJTUJD7PJDF$POWFSTJPOJO-BUFOU4QBDF%SJWFOCZ/BUVSBM -BOHVBHF1SPNQUT z1SPD *$"441 QQ l <8BWWFD7$-JN>+-JNBOE,,JN 8BWWFD7$7PJDF$POWFSTJPOWJB)JEEFO3FQSFTFOUBUJPOTPG8BWWFD z 1SPD *$"441 QQ l <$POWOFYU5540LBNPUP>50LBNPUP :0IUBOJ 55PEBBOE),BXBJ $POWOFYU554"OE$POWOFYU7$$POWOFYU #BTFE'BTU&OE5P&OE4FRVFODF5P4FRVFODF5FYU5P4QFFDI"OE7PJDF$POWFSTJPO 1SPD*$"441 QQ l <%VBM7$/JOH>;/JOH FUBM %VBMWD%ZOBNJD.BTLFE$POWPMVUJPOGPS6OJpFE4USFBNJOHBOE/PO4USFBNJOH7PJDF $POWFSTJPO 1SPD*$"441 QQ l <(38BOH>:8BOH +4V "'JOLFMTUFJOBOE;+JO (34FMG4VQFSWJTFE(MPCBM3FQSFTFOUBUJPO-FBSOJOHGPS;FSP 4IPU7PJDF$POWFSTJPO 1SPD*$"441 QQ l <USBOTBDDFOU$IFO>9$IFO +1FJ -9VFBOE.;IBOH 5SBOTGFSUIF-JOHVJTUJD3FQSFTFOUBUJPOTGSPN554UP "DDFOU$POWFSTJPOXJUI/PO1BSBMMFM%BUB 1SPD*$"441 QQ l <1"7*542J>52J 8;IFOH $-V :;POHBOE)-JBO 1"7*54&YQMPSJOH1SPTPEZ"XBSF7*54GPS&OEUP&OE &NPUJPOBM7PJDF$POWFSTJPO 1SPD*$"441 QQ

Ҿ༻ l <&.0$0/71SBCIV>/31SBCIV #-BZ 48FMLFS /-FINBOO8JMMFOCSPDLBOE5(FSLNBOO &.0$0/7%J⒎ %J⒎VTJPO#BTFE4QFFDI&NPUJPO$POWFSTJPOGPS/PO1BSBMMFMBOEJOUIF8JME%BUBz 1SPD*$"441 QQ
l <*/7&35$BJ>;$BJBOE.-J *OWFSUJCMF7PJDF$POWFSTJPOXJUI1BSBMMFM%BUB 1SPD*$"441 QQ l <&47$:BOH>;:BOH FUBM &47$$PNCJOJOH"EBQUJWF4UZMF'VTJPOBOE.VMUJ-FWFM'FBUVSF%JTFOUBOHMFNFOUGPS &YQSFTTJWF4JOHJOH7PJDF$POWFSTJPO 1SPD*$"441 4FPVM ,PSFB 3FQVCMJDPG QQ l <(BV%SPQPVU-VP>:+-VPBOE4%JYPO 1PTUFSJPS7BSJBODF1BSBNFUFSJTFE(BVTTJBO%SPQPVU*NQSPWJOH %JTFOUBOHMFE4FRVFOUJBM"VUPFODPEFSTGPS;FSP4IPU7PJDF$POWFSTJPO 1SPD*$"441 4FPVM ,PSFB QQ l <$57$%FOH>:%FOH )5BOH 9;IBOH /$IFOH +9JBPBOE+8BOH -FBSOJOH%JTFOUBOHMFE4QFFDI 3FQSFTFOUBUJPOTXJUI$POUSBTUJWF-FBSOJOHBOE5JNF*OWBSJBOU3FUSJFWBM *$"441*&&&*OUFSOBUJPOBM $POGFSFODFPO"DPVTUJDT 4QFFDIBOE4JHOBM1SPDFTTJOH *$"441 4FPVM ,PSFB 3FQVCMJDPG QQ l <"EW$IFO>4$IFO -$IFO +;IBOH ,-FF ;-JOHBOE-%BJ "EWFSTBSJBM4QFFDIGPS7PJDF1SJWBDZ1SPUFDUJPO GSPN1FSTPOBMJ[FE4QFFDI(FOFSBUJPO 1SPD*$"441 4FPVM ,PSFB QQ l <"SUJGBDU4IJI>5)4IJI $::FIBOE.4$IFO %PFT"VEJP%FFQGBLF%FUFDUJPO3FMZPO"SUJGBDUT 1SPD *$"441 4FPVM ,PSFB QQ l <"OPOZNJ[BUJPO$IFO>-$IFO ,"-FF 8(VPBOE;)-JOH .PEFMJOH1TFVEP4QFBLFS6ODFSUBJOUZJO7PJDF "OPOZNJ[BUJPO 1SPD*$"441 4FPVM ,PSFB QQ l <'4%9JF>:9JF FUBM '4%"O*OJUJBM$IJOFTF%BUBTFUGPS'BLF4POH%FUFDUJPO *$"441*&&& *OUFSOBUJPOBM$POGFSFODFPO"DPVTUJDT 4QFFDIBOE4JHOBM1SPDFTTJOH *$"441 4FPVM ,PSFB 3FQVCMJDPG QQ

Ҿ༻ l <EFFQGBLFEFUFDUJPO(VP>:(VP ))VBOH 9$IFO );IBPBOE:8BOH "VEJP%FFQGBLF%FUFDUJPO8JUI4FMG 4VQFSWJTFE8BWMN"OE.VMUJ'VTJPO"UUFOUJWF$MBTTJGJFS 1SPD*$"441
4FPVM ,PSFB QQ l <"VH:PPO>)8:PPO FUBM &OIBODJOH.VMUJMJOHVBM554XJUI7PJDF$POWFSTJPO#BTFE%BUB"VHNFOUBUJPOBOE 1PTUFSJPS&NCFEEJOH *$"441*&&&*OUFSOBUJPOBM$POGFSFODFPO"DPVTUJDT 4QFFDIBOE4JHOBM1SPDFTTJOH *$"441 4FPVM ,PSFB 3FQVCMJDPG QQ l <$MPOJOH-V>)-V 98V )(VP 4-JV ;8VBOE).FOH 6OJGZJOH0OF4IPU7PJDF$POWFSTJPOBOE$MPOJOHXJUI %JTFOUBOHMFE4QFFDI3FQSFTFOUBUJPOT *$"441*&&&*OUFSOBUJPOBM$POGFSFODFPO"DPVTUJDT 4QFFDIBOE 4JHOBM1SPDFTTJOH *$"441 4FPVM ,PSFB 3FQVCMJDPG QQ

【ICASSP2024】音声変換に関する全論文まとめ【Parakeet株式会社】

【ICASSP2024】音声変換に関する全論文まとめ【Parakeet株式会社】

More Decks by Taiki Nakamura

Other Decks in Research

Featured

Transcript