l 1BSBLFFUגࣜձࣾ දऔక$&0 l ςΩετԻ߹ɺԻม͕ઐ l 9ˠIUUQTYDPNTVQJLJUJ l 1BSBLFFUגࣜձࣾʢIUUQTQBSBLFFUJODDPNʣ l ۀ l ͲΜͳձ͔ࣾ l テキスト音声合成と音声変換の分野で、最先端の研究開発に取り組む会社です。 l ձࣾϝϯόʔͷόοΫάϥϯυ l 東大や東北大の大学院で実際に音声合成を研究する研究者が数多く在籍しています。 l ձࣾͷଘࡏҙٛʢύʔύεʣ l 革新的で高品質な製品を通して、人々のコミュニケーション体験を豊かにし、 あらゆる人々が楽しく快適に暮らせる社会 を実現するために存在しています。 l ձ͕͔ࣾ͏ઌʢϛογϣϯʣ l 2030年までに、”世界で最も傑出した音声合成技術を持つ会社”という評価を確立する。
ೖྗԻͷਪఆ'Λൃ୯ҐͷಛྔͰਖ਼نԽɻਪ࣌ɺҠಈฏۉΛ༻ɻ͜ΕʹΑΓɺೖྗऀͷ৭Λআɻ l ݁Ռ l -JCSJ554 ࣌ؒɺऀ ɺL)[Λ༻ɻ1JYFMJ1IPOFͰɺೖग़ྗMBUFODZNTΛୡɻ l 'ന৭Խ'ΛೖΕΔ͜ͱʹΑΓɺӆͷ࠶ݱ্͕ɻࣗવੑैདྷͷ7$ͱಉɺ໌ྎੑैདྷͷ7$ΑΓ্ɻ < 4 U S F B N 7 $ : B O H >
4 53&".*/( 70*$&$0/7&34 *0/ < % V B M 7 $ / J O H > l ඇετϦʔϛϯά͓ΑͼετϦʔϛϯάԻม͕ՄೳͳಈతϚεΫΈࠐΈͷఏҊ l ετϦʔϛϯάΛඇετϦʔϛϯά༻్Ͱ༻͢Δ߹ɺաڈͷใͷΈ༻͢ΔͨΊੜʹ͔͔࣌ؒΓɺࣗવੑྨࣅੑ͍ɻ l %VBM7$ɿετϦʔϛϯάΛඇετϦʔϛϯάϞσϧͰৠཹɻετϦʔϛϯάग़ྗ͕ະདྷΛ༧ଌͰ͖ɺ্࣭͕ɻ l Decoderが自己回帰で効率悪い。因果的畳み込みはチャンク内の将来の情報を活用できない。無声フレームのノイズに弱い。 l %VBM7$ɿ$POGPSNFSϕʔεʹஔɻಈతνϟϯΫϚεΫΛ࣋ͭඇҼՌతΈࠐΈʹมߋɻ2VJFU"UUFOUJPOΛೖΕϊΠζੑ61 l Data Augmentation:MUSANを使用したノイズ、リバーブ、テンポ変更を実施。
/0/ 4 53&".*/( 70*$&$0/7&34 *0/ < % V B M 7 $ / J O H > l ࣮ݧ l "*4)&-- TQLɺ ൃ ɻDMFBOɺOPJTZൃΛมݩԻͱͯ͠༻ɻରऀஉঁ໊ɻL)[Իੜɻ C 2VJFU"UUFOUJPOͷޮՌ 2VJFU"UUFOUJPOΛೖΕΔ͜ͱͰ ແ۠ؒͷϊΠζ͕ݮগ͍ͯ͠Δ D ಈతϚεΫΈࠐΈͷޮՌ ඇ࿈ଓతͳΫϦοΫԻ͕ݮগ͍ͯ͠Δ %VBM7$%VBM7$ʹର͠શͯվળ %.$Λར༻͢Δ͜ͱͰɺ DMFBOɺOPJTZ྆ํͰվળ 2VJFU"UUFOUJPOɺ%BUB"VHʹΑΓ /PJTZͰ࣭վળ *OUFMJ6Λ༻ɻ$IVOLTJ[FNTͷ ͨΊɺશମͷԆɺNTɻ
'03 ;&304 )0570*$&$0/7&34 *0/ < ( 3 8 B O H > l θϩγϣοτԻมͷͨΊͷMPDBMใͱ͢ΔHMPCBMใΛநग़Ͱ͖ΔࣗݾڭࢣϞσϧͷఏҊ l 8BW7FDͳͲͷԻ44-ϞσϧɺMPDBMใΛநग़Ͱ͖Δ%WFDUPSͳͲͷHMPCBMใΛநग़Ͱ͖ΔϞσϧֶशʹϥϕϧ͕ඞཁ l େྔͷϥϕϧແ͠XJMEσʔλ͔ΒHMPCBMใͷຒΊࠐΈΛֶश͢Δ44-ͷఏҊɻ;FSPTIPUԻมͰऀͷ৭நग़ʹԠ༻ɻ l ಉҰऀͷҧ͏ൃ۠ؒΛͦΕͧΕMPDBMGFBUVSFFYUSBDUPST(3FODPEFSʹೖΕɺݩԻͱͷ࠶ߏޡࠩ("/MPTTͰֶश l "OZUPBOZͷख๏ͱൺֱ͠ɺ༏Ґʹࣗવੑྨࣅੑ͕վળɻ ˡ.044*..04݁Ռ
-&% 4 1&&$)3&13&4 &/5"5*0/4 l 0OFTIPUԻมͱςΩετԻ߹Λ౷߹͢ΔͨΊͷ7"&֦ு๏ͷఏҊɻ l 7"&ܕͷ7$ͰЌ7"&ͳͲɺݴޠใͱऀใΛ֤જࡏมͰදݱ ͢Δɻ֤มΛͰௐ͢Δ͕ɺֶश͕ʹաහɻ l 一般的には、言語情報が話者情報を含むように学習されてしまうことが多いため、言語情報に正則化をかけて学習に制限をかけることが多い。 l 本研究では、言語情報を適切に正則化するために、訓練可能なテキスト認識事前分布を組み込むことを提案。 l 7"&ͷݴޠใͷࣄલ௨ৗɺඪ४ΨεɻຊݚڀͰɺςΩετ͖݅ͱ͢ΔֶशՄೳͳݴޠใͷࣄલΛఏҊɻ l 具体的には、音響特徴量に対応するテキストから言語情報の事前分布を表現する DNN を学習する。 l テキストを条件付とした言語情報の潜在変数と、入力された話者の音響特徴量を条件付とした言語情報の潜在変数が近くなるように、KLでloss。 l ݁ՌతʹɺݴޠใͷࣄલΛςΩετ͔Βਪଌֶͨ͠शՄೳͳࣄલͰஔ͖͑ͨํ͕ɺੑೳ্͕ɻ < $ M P O J O H - V > ࣄલΛֶशՄೳʹ͢Δ͜ͱͰ ੑೳ্ɻ7"&(17"&51 4$(MPX554ʹର͠ɺ$&3ѱԽɻ 7"&(17"&51 ࣄલΛֶशՄೳʹ͢Δ͜ͱͰɺ ऀੑͱ໌ྎੑվળɻ
< 8 B W W F D 7 $ - J N > l 8BW7FDͷӅΕग़ྗΛूͨ͠ຒΊࠐΈʹجͮ͘ԻมϞσϧ l ݴޠใͱऀใΛ͢Δ7$ɺ֤ຒΊࠐΈʹର͠໌ࣔతͳଛࣦ߲Λద༻͓ͯ͠ΓɺֶशΛ͍ͯ͘͠͠Δɻ l 8BWWFD7$ɺ8BWWFDͷӅΕ͔ΒݴޠใͱऀใΛ͠ɺ࠶ߏޡࠩͷΈͰֶश l શମ૾ɺ'JH ೖྗऀԻɺରऀԻΛ8BW7FDʹೖྗɻࣄલֶश͞ΕͨॏΈʹΑΓ֤ຒΊࠐΈΛநग़͠ɺԻΛ߹ɻ l ࣄલֶशɺ'JH 8BW7FD֤ग़ྗʹର͠ɺॏΈΛదԠ͠ɺݴޠใऀใΛޮՌతʹநग़͢ΔΑ͏ɺॏΈΛֶशɻ l ओ؍ɺ٬؍ධՁলུɺ'JH ݴޠใऀඇґଘɺऀใऀʹґଘͨ͠ͷ͕औΕ͍ͯΔ 'JHશମ૾ 'JHࣄલֶश 'JHՄࢹԽ
5*7&-&"3/*/( "/% 5*.&*/7"3*"/53&53*&7"- l $57$ɿରরֶशͱ࣌ෆมݕࡧʹجͮ͘ݴޠใͱऀใΛՄೳͳԻมϞσϧͷఏҊ l ਤத্ ݴޠຒΊࠐΈ͕ಉ͡ԻૉؒͰίαΠϯྨࣅΛߴ͘ ٯ͘ ͢Δଛࣦ߲ (3-ʹΑΓݴޠใ͕ऀใʹඇґଘʹɻ l ਤதԼ ೖྗϝϧεϖ4@Yͷࠨɺӈ͔ΒͦΕͧΕϑϨʔϜͷ4FH@ɺ4FR@ΛΓग़͢ɻೖྗಛྔશମ͔ΒҎ্ͷ 4FH@ΛϥϯμϜʹΓग़͢ɻ4@Yͱશͯͷ4FH͔ΒऀຒΊࠐΈΛநग़͠ɺ4FR@ͱ4FR@ɺ4FR@ͱ4@YͷऀຒΊࠐΈͷ ૬ޓใྔͷ͕࠷େԽ͞ΕΔΑ͏ֶश͢Δɻೖྗϝϧεϖͷҙͷ͔۠ؒΒٻΊͨऀຒΊࠐΈશͯࣅͨͷʹͳΔͱ͍͏Ծఆɻ l "*4)&--ͰݕূɻൺֱͷͨΊɺDPOUFOUFOD DPNQSFTTJPOΛֶशࡁΈ)V#&35Ͱஔ͖͑ͨͷΛɺ57$ͱͨ͠ɻ < $ 5 7 $ % F O H > (3-ޯస ະऀʹରͯ͠ैདྷํʹର͠վળ (3-ͱ5*3͕ऀྨࣅੑͷվળʹد༩ 5*3
&.05*0/"-70*$&$0/7&34 *0/ < 1 " 7 * 5 4 2 J > l 7*54ϕʔεͷ໌ࣔతͳӆͷϞσϦϯάΛؚΉ&OEUP&OEײมϞσϧͷఏҊ l ςΩετ͔Βͷӆ༧ଌ 5FYUVBMQSPTPEZ511 l ςΩετͱײϥϕϧ͔Βӆ༧ଌثͰԻૉ୯ҐͷӆΛ༧ଌ l Իૉ୯ҐͷӆใͱԻૉใ͔Βײʹґଘͨ͠ԻૉܧଓΛ༧ଌ l Ի͔Βͷӆ༧ଌ "DPVTUJDQSPTPEZNPEFMJOH"11 l ֶशࡁΈײ༧ଌث<8BHOFS>Λ༻͍ͯઢܗεϖΫτϩάϥϜ͔Β ϑϨʔϜ୯ҐͷӆใΛ༧ଌɻ l 1SPTPEZ*OUFHSBUPSऀґଘใͱ༰ґଘใΛ౷߹ɻ l ϑϨʔϜ୯Ґͷ511ͱ"11ΛӆΞϥΠϯϝϯτʹΑΓ౷߹ɻ ˡχϡʔτϥϧ͔ΒײԻ มͨ݁͠ՌͷײྨࣅධՁ #BTFMJOFΑΓྨࣅߴ͍ ݻఆม Ի͔ΒԻ ΑΓ χϡʔτϥϧԻΛ"43Ͱ Իૉྻʹ͠ɺԻૉྻ͔Βײ Իʹมͨ͠ํ͕ྨࣅߴ͍
5)&8*-% % "5" < & . 0 $ 0 / 7 1 S B C I V > l &.0$0/7%*''ɿϊϯύϥϨϧ*OUIFXJMEσʔλͰֶशՄೳͳ֦ࢄϞσϧϕʔεͷײԻม l ϊϯύϥϨϧײมϞσϧΛֶश͢Δ߹ɺԻΛޠኮใɾײใɾऀใʹ͢Δඞཁˠੑೳߴ͍֦ࢄϞσϧΛ༻ l ֶशࡁΈԻૉΤϯίʔμ͔Βग़ྗ͞ΕͨฏۉԽ͞ΕͨԻૉใ:͔ΒݩͷԻ9ͷٯ֦ࢄΛֶश l 具体的には、条件として感情埋め込み E(X0) & 話者埋め込み S(X0)、tステップ情報 Xt から Xt の対数尤度の勾配を予測するネットワークを学習 l 推論時には、対象感情の埋め込み E(e-)を代わりに与えて、感情変換を実現。スコアマッチングロスと音響特徴量の再構成誤差で学習。 l .411PEDBTUEBUBTFU IPVST TQL ɺײΛ੍ޚ͢Δࢦඪͱͯ͠"SPVTBM ֮੧ SFMBYFE d BDUJWBUFE Λ༻ l ྆ํͷଛࣦ߲ΛೖΕͨͷ͕ैདྷ๏<1SBCIV>ʹର͠վળɻ֮੧Λڧ͘͢Δ΄Ͳɺैདྷ๏ʹର͠ɺײ࠶ݱ্͕ɻ
*0/8*5)/0/1"3"--&-% "5" < 5 S B O T B D D F O U $ I F O > l 554ͷݴޠຒΊࠐΈΛར༻ͨ͠ඇࣗݾճؼܕϊϯύϥϨϧΞΫηϯτԻมϞσϧͷఏҊ l ௨ৗΞΫηϯτมʹҟͳΔΞΫηϯτΛ࣋ͪจ຺ใ͕ಉҰͷύϥϨϧσʔλ͕ඞཁˠςΩετใͱͷBMJHONFOUʹΑΓղܾ l 4UBHF ςΩετ͔ΒରΞΫηϯτԻͷ߹Λ͢Δ554Λֶश l 4UBHF ԻຒΊࠐΈ͕ݴޠຒΊࠐΈʹۙͮ͘Α͏ʹֶशɻԻຒΊࠐΈ͕ೖྗऀͷΞΫηϯτʹඇґଘʹͳΔ͜ͱΛظɻ l 4UBHF ࣮ࡍͷೖྗऀͷΞΫηϯτσʔλΛ༻͍ͯɺӈਤࠨଆΛpOFUVOFɻ l ࣮ݧ l 4UBHF-JCSJ5543 ࣌ؒɺऀɺL)[ Λ༻ɻ l 4UBHFɺώϯσΟʔΞΫηϯτऀ உੑɾঁੑ໊ͣͭɺจΛֶशʹ༻ l "DDFOUOFTTมԻ͕ೖྗऀͷΞΫηϯτΛͲΕؚ͚ͩΜͰ͍Δ͔Λද͢ओ؍ධՁࢦඪ l "CMBUJPO ϝϧεϖΫτϩάϥϜͰͳ͘8IJTQFSΛ༻͢Δ͜ͱͰΞΫηϯτվળ l 0VS 4UBHFͷݴޠใͱԻใͷΞϥΠϯϝϯτΛߦ͏͜ͱͰɺ໌ྎੑΛେ͖͘վળɻ
Իಗ໊ԽͰɺೖྗऀͷ৭Λผͷٖࣅऀूஂͷฏۉ৭Ͱஔ͢Δ͜ͱͰ࣮ݱɻٖࣅऀूஂͷYWFDUPSͷฏۉΛ༻ɻ l ैདྷͷݚڀͰೖྗԻΛͦΕͧΕҟͳΔٖࣅऀूஂฏۉʹมͯ͠ɺՁΤϥʔ &&3 ͕͍ɻ l 入力話者がX、変換先擬似話者をそれぞれA、Bとすると、AとBがなるべく同じ話者と判定されないようにしたい(EERは大きいほどよい)。 l 従来の研究では、異なる集団話者から計算された平均ベクトル間の多様性が低かった(入力話者音声を匿名化すると似た声色になりがちだった)。 l ͜Ε·ͰٖࣅऀΛਪఆ͍͕ͯͨ͠ɺຊݚڀͰɺٖࣅऀͷෆ࣮֬ੑΛߟྀ ٖࣅऀͷࣄޙΛਪఆ ɻ l 入力音声を条件とした話者埋め込みの平均、分散を出力する学習済みXi-vector[Lee21]を使用。DNN出力とXi-vector出力を近づけるよう学習。 l ݁ՌͰɺΦϦδφϧԻ 0 ಗ໊ԽޙͷԻ " ɺҟͳΔٖࣅऀಉ࢜ͷ&&3 "" ΛൺֱɻͲͪΒߴ͍΄ͲΑ͍ɻ l 従来法は特に、A-Aの結果が低く、どの擬似話者にしても似た特徴の音声になっていた(多様性の減少)。提案法は全てにおいてEERが高い傾向に。 < " O P O Z N J [ B U J P O $ I F O > 9JWFDUPS ࣮ࡏऀ͔Β໊બ ٖࣅऀͷऀΛ ΨεͰදݱ ϊΠζ͔Β%//Ͱಗ໊ऀͷ ύϥϝʔλΛ,-MPTTͰֶश ͪ͜Β GSP[FO %//Λֶश
現在の検出モデルはアーティファクトに依存しない堅牢な特徴を検出できるか?→realとfake音声それぞれに同じアーティファクトを載せて検証。 l 3FBMͱ'BLFͰۉҰͳΞʔςΟϑΝΫτΛؚΉධՁσʔλ #&"3 ΛఏҊɻ8IJUF#&"3ɺ(SBZ#&"3ͷͭΛఏҊɻ l 問題設定(音声変換):入力話者Xから対象話者Yの音声に変換しようとした変換音声を、Zとする。 l White-BEAR:white-box音声変換を用いて、YをX’に変換し、X’をY‘に変換。Y’はアーティファクトは載っているが限りなくYに近い。 l Gray-BEAR:YとZそれぞれに、強度をいくつかのパターンで変えたガウスノイズを加算。 l 8IJUF#&"3ɺ(SBZ#&"3͍ͣΕʹ͓͍ͯ&&3͕͔Β࠷େ·ͰѱԽɻ͍ͣΕͷݕग़ٕज़ΞʔςΟϑΝΫτ͕Իʹ ࡌ͍ͬͯΔ͔Ͳ͏͔Ͱఆ͍ͯ͠Δ͕ڧ͍ˠকདྷΞʔςΟϑΝΫτ͕ͳ͘ͳΔ΄ͲEFFQGBLF্͕ͨ͠ͱ͖ʹಥഁ͞ΕΔةݥੑɻ < " S U J G B D U 4 I J I >