Upgrade to Pro — share decks privately, control downloads, hide ads and more …

wav2vec 2.0: A Framework for Self-Supervised Le...

Avatar for ほき ほき
August 10, 2024
4

wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

AcademiX論文読み会で発表した資料です
元論文:https://doi.org/10.48550/arXiv.2006.11477

Avatar for ほき

ほき

August 10, 2024
Tweet

Transcript

  1. https://www.academix.jp/ AcademiX 論文輪読会 wav2vec 2.0: A Framework for Self- Supervised

    Learning of Speech Representations 東京農工大学 Ibuki Inoue 2024/08/10
  2. 書誌情報 • タイトル:wav2vec 2.0: A Framework for Self-Supervised Learning of

    Speech Representations • 著者名:Alexei Baevski, Yuhao Zhou, Abdelrahman Mohamed, Michael Auli • 所属:Facebook AI • 発表学会:NeurIPS 2020 引用が記載されていない図に関してはすべてこの論文より引用
  3. 概要 • 背景 ◦ 大量のラベル付き音声データを収集することは困難 • 目的 ◦ 少ないラベル付きのデータから高精度で文字起こしができるモデルを構築 •

    方法 ◦ 大規模ラベル無し音声で表現学習 ◦ テキストの正解有りのデータでファインチューニング • 結果 ◦ 少量のラベル付きデータでファインチューニングすることにより既存モデルと同等の WER を達成
  4. モデル概要 • 事前学習モデルは 4 段階で構成 ◦ Feature encoder ◦ Quantization

    module ◦ Masking ◦ Contextualize representation • 音源データから量子化表現とコンテキス ト表現を取得
  5. Product Quantization 音声データを分割して,それぞれを別々に離散的な値に変換 1. d 次元の元データ z を G 個のグループに分割

    𝑧 = [𝑧1, 𝑧2, … , 𝑧𝐺] 2. 各部分 zi をあらかじめ定義された小さなベクトルの集合(コードブック) から最も近いコードワード ei,j に置換 𝑞𝑖 = 𝑒𝑖𝑗, 𝑗 = arg min 𝑗 𝑧𝑖 − 𝑒𝑖𝑗 3. すべてのグループで量子化が終わったら結合 𝑞 = [𝑞1, 𝑞2, … , 𝑞𝐺]
  6. Gumbel Softmax 離散潜在変数に対する微分可能な確率モデリングが可能 1. Gumbel 分布に従う乱数 ni を生成 𝑛𝑖 =

    − log − log 𝑈 0,1 2. ある選択肢 i が選ばれる確率 pi を計算して選ぶ選択肢を決定 𝑝𝑖 = exp log 𝜋𝑖 + 𝑛𝑖 𝜏 σ𝑗=1 𝑘 exp log 𝜋𝑗 + 𝑛𝑗 𝜏 πi : 選択肢 i の元の確率 τ: 温度パラメータ
  7. Masking • 特徴量を一定の割合でマスク ◦ トレーニング時はマスキングした特徴量を予測することで自己教師あり学習を実施 1. 全タイムステップから p の割合で選択 2.

    選択した場所から M ステップをマスク https://towardsdatascience.com/wav2vec-2-0-a-framework-for-self-supervised-learning-of-speech-representations-7d3728688cae
  8. 事前学習 • 損失関数 𝐿 = 𝐿𝑚 + 𝛼 ∗ 𝐿𝑑

    𝐿𝑚 = − log 𝑒𝑥𝑝 𝑠𝑖𝑚 𝑐𝑡, 𝑞𝑡 𝜅 𝛴෤ 𝑞∈ 𝑄𝑡 ex𝑝 𝑠𝑖𝑚 𝑐𝑡, 𝑞𝑘 𝜅 𝐿𝑑 = 1 (𝐺 ∗ 𝑉) ∗ 𝛴𝑔=1 𝐺 𝛴𝑣=1 𝑉 𝑝𝑔,𝑣 ∗ log(𝑝𝑔,𝑣) • データセット ◦ ラベルなし音声(後述)
  9. 問題設定 • タスク ◦ オーディオブックの音声文字起こし • データセット ◦ LV-60k ▪

    6 万時間のオーディオブック音声 ▪ ラベルなし ◦ LS-960 ▪ 1000 時間に対してテキストと音声のアライメントを取得 ▪ clean(ノイズなし)・other(ノイズ有り) • 評価指標 ◦ WER(Word Error Rate)
  10. 関連研究:brain2vec • 背景 ◦ 教師あり学習はラベル付のコストや信頼性に課題 ◦ BCI のために大量の頭蓋内脳波を集めることは困難 • 目的

    ◦ ラベルなしの頭蓋内脳波から音声関連の表現を抽出 ◦ 少ないラベルありの頭蓋内脳波を用いて音声検出や行動 認識,単語分類のタスクを高精度でできるモデルの作成 • 方法 ◦ ラベルなし頭蓋内脳波を用いた表現学習モデル brain2vec を活用 • 結果 ◦ 複数のダウンストリームタスクにおいてチャンスレベル を上回る Lesaja+, IEEE Access, 2022