Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AVSRの世界と日本語特化モデル開発の裏側.pdf

Avatar for Sloth Sloth
January 15, 2026
430

 AVSRの世界と日本語特化モデル開発の裏側.pdf

Avatar for Sloth

Sloth

January 15, 2026
Tweet

Transcript

  1.    自己紹介 佐々木 裕多 2019.4 ~ 2023.3 岩手大学          ユーモア認識研究、この辺りから音声処理を触り始める 2023.4 ~     東京科学大 休学中(来年度戻らないと在籍期間超過😇) 2023.7

    ~     Reazon Human Interaction Lab          Audio-Visual Speech Recognitionの日本語モデル開発          Speech SSLの日本語モデル開発 2024.3 ~     Kotoba Technologies          フロント, バックエンド, モデル推論, インフラ, モバイル... @Sloth65557166
  2. なぜAVSR (Audio-Visual Speech Recognition)? サービスロボットがデプロイ される環境の多くは... • 複数人の声が混在する カクテルパーティ環境下 •

    話者とマイクの距離が離れ ている場合も多い → 視覚情報を統合し、  頑健性向上すればいい!
  3. AVSRのモデルアーキテクチャ Early fusion* Late fusion* Makino et al., 2019 P.

    Ma et al., 2021 * A. Rouditchenk et al., 2024で定義された名称??
  4. AVSRのモデルアーキテクチャ Early fusion Late fusion Makino et al., 2019 P.

    Ma et al., 2021 各モダリティ軽量モジュールで処理 → Encoderへ 各モダリティをガッツリ処理 → Decoderへ
  5. AVSRのモデルアーキテクチャ Early fusion Late fusion Makino et al., 2019 P.

    Ma et al., 2021 SSLモデルに多い設計 SSLでもFully Supervisedも両方あるが、 Fully Supervisedで多い感覚
  6. AVSRの学習方法 Fully Supervised Learning • 音声/動画を入力として、書き起こしテキストの予測を学習 • RNN-T、Conformer、Transformerなど様々 Self-Supervised Learning

    • 音声/動画を入力として、エンコーダの表現を学習 ◦ 音声/動画/音声+動画の入力に対し、 同じ埋め込みにマッピングするのがキモ! • ダウンストリームタスクとして、書き起こしテキストの予測を学習 • Transformerベースが主流
  7. AVHuBERT (B. Shi et al., 2022, B. Shi et al.,

    2022) 2022年に起きた AVSRにおけるブレイクスルー 入力のマスクパターンに関わらず、 同じクラスタを予測 → 同じ埋め込みにマッピング
  8. AVHuBERT (B. Shi et al., 2022, B. Shi et al.,

    2022) AVHuBERTというくらいなので、HuBERTと学習の指針は一緒 異なるのはそのiteration回数 2022年に起きた AVSRにおけるブレイクスルー Iteration #cluster AVHuBERT #cluster HuBERT 1 100 100 2 100 500 3 500 4 1000 5 2000
  9. AVHuBERT (B. Shi et al., 2022, B. Shi et al.,

    2022) 2022年に起きた AVSRにおけるブレイクスルー
  10. その後多様な SSL手法が現れる Teacher-student Modeling • RAVEn (A. Haliassos et al.,

    2023) • BRAVen (A. Haliassos et al., 2024) • … Self-supervised Learning • XLAVS-R (H. Han et al., 2024) • u-HuBERT (Hsu et al., 2022) • VATLM (Q. Zhu et al., 2024) • ...
  11. 似たような議論は行われており ... Do VSR Models Generalize Beyond LRS3? (Djilali et

    al., 2023) • LRS3のテストデータは0.9hのみ • In-the-wildなテストデータを作ると VSRの性能がかなり落ちたよーとの レポート
  12. 他言語のデータセットはどう集めてる? • ViCocktail (Nguyen et al., 2025):ベトナム語 a. YouTubeから収集、ラベルはASRモデルで •

    CI-AVSR (Dai et al., 2022):広東語 a. In-Carコマンド(〜まで案内して。など)に特化 b. 読み上げテキストのテンプレートを作成し、 [LOCATION]のようなプ レースホルダーを様々入れる • OLKAVS (Park et al., 2024):韓国語 a. 1,107の被験者を集め、1,150時間も収録。すごい、、、 b. GoProを使い、様々な角度から同時に収録 • などなど
  13. 結局テレビ動画解析は何が難しい? • 話者が映り続くことが少なすぎる ◦ ナレーションやVTRが結構多い ◦ ニュース番組もVTRが多い • カメラワークがとても上手 ◦

    バラエティやドラマは字幕もあり、良い資源に見える ◦ しかし、リアクションする側が一時的に映るなど、 話者を常にとらえるカットが意外と見当たらない ▪ 視聴者としては観てて面白いんですがー (笑) • 特定の顔を追従するのが難しい ◦ シーン中に映る位置や人数が変わる場合、 自動で同じ人を追従するのは難しい
  14. Interleaved Training Protocol (Li et al., 2024) これは本当に革命的 1. 大規模な音声データセットと

    低資源なAVデータセットを両方使う 2. ミニバッチ作成時、Audio/AVのどちらか一方 のプールからデータをサンプリング 3. ノイズ耐性は多少犠牲にしつつ、 基本性能を底上げ
  15. Transfomersから簡単に使えるので試してね〜 from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor processor = AutoProcessor.from_pretrained("enactic/avista-large-v2", trust_remote_code=True)

    model = AutoModelForSpeechSeq2Seq.from_pretrained("enactic/avista-large-v2", trust_remote_code=True) inputs = processor(raw_audio="path/to/audio", raw_video="path/to/video", extract_mouth=True) outputs = model.generate(**inputs, num_beams=5, max_new_tokens=256) transcription = processor.decode(outputs[0], skip_special_tokens=True)
  16. 事前学習済みモデルを活用したタスク応用 主に以下が多い印象 • AVSE (Audio-Visual Speech Enhancement) • AVSS (Audio-Visual

    Speech Separation) タスク内容: 音声と動画を入力として、ターゲット話者の音声を抽出
  17. Zero-AVSR (Yeo et al., 2025) マルチタスク学習 for Zero-shot AVSR 1.

    AV入力→書き起こし 2. ローマ字テキスト→指定言語テキスト
  18. AVista 󰻑 開発での取り組みの裏側 1. データが全然集まらない😇 2. モデル何使おう?どう実装しよう? 3. 動いたように見えて、 なぜかlossが落ちきらない......🤔

    4. デモしたら全く使い物にならない... 評価データ作るかー 5. データスケール、 想像以上に難しすぎる...🤯 6. モデル実装時の判断が功を奏し、 お手軽リリースに成功✌ 1. データセット構築 2. モデル選定&実装 3. モデル学習 4. モデル評価 5. データスケールアップ 6. リリース