Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AVSRの世界と日本語特化モデル開発の裏側.pdf

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Sloth Sloth
January 15, 2026
370

 AVSRの世界と日本語特化モデル開発の裏側.pdf

Avatar for Sloth

Sloth

January 15, 2026
Tweet

Transcript

  1.    自己紹介 佐々木 裕多 2019.4 ~ 2023.3 岩手大学          ユーモア認識研究、この辺りから音声処理を触り始める 2023.4 ~     東京科学大 休学中(来年度戻らないと在籍期間超過😇) 2023.7

    ~     Reazon Human Interaction Lab          Audio-Visual Speech Recognitionの日本語モデル開発          Speech SSLの日本語モデル開発 2024.3 ~     Kotoba Technologies          フロント, バックエンド, モデル推論, インフラ, モバイル... @Sloth65557166
  2. なぜAVSR (Audio-Visual Speech Recognition)? サービスロボットがデプロイ される環境の多くは... • 複数人の声が混在する カクテルパーティ環境下 •

    話者とマイクの距離が離れ ている場合も多い → 視覚情報を統合し、  頑健性向上すればいい!
  3. AVSRのモデルアーキテクチャ Early fusion* Late fusion* Makino et al., 2019 P.

    Ma et al., 2021 * A. Rouditchenk et al., 2024で定義された名称??
  4. AVSRのモデルアーキテクチャ Early fusion Late fusion Makino et al., 2019 P.

    Ma et al., 2021 各モダリティ軽量モジュールで処理 → Encoderへ 各モダリティをガッツリ処理 → Decoderへ
  5. AVSRのモデルアーキテクチャ Early fusion Late fusion Makino et al., 2019 P.

    Ma et al., 2021 SSLモデルに多い設計 SSLでもFully Supervisedも両方あるが、 Fully Supervisedで多い感覚
  6. AVSRの学習方法 Fully Supervised Learning • 音声/動画を入力として、書き起こしテキストの予測を学習 • RNN-T、Conformer、Transformerなど様々 Self-Supervised Learning

    • 音声/動画を入力として、エンコーダの表現を学習 ◦ 音声/動画/音声+動画の入力に対し、 同じ埋め込みにマッピングするのがキモ! • ダウンストリームタスクとして、書き起こしテキストの予測を学習 • Transformerベースが主流
  7. AVHuBERT (B. Shi et al., 2022, B. Shi et al.,

    2022) 2022年に起きた AVSRにおけるブレイクスルー 入力のマスクパターンに関わらず、 同じクラスタを予測 → 同じ埋め込みにマッピング
  8. AVHuBERT (B. Shi et al., 2022, B. Shi et al.,

    2022) AVHuBERTというくらいなので、HuBERTと学習の指針は一緒 異なるのはそのiteration回数 2022年に起きた AVSRにおけるブレイクスルー Iteration #cluster AVHuBERT #cluster HuBERT 1 100 100 2 100 500 3 500 4 1000 5 2000
  9. AVHuBERT (B. Shi et al., 2022, B. Shi et al.,

    2022) 2022年に起きた AVSRにおけるブレイクスルー
  10. その後多様な SSL手法が現れる Teacher-student Modeling • RAVEn (A. Haliassos et al.,

    2023) • BRAVen (A. Haliassos et al., 2024) • … Self-supervised Learning • XLAVS-R (H. Han et al., 2024) • u-HuBERT (Hsu et al., 2022) • VATLM (Q. Zhu et al., 2024) • ...
  11. 似たような議論は行われており ... Do VSR Models Generalize Beyond LRS3? (Djilali et

    al., 2023) • LRS3のテストデータは0.9hのみ • In-the-wildなテストデータを作ると VSRの性能がかなり落ちたよーとの レポート
  12. 他言語のデータセットはどう集めてる? • ViCocktail (Nguyen et al., 2025):ベトナム語 a. YouTubeから収集、ラベルはASRモデルで •

    CI-AVSR (Dai et al., 2022):広東語 a. In-Carコマンド(〜まで案内して。など)に特化 b. 読み上げテキストのテンプレートを作成し、 [LOCATION]のようなプ レースホルダーを様々入れる • OLKAVS (Park et al., 2024):韓国語 a. 1,107の被験者を集め、1,150時間も収録。すごい、、、 b. GoProを使い、様々な角度から同時に収録 • などなど
  13. 結局テレビ動画解析は何が難しい? • 話者が映り続くことが少なすぎる ◦ ナレーションやVTRが結構多い ◦ ニュース番組もVTRが多い • カメラワークがとても上手 ◦

    バラエティやドラマは字幕もあり、良い資源に見える ◦ しかし、リアクションする側が一時的に映るなど、 話者を常にとらえるカットが意外と見当たらない ▪ 視聴者としては観てて面白いんですがー (笑) • 特定の顔を追従するのが難しい ◦ シーン中に映る位置や人数が変わる場合、 自動で同じ人を追従するのは難しい
  14. Interleaved Training Protocol (Li et al., 2024) これは本当に革命的 1. 大規模な音声データセットと

    低資源なAVデータセットを両方使う 2. ミニバッチ作成時、Audio/AVのどちらか一方 のプールからデータをサンプリング 3. ノイズ耐性は多少犠牲にしつつ、 基本性能を底上げ
  15. Transfomersから簡単に使えるので試してね〜 from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor processor = AutoProcessor.from_pretrained("enactic/avista-large-v2", trust_remote_code=True)

    model = AutoModelForSpeechSeq2Seq.from_pretrained("enactic/avista-large-v2", trust_remote_code=True) inputs = processor(raw_audio="path/to/audio", raw_video="path/to/video", extract_mouth=True) outputs = model.generate(**inputs, num_beams=5, max_new_tokens=256) transcription = processor.decode(outputs[0], skip_special_tokens=True)
  16. 事前学習済みモデルを活用したタスク応用 主に以下が多い印象 • AVSE (Audio-Visual Speech Enhancement) • AVSS (Audio-Visual

    Speech Separation) タスク内容: 音声と動画を入力として、ターゲット話者の音声を抽出
  17. Zero-AVSR (Yeo et al., 2025) マルチタスク学習 for Zero-shot AVSR 1.

    AV入力→書き起こし 2. ローマ字テキスト→指定言語テキスト
  18. AVista 󰻑 開発での取り組みの裏側 1. データが全然集まらない😇 2. モデル何使おう?どう実装しよう? 3. 動いたように見えて、 なぜかlossが落ちきらない......🤔

    4. デモしたら全く使い物にならない... 評価データ作るかー 5. データスケール、 想像以上に難しすぎる...🤯 6. モデル実装時の判断が功を奏し、 お手軽リリースに成功✌ 1. データセット構築 2. モデル選定&実装 3. モデル学習 4. モデル評価 5. データスケールアップ 6. リリース