Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
音声言語モデル手法に関する発表の紹介
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Kazuki Inamura
April 27, 2026
Technology
110
0
Share
音声言語モデル手法に関する発表の紹介
NLP2026参加報告会での発表
Kazuki Inamura
April 27, 2026
More Decks by Kazuki Inamura
See All by Kazuki Inamura
"Vertical AI製品の品質管理" / 【MNTSQxUbie】Vertical AI Startup Meetup
kzinmr
0
2.2k
Other Decks in Technology
See All in Technology
[最強DB講義]推薦システム | 基礎編
recsyslab
PRO
1
170
Do Vibe Coding ao LLM em Produção para Busca Agêntica - TDC 2026 - Summit IA - São Paulo
jpbonson
3
130
AIが書いたコードを信じられない問題 〜レビュー負荷を下げるために変えたこと〜 / The AI Code Trust Gap: Reducing the Review Burden
bitkey
PRO
8
1.3k
今年注目する!データ分析プラットフォームでのAIの活用
nayuts
0
120
データを"持てない"環境でのアノテーション基盤設計
sansantech
PRO
1
120
Good Enough Types: Heuristic Type Inference for Ruby
riseshia
1
240
自分のハンドルは自分で握れ! ― 自分のケイパビリティを増やし、メンバーのケイパビリティ獲得を支援する ― / Take the wheel yourself
takaking22
1
920
Choose your own adventure in agentic design patterns
glaforge
0
140
ハーネスエンジニアリングをやりすぎた話 ~そのハーネスは解体された~
gotalab555
4
1.8k
AI バイブコーティングでキーボード不要?!
samakada
0
580
Standards et agents IA : un tour d’horizon de MCP, A2A, ADK et plus encore
glaforge
0
170
QGISプラグイン CMChangeDetector
naokimuroki
1
410
Featured
See All Featured
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
160
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
64
54k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.8k
How GitHub (no longer) Works
holman
316
150k
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
250
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
110
How STYLIGHT went responsive
nonsquared
100
6.1k
Visualization
eitanlees
150
17k
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.6k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.2k
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
680
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
200
Transcript
NLP2026 参加報告会 ⾳声⾔語モデル⼿法に関する発表の紹介 2026/04/21 Kazuki Inamura
2 NLPの研究で修⼠課程を修了後、 CyberAgent->PKSHA Technology->MNTSQにて NLP/MLを活かしたAI SaaSプロダクトを開発。 2024年にIVRy⼊社。通話に関するデータの分析や 情報⽣成を中⼼に貢献、現在はIVRy Data Hubとい
う新製品の AI Agent 開発を主導。 最近のブーム: Hermes Agent による作業⾃動化 Kazuki Inamura AI engineer / Technical Product Manager X @kzinmr ⾃⼰紹介
3 今⽇紹介する研究 - FT-LLM 2026:「合成データを使⽤した⽇本語⾳声LLMの開発」@ 第2回「⼤ 規模⾔語モデルのファインチューニング技術と評価」⾃由型タスク 堤 歩⽃, ⼤城
治城 (都⽴⼤) => JaSpeechLLM-8B モデルとして公開 - C1-1: 「Llama-Mimi: 意味‧⾳響トークンを交互配置した ⾳声⾔語モデル」 杉浦 ⼀瑳 (京⼤/NII), 栗⽥ 修平, ⼩⽥ 悠介 (NII), 東中 ⻯⼀郎 (名⼤/NII) => Llama-Mimi-1.3B モデルとして公開
4 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.
まとめ アジェンダ
None
6 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.
まとめ アジェンダ
None
None
None
10 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.
まとめ アジェンダ
None
None
None
補足: RVQ(Residual Vector Quantization):徐々に小さくなる近似の組み合わせで表現 EnCodec / SoundStream / Mimi の音声トークナイザで広く使われる基礎テクニック
残差は減っていく https://drscotthawley.github.io/bl og/posts/2023-06-12-RVQ.html
補足:Moshi (w/ mimi) by RQ-Transformer => Llama-mimi 2次元の依存関係(意味 →意味、意味→音響…_t )
依存関係を1次元化 タスク: realtime & full-duplex (multistream) 会話 タスク: 単一 speech continuation
16 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.
まとめ アジェンダ
None
18 We are Hiring!