Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
音声言語モデル手法に関する発表の紹介
Search
Kazuki Inamura
April 27, 2026
Technology
200
0
Share
音声言語モデル手法に関する発表の紹介
NLP2026参加報告会での発表
Kazuki Inamura
April 27, 2026
More Decks by Kazuki Inamura
See All by Kazuki Inamura
Harness Engineering and Al Agent
kzinmr
3
1.6k
"Vertical AI製品の品質管理" / 【MNTSQxUbie】Vertical AI Startup Meetup
kzinmr
0
2.3k
Other Decks in Technology
See All in Technology
Oracle AI Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
6
1.9k
新アーキテクチャ「TiDB X」解説とDedicated比較 TiDB Cloud Premiumのゲーム運用活用を検証
staffrecruiter
0
110
大学生が本気でDatabricksを活用してDiscordサークルをデータ駆動させてみた
phantomjuju
1
400
AIプラットフォームを運用し続けるための可観測性
tanimuyk
4
1.1k
新規事業を牽引する技術選定 〜フルスタックTypeScript開発の実践事例〜
nullnull
2
310
正解のないAIプロダクトをどう導くか?dodaが挑む、ユーザーの『本音』を構造化する評価設計と検証のリアル
techtekt
PRO
0
180
Oracle Cloud Infrastructure IaaS 新機能アップデート 2026/3 - 2026/5
oracle4engineer
PRO
1
180
Agentic ERPをどう設計するか ー 受発注エージェントを動かす、現場の知見と設計思想ー
recerqainc
1
1.4k
ClearMLを活用した実験管理
sansantech
PRO
0
100
AI-DLCを活用した高品質・安全なAI駆動開発実践 / AI Driven Development
yoshidashingo
1
340
電子辞書Brainをネットに繋げてみた(自力編)
raspython3
0
430
Diagnosing performance problems without the guesswork
elenatanasoiu
0
160
Featured
See All Featured
Typedesign – Prime Four
hannesfritz
42
3.1k
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
400
Accessibility Awareness
sabderemane
1
130
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.6k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
280
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
62k
jQuery: Nuts, Bolts and Bling
dougneiner
66
8.5k
ラッコキーワード サービス紹介資料
rakko
1
3.5M
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
1
320
Mind Mapping
helmedeiros
PRO
1
230
The Power of CSS Pseudo Elements
geoffreycrofte
82
6.3k
Transcript
NLP2026 参加報告会 ⾳声⾔語モデル⼿法に関する発表の紹介 2026/04/21 Kazuki Inamura
2 NLPの研究で修⼠課程を修了後、 CyberAgent->PKSHA Technology->MNTSQにて NLP/MLを活かしたAI SaaSプロダクトを開発。 2024年にIVRy⼊社。通話に関するデータの分析や 情報⽣成を中⼼に貢献、現在はIVRy Data Hubとい
う新製品の AI Agent 開発を主導。 最近のブーム: Hermes Agent による作業⾃動化 Kazuki Inamura AI engineer / Technical Product Manager X @kzinmr ⾃⼰紹介
3 今⽇紹介する研究 - FT-LLM 2026:「合成データを使⽤した⽇本語⾳声LLMの開発」@ 第2回「⼤ 規模⾔語モデルのファインチューニング技術と評価」⾃由型タスク 堤 歩⽃, ⼤城
治城 (都⽴⼤) => JaSpeechLLM-8B モデルとして公開 - C1-1: 「Llama-Mimi: 意味‧⾳響トークンを交互配置した ⾳声⾔語モデル」 杉浦 ⼀瑳 (京⼤/NII), 栗⽥ 修平, ⼩⽥ 悠介 (NII), 東中 ⻯⼀郎 (名⼤/NII) => Llama-Mimi-1.3B モデルとして公開
4 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.
まとめ アジェンダ
None
6 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.
まとめ アジェンダ
None
None
None
10 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.
まとめ アジェンダ
None
None
None
補足: RVQ(Residual Vector Quantization):徐々に小さくなる近似の組み合わせで表現 EnCodec / SoundStream / Mimi の音声トークナイザで広く使われる基礎テクニック
残差は減っていく https://drscotthawley.github.io/bl og/posts/2023-06-12-RVQ.html
補足:Moshi (w/ mimi) by RQ-Transformer => Llama-mimi 2次元の依存関係(意味 →意味、意味→音響…_t )
依存関係を1次元化 タスク: realtime & full-duplex (multistream) 会話 タスク: 単一 speech continuation
16 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.
まとめ アジェンダ
None
18 We are Hiring!