Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
音声言語モデル手法に関する発表の紹介
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Kazuki Inamura
April 27, 2026
Technology
210
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
音声言語モデル手法に関する発表の紹介
NLP2026参加報告会での発表
Kazuki Inamura
April 27, 2026
More Decks by Kazuki Inamura
See All by Kazuki Inamura
Harness Engineering and Al Agent
kzinmr
3
1.7k
"Vertical AI製品の品質管理" / 【MNTSQxUbie】Vertical AI Startup Meetup
kzinmr
0
2.3k
Other Decks in Technology
See All in Technology
脱SaaS!FDEを支えるプロビジョニングと分離設計
knih
0
260
Lightning近況報告
kozy4324
0
220
不要なレビューをAIにまかせて AIコーディングの環境改善を加速した
shoota
1
250
AIが自律的に回る開発ループを設計してチーム開発に組み込む
nekorush14
0
110
Flow 不死:AI 時代 DevOps 的不變本質
cheng_wei_chen
2
460
LayerX コーポレートエンジニアリング室におけるサプライチェーンセキュリティへの取り組み / Supply Chain Security at LayerX Corporate Engineering
yuyatakeyama
3
790
現場のトークンマネジメント
dak2
1
160
FPGAの開発コンペでZephyrを使ってみた
iotengineer22
0
180
複数のSONiCディストリビューションを触りながら比較してみた
sonic
0
100
サイバーエージェントにおけるAI推進戦略と変革への取り組み
shotatsuge
0
430
レガシーな広告配信システムでのAI駆動開発/運用の挑戦
i16fujimoto
0
110
AIチャットの改善から見えた、良いAI体験とは / What Constitutes a Good AI Experience: Insights from Improving AI Chat
kubode
0
110
Featured
See All Featured
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
55k
Building Applications with DynamoDB
mza
96
7.1k
Design in an AI World
tapps
1
250
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
230
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.5k
How to train your dragon (web standard)
notwaldorf
97
6.7k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Typedesign – Prime Four
hannesfritz
42
3.1k
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
2.1k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
62k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.8k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
1
330
Transcript
NLP2026 参加報告会 ⾳声⾔語モデル⼿法に関する発表の紹介 2026/04/21 Kazuki Inamura
2 NLPの研究で修⼠課程を修了後、 CyberAgent->PKSHA Technology->MNTSQにて NLP/MLを活かしたAI SaaSプロダクトを開発。 2024年にIVRy⼊社。通話に関するデータの分析や 情報⽣成を中⼼に貢献、現在はIVRy Data Hubとい
う新製品の AI Agent 開発を主導。 最近のブーム: Hermes Agent による作業⾃動化 Kazuki Inamura AI engineer / Technical Product Manager X @kzinmr ⾃⼰紹介
3 今⽇紹介する研究 - FT-LLM 2026:「合成データを使⽤した⽇本語⾳声LLMの開発」@ 第2回「⼤ 規模⾔語モデルのファインチューニング技術と評価」⾃由型タスク 堤 歩⽃, ⼤城
治城 (都⽴⼤) => JaSpeechLLM-8B モデルとして公開 - C1-1: 「Llama-Mimi: 意味‧⾳響トークンを交互配置した ⾳声⾔語モデル」 杉浦 ⼀瑳 (京⼤/NII), 栗⽥ 修平, ⼩⽥ 悠介 (NII), 東中 ⻯⼀郎 (名⼤/NII) => Llama-Mimi-1.3B モデルとして公開
4 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.
まとめ アジェンダ
None
6 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.
まとめ アジェンダ
None
None
None
10 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.
まとめ アジェンダ
None
None
None
補足: RVQ(Residual Vector Quantization):徐々に小さくなる近似の組み合わせで表現 EnCodec / SoundStream / Mimi の音声トークナイザで広く使われる基礎テクニック
残差は減っていく https://drscotthawley.github.io/bl og/posts/2023-06-12-RVQ.html
補足:Moshi (w/ mimi) by RQ-Transformer => Llama-mimi 2次元の依存関係(意味 →意味、意味→音響…_t )
依存関係を1次元化 タスク: realtime & full-duplex (multistream) 会話 タスク: 単一 speech continuation
16 1. Speech and LLM 2. 音声理解の手法 3. 音声生成の手法 4.
まとめ アジェンダ
None
18 We are Hiring!