Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
asap
June 19, 2026
Technology
110
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】
https://zenn.dev/events/zennfes-spring-2026
https://classmethod.connpass.com/event/390416/
asap
June 19, 2026
More Decks by asap
See All by asap
ローカルで動く高性能音楽生成AI【ACE-Step-1.5】でRetake機能を提案します!
personabb
0
70
英語 × の私が、生成AIの力を借りて、OSSに初コントリビュートした話
personabb
0
470
DeepSeek-R1の論文から読み解く背景技術
personabb
3
1.1k
Other Decks in Technology
See All in Technology
タクシーアプリ『GO』の実践的データ活用
mot_techtalk
3
190
Oracle AI Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
6
1.9k
現地で盛り上がった WWDC26 Keynote
zozotech
PRO
1
190
SONiC Scale-Up Working Group から探る Scale-UpやUltraEthernet機能の実装方法
ebiken
PRO
0
110
データサイエンスを価値につなげるプロジェクト設計 〜 DS一年目が現場で得た気づき 〜
ysd113
1
170
2026TECHFRESH畢業分享會 - 原生還是跨平台? App 開發踩坑實錄
line_developers_tw
PRO
0
770
脆弱性対応、どこで線を引くか
rymiyamoto
0
360
Djangoユーザが知っ得なPostgreSQL機能 - 設計の選択肢を増やす / Djang-use-PostgreSQL
soudai
PRO
1
230
プロダクト開発から業務改善コンサルまで。事業全体へ「染み出す」ことで広がるエンジニアの可能性
ham0215
0
100
Claude Code の Sandbox 機能を Anthropic Sandbox Runtime(srt) で試そう!/lets-play-anthropic-sandbox-runtime
tomoki10
1
530
スキルと MCP ツール、責務をどう分けるか? AI が迷わないインターフェース設計の戦略
cdataj
1
950
ルールやカスタム機能、どう活かす?ハンズオンで体感するIBM Bobの出力コントロール
muehara
1
130
Featured
See All Featured
Documentation Writing (for coders)
carmenintech
77
5.4k
Producing Creativity
orderedlist
PRO
348
40k
Abbi's Birthday
coloredviolet
2
8k
The SEO identity crisis: Don't let AI make you average
varn
0
490
The SEO Collaboration Effect
kristinabergwall1
1
480
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
270
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
200
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
140
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.4k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.5k
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
2
1.5k
Odyssey Design
rkendrick25
PRO
2
690
Transcript
asap asap ACE-Step-1.5で見る 音楽生成AIのしくみと “破綻だけ直す”Retake機能の開発
1 はじめに 自己紹介 asap AI・機械学習の理論に興味を持つエンジニア。 ZennでAI関連の技術記事を書いてます。 @asap2650 ぜひ今アカウント作って登録してください @asap2650
2 はじめに 本講演の目的 音楽生成AIの「技術的な面白さ」を知ってもらうこと 技術に関してそんなに詳しくない人でも「面白い!」と思ってもらえることが本日の目的です 厳密にはFlow MatchingのところをDiffusionと呼んだりします 若干の厳密性は捨てて、なんとなくわかっていただくことが目標です ぜひ私の記事もご覧ください @asap2650
こちらの内容を参考にお話しします
3 はじめに 本日のお品書き ACE-Step-1.5で見る音楽生成AI 1 現行の日本語音楽生成AIの限界 2 破綻部分を違和感なく修正するRetake機能の開発 3 @asap2650
4 はじめに 本日のお品書き ACE-Step-1.5で見る音楽生成AI 1 現行の日本語音楽生成AIの限界 2 破綻部分を違和感なく修正するRetake機能の開発 3 @asap2650
5 ローカルで動く高性能音楽生成AI ACE-Step-1.5で見る音楽生成AI @asap2650 歌詞とCaptionのテキストから音楽を生成するAIモデル • オープンな音楽生成モデル • テキスト・歌詞・参照音源などから音楽を生成・編集可能 •
ACE Studio / StepFun系のプロジェクトとして公開 • 2026年1月31日にarXiv初版が公開 • 4GB未満VRAMでローカル動作 • 50以上の言語でプロンプト追従 • Cover / Repainting などの編集機能も統合 • 日本語の歌詞から高品質な音楽生成が可能な数少ないローカルモデル
6 音楽生成AIの種類 ACE-Step-1.5で見る音楽生成AI @asap2650 商用としてはSunoやUdioが代表例 ローカルで動くAIの中ではACE-Step-1.5がトップレベル 商用モデル オープンモデル オープンモデルと比べて性能が高い 仕組みは公開されていない
コードもモデルも全て公開されており解析可能 Suno Udio Music Gen YuE DiffRhythm ACE-Step-1.5
7 音楽生成AIの種類 ACE-Step-1.5で見る音楽生成AI @asap2650 オープンモデルにはTransformer型とDiffusion型が存在 商用モデル オープンモデル オープンモデルと比べて性能が高い 仕組みは公開されていない コードもモデルも全て公開されており解析可能
Transformer型 Music Gen YuE Suno Udio DiffRhythm ACE-Step-1.5 Diffusion型
8 (復習)Transformer型とは ACE-Step-1.5で見る音楽生成AI @asap2650 これまでの入力を見て、次に来るものを1つずつ予測するモデル 大規模言語モデル(ChatGPT等)にスタンダードとして利用される 今日 の 昼 ご飯
は 餃子 に タクシー 遅い 10% ・・・ 0.2% 0.6% 2.6% 【音楽に使う場合】 音楽を細かいトークン列に変換し、次のトークンを1つずつ生成する。 そのため、歌詞や曲全体の流れは保ちやすいが、生成に時間がかかる。
9 (復習) Diffusion型とは ACE-Step-1.5で見る音楽生成AI @asap2650 画像生成AIなどによく用いられる ノイズから綺麗な画像/音楽などを生成するモデル https://zenn.dev/asap/articles/7940b17be86da7 https://zenn.dev/asap/articles/7940b17be86da7 https://zenn.dev/asap/articles/4092ab60570b05
https://zenn.dev/asap/articles/4092ab60570b05 【音楽に使う場合】 音楽全体の潜在表現を、ノイズから少しずつ更新して生成する。 「曲の長さによらず」ノイズを除去する回数分のみの計算で済むため「高速」だが、長い曲全体の構造は崩れやすい。
10 音楽生成AIの種類 ACE-Step-1.5で見る音楽生成AI @asap2650 音楽生成では「生成速度」と「曲全体の一貫性」が両立しにくい Transformer Diffusion 今日 の 昼
ご飯 は 餃子 に タクシー 遅い 10% ・・・ 0.2% 0.6% 2.6% 大規模言語モデルなどでよく使われるモデル構造 全体を考慮できるが、逐次生成のため生成が遅い 画像生成AIなどでよく使われるモデル構造 生成が高速だが離れた箇所の構造的整合性が低い 歌詞・曲全体の整合性 生成速度 歌詞・曲全体の整合性 生成速度
11 ACE-Stepの発想:設計図はLLM、音作りはDiffusion ACE-Step-1.5で見る音楽生成AI @asap2650 LLMが曲全体の構造を作成し、DiffusionとVAEが高速に曲を生成 LLM:曲の設計図 DiT:音の生成 VAE:音声へ復元 Input Texts
48kHz Audio 荒い潜在表現を出力し 曲全体の構造をDiTにガイド 荒い潜在表現から 詳細な潜在表現を高速生成 潜在表現から 音声波形を出力 Audio Code 潜在表現
12 モデル説明 ACE-Step-1.5で見る音楽生成AI @asap2650
13 はじめに 本日のお品書き ACE-Step-1.5で見る音楽生成AI 1 現行の日本語音楽生成AIの限界 2 破綻部分を違和感なく修正するRetake機能の開発 3 @asap2650
14 現行の日本語音楽生成AIの限界 日本語は難しい @asap2650 こんな経験はないですか? 好きなんだけど 微妙に破綻してるから没にするか・・・ 【問題】ほとんど良い曲なのに、数秒の破綻だけで没になる
15 現行の日本語音楽生成AIの限界 日本語は難しい @asap2650
16 現行の日本語音楽生成AIの限界 公式Repaint機能について @asap2650 Repaint機能は汎用性は高いが、微修正に特化していない 20−30回程度Repaintさせて最も自然なものを採用した結果 Repaint機能は 「ACE-Step-1.5で生成した曲以外にも利用可能」 「サビ全体をジャズ風になどの大きな変更が可能」 といった汎用性が非常に高い素晴らしい機能
しかし、読み間違いなどの微修正には向かない
17 現行の日本語音楽生成AIの限界 公式Repaint機能のパイプライン @asap2650 ①様々な曲に対応するため Audio codesの代わりに VAE Encoderによる 潜在表現を利用
→劣化要素 ②大きな編集にも対応する ため編集区間の中では src_latentsが上書き →原曲から大きく離れる
18 はじめに 本日のお品書き ACE-Step-1.5で見る音楽生成AI 1 現行の日本語音楽生成AIの限界 2 破綻部分を違和感なく修正するRetake機能の開発 3 @asap2650
19 破綻部分を違和感なく修正するRetake機能の提案 まずは結果 @asap2650 違和感なく修正可能 4回程度生成すれば 完璧に微修正したトラックが生成可能
20 破綻部分を違和感なく修正するRetake機能の提案 Retake機能のパイプライン @asap2650
21 破綻部分を違和感なく修正するRetake機能の提案 Retake機能の工夫点① @asap2650 ①原曲生成時に保存した Audio Codesと潜在表現を直接利用
22 破綻部分を違和感なく修正するRetake機能の提案 Retake機能の工夫点② @asap2650 ②原曲生成時と同一の Audio CodesがDiTの生成をガイド
23 破綻部分を違和感なく修正するRetake機能の提案 Retake機能の工夫点③ @asap2650 ③DiTの初期ノイズに原曲と同じ潜在表現を 混ぜて生成方向を誘導
24 破綻部分を違和感なく修正するRetake機能の提案 Retake機能の工夫点④ @asap2650 ④モデルパラメータの変更ではなく 使い方を変えただけ モデルが進化しても継続して利用可能
25 まとめ まとめ ACE-Step-1.5は既存の音楽生成AIのいいところどり 1 公式機能でピンポイントに破綻の修正は難しい 2 破綻部分を違和感なく微修正するRetake機能の開発 3 @asap2650
26 最後に 記事と動画にいいねをお願いします! @asap2650