Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Demucsを用いた音源分離
Search
shuto goya
October 28, 2023
Science
0
410
Demucsを用いた音源分離
Music×Analytics Meetup Vol.11での発表内容です。
shuto goya
October 28, 2023
Tweet
Share
Other Decks in Science
See All in Science
The thin line between reconstruction, classification, and hallucination in brain decoding
ykamit
1
1.1k
多次元展開法を用いた 多値バイクラスタリング モデルの提案
kosugitti
0
200
FOGBoston2024
lcolladotor
0
130
LIMEを用いた判断根拠の可視化
kentaitakura
0
390
(論文読み)贈り物の交換による地位の競争と社会構造の変化 - 文化人類学への統計物理学的アプローチ -
__ymgc__
1
140
第61回コンピュータビジョン勉強会「BioCLIP: A Vision Foundation Model for the Tree of Life」
x_ttyszk
1
1.6k
最適化超入門
tkm2261
14
3.4k
【人工衛星開発】能見研究室紹介動画
02hattori11sat03
0
170
JSol'Ex : traitement d'images solaires en Java
melix
0
130
解説!データ基盤の進化を後押しする手順とタイミング
shomaekawa
1
370
3次元点群を利用した植物の葉の自動セグメンテーションについて
kentaitakura
2
730
マテリアルズ・インフォマティクスの先端で起きていること / What's Happening at the Cutting Edge of Materials Informatics
snhryt
1
150
Featured
See All Featured
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.9k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
Navigating Team Friction
lara
183
15k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Side Projects
sachag
452
42k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
49k
Statistics for Hackers
jakevdp
797
220k
Java REST API Framework Comparison - PWX 2021
mraible
28
8.3k
Testing 201, or: Great Expectations
jmmastey
41
7.2k
Optimising Largest Contentful Paint
csswizardry
33
3k
Docker and Python
trallard
43
3.2k
Raft: Consensus for Rubyists
vanstee
137
6.7k
Transcript
Demucsを用いた音源分離 2023/10/28 Music×Analytics Meetup Vol.11 合谷秋人
自己紹介 https://github.com/ch-shin/awesome-nilm 仕事 音楽遍歴 NILM(機器分離)技術の開発 中学 高校 大学以降 • ロキノン系(死語?)からマスロック・エモ寄りも好き
• 15~20歳までバンド活動(ギター) • 今はもっぱら聞くだけ(音楽活動したい) その他 • X: @shuto508 • 最近の取り組んでいる・やりたいこと ◦ Kaggleとか興味ある(が、ほぼやっていない) ◦ 引き続き機械学習の勉強(PRMLを頑張って解読中) • 趣味:ビール
よくある悩み:耳コピができない…! 聞きたいパートだけ聞けたらいいのになぁ … • そもそもフレーズが複雑 • 音が埋もれている • etc…
音源分離:合成波形(元音源)を個別要素に分解する 代表的なDeep Learning手法 主な応用先 • AIスピーカー • テレビ会議システム • 補聴器
• etc… • U-Net • Deep clustering • Conv-TasNet • etc… 全体から個別パートに分解
Demucs: Metaが開発した音源分離ライブラリ 元となる技術:Wave U-Net Vocal/Bass/Drums/Othersに分離 Wave U-Net: U-Netを1次元にしたもの
Google Colab上で簡単に分離結果を得ることが可能 Notebook例 ディレクトリ構成 分離結果 元音源 ノートブックを実行するだけで手軽に音源分離が可能
やってみた①:Demo編 波形やメルスペクトログラムではどこで何が鳴っているのか不明 元音源
やってみた①:分離結果 Drums Vocal Bass Others 各成分に音源分離できた!!
やってみた①:メルスペクトログラム分析 Drums Vocal Bass Others ボーカル/ピアノ 金物/倍音 ベース/ドラム
やってみた②:バンド音楽編
感想 - 手軽に分離できるわりに結構綺麗に分離される - パートごとの楽曲構成を調べることもできそう - ボーカルなどは一部違和感のある箇所もあった - 正解データ作りもできそう…? -
リード/バッキングは分けられない(主目的が…) - 音数が減った事自体で聞き取りやすくはなっている! - DemucsはVocal/Bass/Drums/Othersと分離できる構成が固定
ご清聴ありがとうございました!
Appendix
- https://github.com/facebookresearch/demucs - https://github.com/f90/Wave-U-Net 参考