Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介 音源分離:SCNET SPARSE COMPRESSION NETWORK FOR ...

Avatar for kenmatsu4 kenmatsu4
July 08, 2025

論文紹介 音源分離:SCNET SPARSE COMPRESSION NETWORK FOR MUSIC SOURCE SEPARATION

本スライドは、音楽音源分離タスクにおける最先端手法「SCNet: Sparse Compression Network for Music Source Separation」の概要と技術的特徴を解説したものです。
SCNetは、周波数帯ごとの情報密度の違いに着目し、低周波には詳細な特徴抽出、高周波にはスパース圧縮を適用することで、高精度かつ軽量な音源分離を実現しています。エンコーダにはSD block、分離ネットワークにはDual-path RNN、デコーダにはFusion LayerとSU layerを用いた構成で、MUSDB18-HQデータセットで従来手法を上回る性能を達成しました。

評価指標として使用されるSDR(Signal-to-Distortion Ratio)の算出方法や、リーダーボード上での位置づけについても触れています。

[YouTubeリンク]
Moisesデモ: https://youtu.be/wGVPW8SMIpA
周波数ごとの音の聴こえ方: https://youtu.be/KCbuY4dImwQ

Avatar for kenmatsu4

kenmatsu4

July 08, 2025
Tweet

More Decks by kenmatsu4

Other Decks in Science

Transcript

  1. © DeNA Co., Ltd. 1 論文紹介 音源分離:SCNET SPARSE COMPRESSION NETWORK

    FOR MUSIC SOURCE SEPARATION 松井健一 IT本部AI・データ戦略統括部AI技術開発部 ゲームエンタメグループ 株式会社ディー・エヌ・エー
  2. © DeNA Co., Ltd. 2 自己紹介: 松井 健一 経歴 •

    SIer(ソフト開発) ⇒ ソフトバンク(携帯開発PjM) ⇒ アクセンチュア(DataScience Mgr) ⇒ DeNA(データサイエンス2G Mgr) ⇒ GO株式会社出向(データサイエンスG Mgr) ⇒ DeNA(DS ゲームエンタメG Mgr) • Kaggle Competition Master DeNA/GOでの業務 • AIドラレコDRIVE CHARTのAI機能精度改善、新機能開発、運用を担うデータサイエンスGにてマネージャー • DeNAゲーム事業へのAI適用を主務とするグループのマネージャー 書籍: 「事例でわかるMLOps~機械学習の成果をスケールする処方箋~」8章 「Software Design 2020年10月号 コードで実践,ビジュアルで納得 Pythonではじめる統計学」 「ワンランク上を目指す人のためのPython実践活用ガイド 第7章 Pythonではじめる統計学」 「アクセンチュアのプロフェッショナルが教えるデータ・アナリティクス実践講座」共著 論文:  "CHALLENGES IN PROVIDING EFFECTIVE DATA-DRIVEN BUSINESS ENVIRONMENT FOR DATA  SCIENTISTS IN ARTIFICIAL INTELLIGENCE TOCREATE ADDED BUSINESS VALUE "  (ICOTS 10、国際統計教育協会、2018年7月)  https://iase-web.org/icots/10/proceedings/pdfs/ICOTS10_1I3.pdf?1531364187
  3. © DeNA Co., Ltd. 3 対象の論文: SCNet: Sparse Compression Network

    for Music Source Separation https://arxiv.org/pdf/2401.13276
  4. © DeNA Co., Ltd. 6 音源分離とは 音源分離とは、複数の音源が混ざり合った音声信号から、それぞれの音源を個別に抽出する技術。例えば 音楽から個別の楽器の音を分離して抽出したりする。 音楽(wavファイルなど) 歌

    ギター ベース ドラム 分離 人間は「カクテルパーティー効果」のように、騒がしい環境 でも特定の人の声を聞き分ける能力を持っている。音源分離 技術は、このような人間の能力を機械で実現することを目指 している。
  5. © DeNA Co., Ltd. 11 ネットワーク構造: SD block SD block

    (Sparse Down-sampling Block): SD blockは、SCNetのエンコーダーの中心的な部分です。入力される超 広帯域オーディオの解像度を減らす役割を担っており、その後の処理ス テップの基盤を築きます。SD blockは、スパースダウンサンプリング層 と、積み重ねられた複数の畳み込みモジュールで構成されています。SD 層は、周波数軸を圧縮するために、1、4、16という異なるストライドを 持つ3つの並列畳み込み層で設計されています。この構成は、全周波数 帯を3つに分割し、高周波数部分により高い圧縮率を適用することを示 しています。また、SD層は特徴次元を増加させ、モデルがより複雑な詳 細を捉えることを可能にします。エンコーダーモジュール全体として、 低周波数部分の詳細の保持を優先します。 周波数低いところに情報が詰 まっていて、高いところは情報 密度が低い特性を踏まえた設計 低周波数帯:おおよそ0 Hzから3.85 kHzまで 中周波数帯:おおよそ3.86 kHzから12.5 kHzまで 高周波数帯:おおよそ12.5 kHzから22.0 kHz(ナイキ スト周波数)まで 16分の1 4分の1 そのまま 高周波 低周波 中周波 図の出典: https://arxiv.org/abs/2401.13276
  6. © DeNA Co., Ltd. 12 ネットワーク構造 Fusion Layer: Fusion Layerは、デコーダー内のスキップ接続に組み込まれており、エンコー

    ダーからの階層的な特徴を統合するために使用されます。この層では、SD blockの出力と、一つ下の階層のSU layerの出力を足し合わされ、その結果が 特徴次元にわたって複製されます。その後、カーネルサイズ3、ストライド1 の2D畳み込みが適用され、続いてGated Linear Unit(GLU)層が適用されま す。GLU操作は、入力が特徴次元に沿って半分に分割されてaとbを形成し、 「a × sigmoid(b)」という形式で機能します。 図の出典: https://arxiv.org/abs/2401.13276
  7. © DeNA Co., Ltd. 13 ネットワーク構造: Dual-path RNN(DPRNN) 図の出典: https://arxiv.org/abs/2401.13276

    時間軸RNN 周波数軸RNN ・時間軸と周波数軸の2つの方向にRNNを交互に適用した手法 ・シーケンス内の局所的・大域的情報を効率的に処理 ・時間的な依存関係を効果的にモデル化 ・BSRNNなどのモデルで採用され、高い分離性能を達成
  8. © DeNA Co., Ltd. 14 分割された周波数帯ごとに聞こえる音 オリジナル: 低周波数帯:おおよそ0 Hzから3.85 kHzまで

    中周波数帯:おおよそ3.86 kHzから12.5 kHzまで 高周波数帯:おおよそ12.5 kHzから22.0 kHz(ナイキスト周波数)まで ⇒ 高周波数帯はほぼ聴こえない気がする(モスキート音的な) ⇒ 中周波数帯もだいぶ少ない。 ⇒ 実際にどのような音が聞こえるのかは次ページ。 低域(Low)に17.5% 中域(Mid)に39.2% 高域(High)に43.3% を割り当てた構成が最も精度が良 かった。 17.5% 39.2% 43.3% GCR: 全体圧縮率 SR: 分割の比率 CPU RTF: 処理時間
  9. © DeNA Co., Ltd. 17 音源分離技術の性能を競うリーダーボード MVSEP MVSEP(Music & Voice

    Separation)は音源分離技術を評価・比較するためのオンラインプラットフォーム。 合成・マルチソング・ドラム・ボーカル・ピアノなど、様々なカテゴリでのリーダーボードを提供している。 https://mvsep.com/quality_checker/leaderboard/piano/?sort=piano SCNetを用いたアンサン ブル手法が上位に。 SCNet Leargeも単体で 上位にいる。
  10. © DeNA Co., Ltd. 18 評価指標 SDR(Signal-to-Distortion Ratio)について ①ウィンドウ処理 分離音源とGround

    Truth 両方同様に処理 GT ②誤差計算を音源ごとに行う ベース 分離された⾳源 その他 分離された⾳源 ボーカル 分離された⾳源 ドラム 分離された⾳源 ボーカル ドラム Ground Truth その他 Ground Truth Ground Truth ベース Ground Truth ボーカルの評価をする場合: 推 論 結 果 正 解 pred 0.5秒の ホップサイズ 3秒 論文ではSDR(Signal-to-Distortion Ratio)を用いて評価を行っている。この指標について解説する。波形デー タをウィンドウ処理し、分離音源ごとにGround Truthと比べて精度を算出する。
  11. © DeNA Co., Ltd. 19 評価指標 SDR(Signal-to-Distortion Ratio)について ボーカル pred

    ボーカル 正解 線型射影 ボーカル pred 全体 正解 線型射影 うまく予測できている ボーカル成分 音源全体のうちボーカル predで含まれる成分 (1)正解ターゲット成分 (2)干渉成分 ボーカルpredに 入っている他の音 源の成分 (ex:ちょっとギ ターが聞こえる) (3)アーティファクト 「そもそも正解信号のどの組み合わせ でも再現できない音」=ノイズ、エ コー、歪みなど PはSに射影する行列 (4)評価指標の計算 ③指標の計算 (1)正解ターゲット成分, (2)干渉成分, (3)アーティファクトに分離する処理を行い(4)の計算を行うことで算出。 雑なイメージ 各処理、正解に射影することでそ の方向の成分を抽出して処理。
  12. © DeNA Co., Ltd. 20 実験結果:分離性能の比較 表の出典: https://arxiv.org/abs/2401.13276 HT Demucsは150曲

    + 800曲の学習データを利用して いるが、SCNetは150曲の学習データのみ(150曲は共 通)なので、データが少なくても精度が高く、汎化性能 が良いと言える。 比較実験結果: 汎化性能結果: 他手法比較においてSCNetが精度が良好。モデルが学習に使用していない未知のデータ(MoisesDB)においても 追加学習データ(Extra)無しに他手法よりも精度がよく、汎化性能も良いと言える。 MVSEPリーダーボードにも 登場いたSCNet-largeが比 較手法より精度が良い。
  13. © DeNA Co., Ltd. 22 まとめ • 音源分離の手法を用いると、ボーカル、ギター、ドラムのような楽器単体 の音を音楽の波形データファイル(.wavなど)から分離できる。 •

    SCNetはUNetに影響を受けた構造となっており、SD blockやDual-path RNNなどから構成される。 • 音源分離における精度指標SDRについて理解した。 • SCNetは他手法と比べて精度がよく、学習に利用しなかったデータセット でも汎化性能の高さが認められた。