本スライドは、音楽音源分離タスクにおける最先端手法「SCNet: Sparse Compression Network for Music Source Separation」の概要と技術的特徴を解説したものです。
SCNetは、周波数帯ごとの情報密度の違いに着目し、低周波には詳細な特徴抽出、高周波にはスパース圧縮を適用することで、高精度かつ軽量な音源分離を実現しています。エンコーダにはSD block、分離ネットワークにはDual-path RNN、デコーダにはFusion LayerとSU layerを用いた構成で、MUSDB18-HQデータセットで従来手法を上回る性能を達成しました。
評価指標として使用されるSDR(Signal-to-Distortion Ratio)の算出方法や、リーダーボード上での位置づけについても触れています。
[YouTubeリンク]
Moisesデモ: https://youtu.be/wGVPW8SMIpA
周波数ごとの音の聴こえ方: https://youtu.be/KCbuY4dImwQ