drummernet

Deep Unsupervised Drum Transcription Keunwoo Choi, Kyunghyun Cho ISMIR 2019

梗概 • DrummerNet: 无监督训练的鼓转录系统 • 从大型未标记数据集中学习 • 音频输入——转录器——转录结果——合成器——还原音频 • 对模型结果和结构进行了分析

背景 • 转录(Transcription): score -> audio • 目前大多数系统都是有监督的（使用成对数据） • 这些监督学习方法还结合了其他模型：
• Frame-based feature extraction and classification • Non-negative matrix factorization(NMF) • HMM model

现有的问题 • 缺少大规模的带注释数据 • 解决办法1：使用合成数据 • 解决办法2：使用未标记的数据 • Mark Cartwright
and Juan Pablo Bello. Increasing drum transcription vocabulary using data synthesis. Proc. of the 21st Int. Conference on Digital Audio Effects (DAFx-18). Aveiro, Portugal, 2018. • Chih-Wei Wu and Alexander Lerch. Automatic drum transcription using the student-teacher learning paradigm with unlabeled music data. In Proc. Int. Soc. Music Inf. Retrieval Conf., pages 613–620, 2017. • 但上面的模型仍然是有监督+师生学习(Teacher-student Learning) • Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531, 2015.

DrummerNet 用与ො 的差异代表与ො 的差异模型需要满足三个条件： 1. 的输出是一个transcription 2. 能够根据transcription做合成 3.
整个过程可导

U-Net(Encoder-Decoder) • 输入音频，输出一个representation • X长度为N，则z长度为N/1024，r长度为N/16

RNN/Sparsemax/Unsampler • 三层GRU • {time-axis, bi-direction, 100 channel} • {time-axis,
uni-direction, 50 channel} • {instrument-axis, uni-direction, K}, K为鼓乐器数目 • Sparsemax，softmax的“稀疏版本”，允许某项为0 • 一个沿着time-axis的不重叠窗口，一个沿着instrument-axis • 并行计算，结果点乘 • Unsampler • 以0插值，从N/16补回N

Synthesis Fs • K个一维卷积层和一个求和运算 • 每一个核都未加训练，而是固定在每个鼓的已知波形上

Learning • 最小化以最小化 • 为了达到目的，Loss必须能区分不同的鼓 • 如何描述？

Onset Spectrum Similarity • 表示频谱中声音起始段的相似度 • 首先利用median-filtering，增强onset • 转换到multi-resolution CQTs
• 计算MAE

Experiment • AM: 无监督+NMF • 中间的：有监督NN • 最右边：复杂NMF • 数据集：
IDMT-SMT-Drums

Quanlitative Analysis • 检测KD最容易，SD和HH其次 • 与Loss函数相关。KD的类内差异较小 • SMT数据集最简单，MDB和ENST其次 • DrummerNet混合了probability和onset
velocity • Peak-pick算法将transcription的振幅当作概率计算

Ablation Study • Sparsemax • Softmax效果更差 • Softmax顺序使用比并行差 • 会造成很多假阳性
• CQT • 用质谱图MEL或短时傅里叶变换STFT会变差 • Onset Enhancement • 不显著的提升，但对训练初期loss下降有好处 • RNNs • 用三个卷积层替换，不产生显著差异。长期关系信息少？

drummernet

drummernet

Zhang Yixiao

More Decks by Zhang Yixiao

Other Decks in Research

Featured

Transcript

Deep Unsupervised Drum Transcription Keunwoo Choi, Kyunghyun Cho ISMIR 2019

梗概 • DrummerNet: 无监督训练的鼓转录系统 • 从大型未标记数据集中学习 • 音频输入——转录器——转录结果——合成器——还原音频 • 对模型结果和结构进行了分析

背景 • 转录(Transcription): score -> audio • 目前大多数系统都是有监督的（使用成对数据） • 这些监督学习方法还结合了其他模型：

现有的问题 • 缺少大规模的带注释数据 • 解决办法1：使用合成数据 • 解决办法2：使用未标记的数据 • Mark Cartwright

DrummerNet 用与ො 的差异代表与ො 的差异模型需要满足三个条件： 1. 的输出是一个transcription 2. 能够根据transcription做合成 3.

U-Net(Encoder-Decoder) • 输入音频，输出一个representation • X长度为N，则z长度为N/1024，r长度为N/16

RNN/Sparsemax/Unsampler • 三层GRU • {time-axis, bi-direction, 100 channel} • {time-axis,

Synthesis Fs • K个一维卷积层和一个求和运算 • 每一个核都未加训练，而是固定在每个鼓的已知波形上

Learning • 最小化以最小化 • 为了达到目的，Loss必须能区分不同的鼓 • 如何描述？

Onset Spectrum Similarity • 表示频谱中声音起始段的相似度 • 首先利用median-filtering，增强onset • 转换到multi-resolution CQTs

Experiment • AM: 无监督+NMF • 中间的：有监督NN • 最右边：复杂NMF • 数据集：

Quanlitative Analysis • 检测KD最容易，SD和HH其次 • 与Loss函数相关。KD的类内差异较小 • SMT数据集最简单，MDB和ENST其次 • DrummerNet混合了probability和onset

Ablation Study • Sparsemax • Softmax效果更差 • Softmax顺序使用比并行差 • 会造成很多假阳性