歌声の特徴に基づいて曲を探そう！

歌声の特徴に基づいて曲を探そう！ @ Music×Analytics Meetup 増田太郎 @ml_taro 2020/01/18

自己紹介 1 増田太郎（ますだたろう） @ml_taro • 仕事（株）電通国際情報サービス • 画像認識・音響解析・自然言語処理といった分野の技術検証、
研究開発、新規事業の企画提案 • 興味 • 音響信号処理、音楽情報処理 • 機械学習、特にモデルの動作原理など理論に興味あり、ベイズ（PRML） • 経歴 • 楽器の演奏フレーズをクエリとする楽曲検索の研究＠修士 • 論文： https://staff.aist.go.jp/m.goto/PAPER/ISMIR2014masuda.pdf • 音声信号処理の研究＠電機メーカー研究所 • 論文： https://ieeexplore.ieee.org/document/7952201 • その他 • 産総研メディアインタラクション研究G 技術研修生、ヤマハR&Dインターン • 好きなアーティスト • indigo la End, サカナクション, sumika

目次 1. 背景・目的 2. 処理フロー 3. 実験条件 4. 実験結果 5.
まとめ 2

• 背景① 「歌声」は楽曲の中でリスナーが最も重視する要素の1つ – 「VOCALOID」等歌声編集ソフトの普及 – 「AI美空ひばり」プロジェクトでも歌声のチューニングに多くの工数が割かれている（はず） – 私自身も好みの歌声を持ったボーカリストが複数いて、声が似た曲を探したい
• 背景② カラオケで自分の声に似たアーティストの曲を歌いたい – 自分自身の声を客観的に誰と似ているか判定することは難しい • 目的歌声の特徴に基づき楽曲の類似度を算出することで、曲との新しい出会い方の実現性について実験すること – 好きな歌声の特徴を基に別の曲と出会う – 自分の声に似た曲と出会う 1. 背景・目的 3

• はじめに – 本発表では、いわしさん（ @tty_tkhs_ml ）のブログ記事 (*1) およびコード (*2) を大いに参照、活用させていただきました。
ここに厚く御礼申し上げます。 – (*1)「Spotify Web APIから収集した楽曲のメル周波数スペクトログラムを用いたジャンル推定と特定次元空間へのマッピング」 https://fake-plastic-trees.hatenablog.jp/entry/2019/12/01/183713 – (*2) https://colab.research.google.com/drive/1_efY_YcYB3b_NkOT_bs85-8k73otVoUx 2. 処理フロー 4

2. 処理フロー 5 Web API 楽曲ファイルA 楽音分離歌声特徴量抽出歌声波形A
歌声特徴量A 楽曲ファイルB 楽音分離歌声特徴量抽出歌声波形B 歌声特徴量B 類似度計算 Spotify DB

• 楽音分離 – Deezer社のOSSである「Spleeter」を使用 • 以下の3通りの学習済み楽音分離モデルを提供 – ボーカル / 伴奏
（2 stems） – ボーカル / ドラム / ベース / その他 (4 stems) – ボーカル / ドラム / ベース / ピアノ / その他 (5 stems) • https://github.com/deezer/spleeter • Romain Hennequin and Anis Khlif and Felix Voituret and Manuel Moussallam,“Spleeter: A Fast And State-of-the Art Music Source Separation Tool With Pre-trained Models,“ Late-Breaking/Demo ISMIR 2019, Deezer Research, November 2019. • 今回は 2 stems のみを使用 2. 処理フロー 6

• 歌声特徴量の抽出 – MFCC • 人間の聴覚特性に基づき人手で設計された特徴量 • 音声・音楽信号処理で幅広く使われる音響特徴量のド定番 – LPMCC
• 線形予測（LP）を用いて声道特徴を表現する特徴量 – 歌声の特徴量として有効であることが報告されている » 中野, 吉井, 後藤, “トピックモデルを用いた歌声特徴量の分析" » https://staff.aist.go.jp/t.nakano/PAPER/SIGMUS201309nakano.pdf • 類似度計算 – ユークリッド距離 • 値が小さいほど類似度が高い 2. 処理フロー 7

• データセットについて – ジャンル：結果の分かりやすさのため「j-pop」に絞って収集 – 曲数：合計1,000曲のmp3ファイルを収集 • アーティスト数：181 • Spotify
APIにてサンプル視聴用の30秒のクリップが提供されている – マーケットプレイスのリージョン：日本に限定 • クエリについて – 以下の3種類で実験 • サカナクション「新宝島」 • sumika「ファンファーレ」 • 増田太郎の歌唱 3. 実験条件 8

• サカナクション「新宝島」をクエリとした場合の類似歌声 – 考察・同じ曲がトップ1に（Spotifyで別IDとして登録されていた）・同一アーティストの別曲が上位に入らないなど、改善の余地あり 4. 実験結果 –MFCCの類似度-
9 曲名アーティスト距離新宝島サカナクション 0.42 地獄でなぜ悪い星野源 9.65 Face Down 嵐 9.71 アゲハ蝶ポルノグラフィティ 9.99 君のために僕がいる嵐 10.05

• サカナクション「新宝島」をクエリとした場合の類似歌声 – 考察・MFCCとほぼ同じ結果 4. 実験結果 –LPMCCの類似度- 10 曲名
アーティスト距離新宝島サカナクション 0.59 Face Down 嵐 10.59 地獄でなぜ悪い星野源 11.03 水星(Original mix) feat. オノマトペ大臣 tofubeats 11.15 君のために僕がいる嵐 11.29

• sumika「ファンファーレ」をクエリとした場合の類似歌声 – 考察・4位に女性アーティストが来ており、類似度を上手く捉えられていない・一方、サンボマスターのような熱く太い歌声は似ている 4. 実験結果 –MFCCの類似度-
11 曲名アーティスト距離輝きだして走ってくサンボマスター 4.40 エソラ Mr.Children 5.75 Sorry 清水翔太 7.20 Jupiter 平原綾香 7.84 Bon Voyage ONE OK ROCK 8.05

• sumika「ファンファーレ」をクエリとした場合の類似歌声 – 考察・MFCCと同じアーティストが並ぶ 4. 実験結果 –LPMCCの類似度- 12 曲名
アーティスト距離輝きだして走ってくサンボマスター 4.27 エソラ Mr.Children 7.00 Sorry 清水翔太 7.25 努努-ゆめゆめ- ONE OK ROCK 7.67 Jupiter 平原綾香 8.08

• 増田太郎が歌う「ファンファーレ」をクエリとした場合 – 考察・1位であっても距離のスケールが大きく、特徴を上手く掴めていない・Spleeterによるダウンサンプリングなど前処理を揃えるべきだったか・重複や偏りの影響でユニークなアーティスト数が十分でなかった 4. 実験結果
–MFCCの類似度- 13 曲名アーティスト距離クローバー菅田将暉 12,075 アゲハ蝶ポルノグラフィティ 12,122 180° 山猿 12,126 君こそスターだサザンオールスターズ 12,136 One Love 嵐 12,137

• 増田太郎が歌う「ファンファーレ」をクエリとした場合の類似歌声 – 考察・問題点はMFCCで上げたことと同じ 4. 実験結果 –LPMCCの類似度- 14 曲名
アーティスト距離クローバー菅田将暉 9,332 アゲハ蝶ポルノグラフィティ 9,376 ロングホープ・フィリア菅田将暉 9,384 Everything 嵐 9,385 君こそスターだサザンオールスターズ 9,401

• 歌声の特徴に基づき楽曲の類似度を算出することで、曲との新しい出会い方の実現性について実験した – Spleeterを利用することで歌声波形と伴奏の分離 – 分離された歌声波形をMFCC, LPMCCを用いて歌声特徴量に変換 • 今後の課題
– 歌声の別の特徴量抽出手法を取り入れた精度の改善 • ΔF0：ビブラートやこぶしなど、音高の時間変化の特徴 – 今回は声質のみで検索するという思惑がありスコープ外とした – いわしさんの下記の取り組みに、アドオンとして歌声類似度機能を追加したい • “今回作成した曲同士のデータをGraphデータに変換し，3D空間に作図して Web公開しようと思います．”, -ブログより引用 – https://fake-plastic-trees.hatenablog.jp/entry/2019/12/01/183713 • ユーザの歌唱をクエリとするための音声入力インタフェースの実装 5. まとめ 15

歌声の特徴に基づいて曲を探そう！

歌声の特徴に基づいて曲を探そう！

Taro Masuda

More Decks by Taro Masuda

Other Decks in Technology

Featured

Transcript

歌声の特徴に基づいて曲を探そう！ @ Music×Analytics Meetup 増田太郎 @ml_taro 2020/01/18

自己紹介 1 増田太郎（ますだたろう） @ml_taro • 仕事（株）電通国際情報サービス • 画像認識・音響解析・自然言語処理といった分野の技術検証、

目次 1. 背景・目的 2. 処理フロー 3. 実験条件 4. 実験結果 5.

• はじめに – 本発表では、いわしさん（ @tty_tkhs_ml ）のブログ記事 (1) およびコード (2) を大いに参照、活用させていただきました。

2. 処理フロー 5 Web API 楽曲ファイルA 楽音分離歌声特徴量抽出歌声波形A

• 楽音分離 – Deezer社のOSSである「Spleeter」を使用 • 以下の3通りの学習済み楽音分離モデルを提供 – ボーカル / 伴奏

• 歌声特徴量の抽出 – MFCC • 人間の聴覚特性に基づき人手で設計された特徴量 • 音声・音楽信号処理で幅広く使われる音響特徴量のド定番 – LPMCC

• データセットについて – ジャンル：結果の分かりやすさのため「j-pop」に絞って収集 – 曲数：合計1,000曲のmp3ファイルを収集 • アーティスト数：181 • Spotify

• サカナクション「新宝島」をクエリとした場合の類似歌声 – 考察・同じ曲がトップ1に（Spotifyで別IDとして登録されていた）・同一アーティストの別曲が上位に入らないなど、改善の余地あり 4. 実験結果 –MFCCの類似度-

• サカナクション「新宝島」をクエリとした場合の類似歌声 – 考察・MFCCとほぼ同じ結果 4. 実験結果 –LPMCCの類似度- 10 曲名

• sumika「ファンファーレ」をクエリとした場合の類似歌声 – 考察・MFCCと同じアーティストが並ぶ 4. 実験結果 –LPMCCの類似度- 12 曲名

• 増田太郎が歌う「ファンファーレ」をクエリとした場合の類似歌声 – 考察・問題点はMFCCで上げたことと同じ 4. 実験結果 –LPMCCの類似度- 14 曲名