Upgrade to Pro — share decks privately, control downloads, hide ads and more …

歌声の特徴に基づいて曲を探そう!

Avatar for Taro Masuda Taro Masuda
January 18, 2020

 歌声の特徴に基づいて曲を探そう!

Avatar for Taro Masuda

Taro Masuda

January 18, 2020
Tweet

More Decks by Taro Masuda

Other Decks in Technology

Transcript

  1. 自己紹介 1 増田 太郎(ますだ たろう) @ml_taro • 仕事(株)電通国際情報サービス • 画像認識・音響解析・自然言語処理といった分野の技術検証、

    研究開発、新規事業の企画提案 • 興味 • 音響信号処理、音楽情報処理 • 機械学習、特にモデルの動作原理など理論に興味あり、ベイズ(PRML) • 経歴 • 楽器の演奏フレーズをクエリとする楽曲検索の研究 @修士 • 論文: https://staff.aist.go.jp/m.goto/PAPER/ISMIR2014masuda.pdf • 音声信号処理の研究 @電機メーカー研究所 • 論文: https://ieeexplore.ieee.org/document/7952201 • その他 • 産総研メディアインタラクション研究G 技術研修生、ヤマハR&Dインターン • 好きなアーティスト • indigo la End, サカナクション, sumika
  2. • 背景① 「歌声」は楽曲の中でリスナーが最も重視する要素の1つ – 「VOCALOID」等歌声編集ソフトの普及 – 「AI美空ひばり」プロジェクトでも 歌声のチューニングに多くの工数が割かれている(はず) – 私自身も好みの歌声を持ったボーカリストが複数いて、声が似た曲を探したい

    • 背景② カラオケで自分の声に似たアーティストの曲を歌いたい – 自分自身の声を客観的に誰と似ているか判定することは難しい • 目的 歌声の特徴に基づき楽曲の類似度を算出することで、 曲との新しい出会い方の実現性について実験すること – 好きな歌声の特徴を基に別の曲と出会う – 自分の声に似た曲と出会う 1. 背景・目的 3
  3. • はじめに – 本発表では、いわしさん( @tty_tkhs_ml )のブログ記事 (*1) およびコード (*2) を大いに参照、活用させていただきました。

    ここに厚く御礼申し上げます。 – (*1)「Spotify Web APIから収集した楽曲のメル周波数スペクトログラムを 用いたジャンル推定と特定次元空間へのマッピング」 https://fake-plastic-trees.hatenablog.jp/entry/2019/12/01/183713 – (*2) https://colab.research.google.com/drive/1_efY_YcYB3b_NkOT_bs85-8k73otVoUx 2. 処理フロー 4
  4. 2. 処理フロー 5 Web API 楽曲ファイルA 楽音分離 歌声特徴量 抽出 歌声波形A

    歌声特徴量A 楽曲ファイルB 楽音分離 歌声特徴量 抽出 歌声波形B 歌声特徴量B 類似度 計算 Spotify DB
  5. • 楽音分離 – Deezer社のOSSである「Spleeter」を使用 • 以下の3通りの学習済み楽音分離モデルを提供 – ボーカル / 伴奏

    (2 stems) – ボーカル / ドラム / ベース / その他 (4 stems) – ボーカル / ドラム / ベース / ピアノ / その他 (5 stems) • https://github.com/deezer/spleeter • Romain Hennequin and Anis Khlif and Felix Voituret and Manuel Moussallam,“Spleeter: A Fast And State-of-the Art Music Source Separation Tool With Pre-trained Models,“ Late-Breaking/Demo ISMIR 2019, Deezer Research, November 2019. • 今回は 2 stems のみを使用 2. 処理フロー 6
  6. • 歌声特徴量の抽出 – MFCC • 人間の聴覚特性に基づき人手で設計された特徴量 • 音声・音楽信号処理で幅広く使われる音響特徴量のド定番 – LPMCC

    • 線形予測(LP)を用いて声道特徴を表現する特徴量 – 歌声の特徴量として有効であることが報告されている » 中野, 吉井, 後藤, “トピックモデルを用いた歌声特徴量の分析" » https://staff.aist.go.jp/t.nakano/PAPER/SIGMUS201309nakano.pdf • 類似度計算 – ユークリッド距離 • 値が小さいほど類似度が高い 2. 処理フロー 7
  7. • データセットについて – ジャンル:結果の分かりやすさのため「j-pop」に絞って収集 – 曲数:合計1,000曲のmp3ファイルを収集 • アーティスト数:181 • Spotify

    APIにてサンプル視聴用の30秒のクリップが提供されている – マーケットプレイスのリージョン:日本に限定 • クエリについて – 以下の3種類で実験 • サカナクション「新宝島」 • sumika「ファンファーレ」 • 増田太郎の歌唱 3. 実験条件 8
  8. • サカナクション「新宝島」をクエリ とした場合の類似歌声 – 考察 ・同じ曲がトップ1に(Spotifyで別IDとして登録されていた) ・同一アーティストの別曲が上位に入らないなど、改善の余地あり 4. 実験結果 –MFCCの類似度-

    9 曲名 アーティスト 距離 新宝島 サカナクション 0.42 地獄でなぜ悪い 星野源 9.65 Face Down 嵐 9.71 アゲハ蝶 ポルノグラフィティ 9.99 君のために僕がいる 嵐 10.05
  9. • サカナクション「新宝島」をクエリとした場合の類似歌声 – 考察 ・MFCCとほぼ同じ結果 4. 実験結果 –LPMCCの類似度- 10 曲名

    アーティスト 距離 新宝島 サカナクション 0.59 Face Down 嵐 10.59 地獄でなぜ悪い 星野源 11.03 水星(Original mix) feat. オノマトペ大臣 tofubeats 11.15 君のために僕がいる 嵐 11.29
  10. • sumika「ファンファーレ」をクエリとした場合の類似歌声 – 考察 ・MFCCと同じアーティストが並ぶ 4. 実験結果 –LPMCCの類似度- 12 曲名

    アーティスト 距離 輝きだして走ってく サンボマスター 4.27 エソラ Mr.Children 7.00 Sorry 清水翔太 7.25 努努-ゆめゆめ- ONE OK ROCK 7.67 Jupiter 平原綾香 8.08
  11. • 増田太郎が歌う「ファンファーレ」をクエリとした場合の類似歌声 – 考察 ・問題点はMFCCで上げたことと同じ 4. 実験結果 –LPMCCの類似度- 14 曲名

    アーティスト 距離 クローバー 菅田将暉 9,332 アゲハ蝶 ポルノグラフィティ 9,376 ロングホープ・フィリア 菅田将暉 9,384 Everything 嵐 9,385 君こそスターだ サザンオールスターズ 9,401
  12. • 歌声の特徴に基づき楽曲の類似度を算出することで、 曲との新しい出会い方の実現性について実験した – Spleeterを利用することで歌声波形と伴奏の分離 – 分離された歌声波形をMFCC, LPMCCを用いて歌声特徴量に変換 • 今後の課題

    – 歌声の別の特徴量抽出手法を取り入れた精度の改善 • ΔF0:ビブラートやこぶしなど、音高の時間変化の特徴 – 今回は声質のみで検索するという思惑がありスコープ外とした – いわしさんの下記の取り組みに、アドオンとして歌声類似度機能を追加したい • “今回作成した曲同士のデータをGraphデータに変換し,3D空間に作図して Web公開しようと思います.”, -ブログより引用 – https://fake-plastic-trees.hatenablog.jp/entry/2019/12/01/183713 • ユーザの歌唱をクエリとするための音声入力インタフェースの実装 5. まとめ 15