Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
歌声の特徴に基づいて曲を探そう!
Search
Taro Masuda
January 18, 2020
Technology
1.7k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
歌声の特徴に基づいて曲を探そう!
Taro Masuda
January 18, 2020
More Decks by Taro Masuda
See All by Taro Masuda
Rist_Meetup_Kaggleは業務の役にたつ - ビジネスコンテンツ情報を活用する BtoB 事業編 - / rist-meetup-20241012
taro_masuda
1
1.1k
白金鉱業Meetup_経験値ゼロから始める A_B テスト布教活動と意思決定に活かしやすいA_Bテスト設計の一案 / brainpad-meetup-20240919
taro_masuda
4
1.1k
企業・業界動向抽出のための経済情報ラベルの定義とタグ付きコーパスの構築 / yans2023-poster-s3-p21
taro_masuda
0
250
NLP2024 参加報告LT ~RAGの生成評価と懇親戦略~ / nlp2024_attendee_presentation_LT_masuda
taro_masuda
1
590
BtoBプロダクト改善のためのデータドリブン活動と組織の概要/b2b_data_driven_team
taro_masuda
0
1.3k
企業の業界分類予測における共変量シフト問題の抑制
taro_masuda
2
1.6k
ディジタル信号処理の入り口に立つ
taro_masuda
3
370
NGBoost論文読んでみた
taro_masuda
2
4.2k
Other Decks in Technology
See All in Technology
実装は速くなった、レビューはどうする? ― 自身のレビューをAIで再現させるサーヴァントエンジニアリングのすゝめ / Implementation got faster. So what about reviews? — An invitation to Servant Engineering: Recreating your own code reviews with AI
nrslib
8
4.5k
Claude Code の Sandbox 機能を Anthropic Sandbox Runtime(srt) で試そう!/lets-play-anthropic-sandbox-runtime
tomoki10
1
520
2026TECHFRESH畢業分享會 - 葬送的通靈師:化系統與用戶雜訊成行動訊號
line_developers_tw
PRO
0
680
Agentic ERPをどう設計するか ー 受発注エージェントを動かす、現場の知見と設計思想ー
recerqainc
1
2.2k
小さく始める AI 活用推進 ― 日経電子版 Web チームの事例/nikkei-tech-talk47
nikkei_engineer_recruiting
0
190
2026 TECHFRESH 畢業分享會 - AI-Native 重塑軟體工程與虛擬講師
line_developers_tw
PRO
0
680
「速く作る」から「正しく作る」へ ─ 生成AI時代の開発フロー改革の ロードマップと実行 ─
starfish719
0
9.7k
Reliability in the Age of AI: Engineering for AI Velocity
rrreeeyyy
0
120
価格.comをAI駆動で全面刷新する ー 30年分の技術的負債を返し、次の30年の土台をつくる ー / AI Engineering Summit Tokyo 2026
tkyowa
53
59k
Dario Amodi『Policy on the AI Exponential』を理解する
nagatsu
0
210
Bucharest Tech Week 2026 - Reinventing testing practices in the AI era
edeandrea
PRO
1
140
日本 Fintech 未来予測レポート 2027〜2028年(手動編集版)
8maki
0
1.3k
Featured
See All Featured
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
380
The Illustrated Children's Guide to Kubernetes
chrisshort
51
52k
エンジニアに許された特別な時間の終わり
watany
107
250k
Practical Orchestrator
shlominoach
191
11k
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.5k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.5k
Technical Leadership for Architectural Decision Making
baasie
3
400
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.7k
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
1.1k
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
160
The Cost Of JavaScript in 2023
addyosmani
55
10k
Between Models and Reality
mayunak
4
330
Transcript
歌声の特徴に基づいて曲を探そう! @ Music×Analytics Meetup 増田 太郎 @ml_taro 2020/01/18
自己紹介 1 増田 太郎(ますだ たろう) @ml_taro • 仕事(株)電通国際情報サービス • 画像認識・音響解析・自然言語処理といった分野の技術検証、
研究開発、新規事業の企画提案 • 興味 • 音響信号処理、音楽情報処理 • 機械学習、特にモデルの動作原理など理論に興味あり、ベイズ(PRML) • 経歴 • 楽器の演奏フレーズをクエリとする楽曲検索の研究 @修士 • 論文: https://staff.aist.go.jp/m.goto/PAPER/ISMIR2014masuda.pdf • 音声信号処理の研究 @電機メーカー研究所 • 論文: https://ieeexplore.ieee.org/document/7952201 • その他 • 産総研メディアインタラクション研究G 技術研修生、ヤマハR&Dインターン • 好きなアーティスト • indigo la End, サカナクション, sumika
目次 1. 背景・目的 2. 処理フロー 3. 実験条件 4. 実験結果 5.
まとめ 2
• 背景① 「歌声」は楽曲の中でリスナーが最も重視する要素の1つ – 「VOCALOID」等歌声編集ソフトの普及 – 「AI美空ひばり」プロジェクトでも 歌声のチューニングに多くの工数が割かれている(はず) – 私自身も好みの歌声を持ったボーカリストが複数いて、声が似た曲を探したい
• 背景② カラオケで自分の声に似たアーティストの曲を歌いたい – 自分自身の声を客観的に誰と似ているか判定することは難しい • 目的 歌声の特徴に基づき楽曲の類似度を算出することで、 曲との新しい出会い方の実現性について実験すること – 好きな歌声の特徴を基に別の曲と出会う – 自分の声に似た曲と出会う 1. 背景・目的 3
• はじめに – 本発表では、いわしさん( @tty_tkhs_ml )のブログ記事 (*1) およびコード (*2) を大いに参照、活用させていただきました。
ここに厚く御礼申し上げます。 – (*1)「Spotify Web APIから収集した楽曲のメル周波数スペクトログラムを 用いたジャンル推定と特定次元空間へのマッピング」 https://fake-plastic-trees.hatenablog.jp/entry/2019/12/01/183713 – (*2) https://colab.research.google.com/drive/1_efY_YcYB3b_NkOT_bs85-8k73otVoUx 2. 処理フロー 4
2. 処理フロー 5 Web API 楽曲ファイルA 楽音分離 歌声特徴量 抽出 歌声波形A
歌声特徴量A 楽曲ファイルB 楽音分離 歌声特徴量 抽出 歌声波形B 歌声特徴量B 類似度 計算 Spotify DB
• 楽音分離 – Deezer社のOSSである「Spleeter」を使用 • 以下の3通りの学習済み楽音分離モデルを提供 – ボーカル / 伴奏
(2 stems) – ボーカル / ドラム / ベース / その他 (4 stems) – ボーカル / ドラム / ベース / ピアノ / その他 (5 stems) • https://github.com/deezer/spleeter • Romain Hennequin and Anis Khlif and Felix Voituret and Manuel Moussallam,“Spleeter: A Fast And State-of-the Art Music Source Separation Tool With Pre-trained Models,“ Late-Breaking/Demo ISMIR 2019, Deezer Research, November 2019. • 今回は 2 stems のみを使用 2. 処理フロー 6
• 歌声特徴量の抽出 – MFCC • 人間の聴覚特性に基づき人手で設計された特徴量 • 音声・音楽信号処理で幅広く使われる音響特徴量のド定番 – LPMCC
• 線形予測(LP)を用いて声道特徴を表現する特徴量 – 歌声の特徴量として有効であることが報告されている » 中野, 吉井, 後藤, “トピックモデルを用いた歌声特徴量の分析" » https://staff.aist.go.jp/t.nakano/PAPER/SIGMUS201309nakano.pdf • 類似度計算 – ユークリッド距離 • 値が小さいほど類似度が高い 2. 処理フロー 7
• データセットについて – ジャンル:結果の分かりやすさのため「j-pop」に絞って収集 – 曲数:合計1,000曲のmp3ファイルを収集 • アーティスト数:181 • Spotify
APIにてサンプル視聴用の30秒のクリップが提供されている – マーケットプレイスのリージョン:日本に限定 • クエリについて – 以下の3種類で実験 • サカナクション「新宝島」 • sumika「ファンファーレ」 • 増田太郎の歌唱 3. 実験条件 8
• サカナクション「新宝島」をクエリ とした場合の類似歌声 – 考察 ・同じ曲がトップ1に(Spotifyで別IDとして登録されていた) ・同一アーティストの別曲が上位に入らないなど、改善の余地あり 4. 実験結果 –MFCCの類似度-
9 曲名 アーティスト 距離 新宝島 サカナクション 0.42 地獄でなぜ悪い 星野源 9.65 Face Down 嵐 9.71 アゲハ蝶 ポルノグラフィティ 9.99 君のために僕がいる 嵐 10.05
• サカナクション「新宝島」をクエリとした場合の類似歌声 – 考察 ・MFCCとほぼ同じ結果 4. 実験結果 –LPMCCの類似度- 10 曲名
アーティスト 距離 新宝島 サカナクション 0.59 Face Down 嵐 10.59 地獄でなぜ悪い 星野源 11.03 水星(Original mix) feat. オノマトペ大臣 tofubeats 11.15 君のために僕がいる 嵐 11.29
• sumika「ファンファーレ」をクエリ とした場合の類似歌声 – 考察 ・4位に女性アーティストが来ており、類似度を上手く捉えられていない ・一方、サンボマスターのような熱く太い歌声は似ている 4. 実験結果 –MFCCの類似度-
11 曲名 アーティスト 距離 輝きだして走ってく サンボマスター 4.40 エソラ Mr.Children 5.75 Sorry 清水翔太 7.20 Jupiter 平原綾香 7.84 Bon Voyage ONE OK ROCK 8.05
• sumika「ファンファーレ」をクエリとした場合の類似歌声 – 考察 ・MFCCと同じアーティストが並ぶ 4. 実験結果 –LPMCCの類似度- 12 曲名
アーティスト 距離 輝きだして走ってく サンボマスター 4.27 エソラ Mr.Children 7.00 Sorry 清水翔太 7.25 努努-ゆめゆめ- ONE OK ROCK 7.67 Jupiter 平原綾香 8.08
• 増田太郎が歌う「ファンファーレ」をクエリ とした場合 – 考察 ・1位であっても距離のスケールが大きく、特徴を上手く掴めていない ・Spleeterによるダウンサンプリングなど前処理を揃えるべきだったか ・重複や偏りの影響でユニークなアーティスト数が十分でなかった 4. 実験結果
–MFCCの類似度- 13 曲名 アーティスト 距離 クローバー 菅田将暉 12,075 アゲハ蝶 ポルノグラフィティ 12,122 180° 山猿 12,126 君こそスターだ サザンオールスターズ 12,136 One Love 嵐 12,137
• 増田太郎が歌う「ファンファーレ」をクエリとした場合の類似歌声 – 考察 ・問題点はMFCCで上げたことと同じ 4. 実験結果 –LPMCCの類似度- 14 曲名
アーティスト 距離 クローバー 菅田将暉 9,332 アゲハ蝶 ポルノグラフィティ 9,376 ロングホープ・フィリア 菅田将暉 9,384 Everything 嵐 9,385 君こそスターだ サザンオールスターズ 9,401
• 歌声の特徴に基づき楽曲の類似度を算出することで、 曲との新しい出会い方の実現性について実験した – Spleeterを利用することで歌声波形と伴奏の分離 – 分離された歌声波形をMFCC, LPMCCを用いて歌声特徴量に変換 • 今後の課題
– 歌声の別の特徴量抽出手法を取り入れた精度の改善 • ΔF0:ビブラートやこぶしなど、音高の時間変化の特徴 – 今回は声質のみで検索するという思惑がありスコープ外とした – いわしさんの下記の取り組みに、アドオンとして歌声類似度機能を追加したい • “今回作成した曲同士のデータをGraphデータに変換し,3D空間に作図して Web公開しようと思います.”, -ブログより引用 – https://fake-plastic-trees.hatenablog.jp/entry/2019/12/01/183713 • ユーザの歌唱をクエリとするための音声入力インタフェースの実装 5. まとめ 15