Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
歌声の特徴に基づいて曲を探そう!
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Taro Masuda
January 18, 2020
Technology
1.7k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
歌声の特徴に基づいて曲を探そう!
Taro Masuda
January 18, 2020
More Decks by Taro Masuda
See All by Taro Masuda
Rist_Meetup_Kaggleは業務の役にたつ - ビジネスコンテンツ情報を活用する BtoB 事業編 - / rist-meetup-20241012
taro_masuda
1
1.1k
白金鉱業Meetup_経験値ゼロから始める A_B テスト布教活動と意思決定に活かしやすいA_Bテスト設計の一案 / brainpad-meetup-20240919
taro_masuda
4
1.1k
企業・業界動向抽出のための経済情報ラベルの定義とタグ付きコーパスの構築 / yans2023-poster-s3-p21
taro_masuda
0
250
NLP2024 参加報告LT ~RAGの生成評価と懇親戦略~ / nlp2024_attendee_presentation_LT_masuda
taro_masuda
1
590
BtoBプロダクト改善のためのデータドリブン活動と組織の概要/b2b_data_driven_team
taro_masuda
0
1.3k
企業の業界分類予測における共変量シフト問題の抑制
taro_masuda
2
1.6k
ディジタル信号処理の入り口に立つ
taro_masuda
3
370
NGBoost論文読んでみた
taro_masuda
2
4.2k
Other Decks in Technology
See All in Technology
AIを「創る」と「使う」の循環 — HRテックが実践するリアルなAI組織実装
taketo957
0
1.9k
AWSシリコン最前線 〜AI時代のチップ選択を読み解く〜
htokoyo
2
390
実装は速くなった、レビューはどうする? ― 自身のレビューをAIで再現させるサーヴァントエンジニアリングのすゝめ / Implementation got faster. So what about reviews? — An invitation to Servant Engineering: Recreating your own code reviews with AI
nrslib
8
4.5k
2026TECHFRESH畢業分享會 - 葬送的通靈師:化系統與用戶雜訊成行動訊號
line_developers_tw
PRO
0
690
Android の公式 Skill / Android skills
yanzm
0
120
手塩にかけりゃいいってもんじゃない
ming_ayami
0
240
Djangoユーザが知っ得なPostgreSQL機能 - 設計の選択肢を増やす / Djang-use-PostgreSQL
soudai
PRO
1
230
社内 AI エージェント Synapse と セマンティックレイヤーの育て方
hiroakis
2
1.6k
作って終わりにしない タイミーのセマンティックレイヤー育成の現在地
chanyou0311
3
2.1k
機械学習を「社会実装」するということ 2026年夏版 / Social Implementation of Machine Learning June 2026 Version
moepy_stats
4
1.2k
AIの性能が向上しても未解決な組織の重大問題は何か?/An Unsolved Organizational Problem in the Age of AI
moriyuya
3
600
現地で盛り上がった WWDC26 Keynote
zozotech
PRO
1
150
Featured
See All Featured
Measuring & Analyzing Core Web Vitals
bluesmoon
9
860
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
How STYLIGHT went responsive
nonsquared
100
6.2k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Art, The Web, and Tiny UX
lynnandtonic
304
22k
Prompt Engineering for Job Search
mfonobong
0
340
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
400
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
300
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Mobile First: as difficult as doing things right
swwweet
225
10k
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
390
Transcript
歌声の特徴に基づいて曲を探そう! @ Music×Analytics Meetup 増田 太郎 @ml_taro 2020/01/18
自己紹介 1 増田 太郎(ますだ たろう) @ml_taro • 仕事(株)電通国際情報サービス • 画像認識・音響解析・自然言語処理といった分野の技術検証、
研究開発、新規事業の企画提案 • 興味 • 音響信号処理、音楽情報処理 • 機械学習、特にモデルの動作原理など理論に興味あり、ベイズ(PRML) • 経歴 • 楽器の演奏フレーズをクエリとする楽曲検索の研究 @修士 • 論文: https://staff.aist.go.jp/m.goto/PAPER/ISMIR2014masuda.pdf • 音声信号処理の研究 @電機メーカー研究所 • 論文: https://ieeexplore.ieee.org/document/7952201 • その他 • 産総研メディアインタラクション研究G 技術研修生、ヤマハR&Dインターン • 好きなアーティスト • indigo la End, サカナクション, sumika
目次 1. 背景・目的 2. 処理フロー 3. 実験条件 4. 実験結果 5.
まとめ 2
• 背景① 「歌声」は楽曲の中でリスナーが最も重視する要素の1つ – 「VOCALOID」等歌声編集ソフトの普及 – 「AI美空ひばり」プロジェクトでも 歌声のチューニングに多くの工数が割かれている(はず) – 私自身も好みの歌声を持ったボーカリストが複数いて、声が似た曲を探したい
• 背景② カラオケで自分の声に似たアーティストの曲を歌いたい – 自分自身の声を客観的に誰と似ているか判定することは難しい • 目的 歌声の特徴に基づき楽曲の類似度を算出することで、 曲との新しい出会い方の実現性について実験すること – 好きな歌声の特徴を基に別の曲と出会う – 自分の声に似た曲と出会う 1. 背景・目的 3
• はじめに – 本発表では、いわしさん( @tty_tkhs_ml )のブログ記事 (*1) およびコード (*2) を大いに参照、活用させていただきました。
ここに厚く御礼申し上げます。 – (*1)「Spotify Web APIから収集した楽曲のメル周波数スペクトログラムを 用いたジャンル推定と特定次元空間へのマッピング」 https://fake-plastic-trees.hatenablog.jp/entry/2019/12/01/183713 – (*2) https://colab.research.google.com/drive/1_efY_YcYB3b_NkOT_bs85-8k73otVoUx 2. 処理フロー 4
2. 処理フロー 5 Web API 楽曲ファイルA 楽音分離 歌声特徴量 抽出 歌声波形A
歌声特徴量A 楽曲ファイルB 楽音分離 歌声特徴量 抽出 歌声波形B 歌声特徴量B 類似度 計算 Spotify DB
• 楽音分離 – Deezer社のOSSである「Spleeter」を使用 • 以下の3通りの学習済み楽音分離モデルを提供 – ボーカル / 伴奏
(2 stems) – ボーカル / ドラム / ベース / その他 (4 stems) – ボーカル / ドラム / ベース / ピアノ / その他 (5 stems) • https://github.com/deezer/spleeter • Romain Hennequin and Anis Khlif and Felix Voituret and Manuel Moussallam,“Spleeter: A Fast And State-of-the Art Music Source Separation Tool With Pre-trained Models,“ Late-Breaking/Demo ISMIR 2019, Deezer Research, November 2019. • 今回は 2 stems のみを使用 2. 処理フロー 6
• 歌声特徴量の抽出 – MFCC • 人間の聴覚特性に基づき人手で設計された特徴量 • 音声・音楽信号処理で幅広く使われる音響特徴量のド定番 – LPMCC
• 線形予測(LP)を用いて声道特徴を表現する特徴量 – 歌声の特徴量として有効であることが報告されている » 中野, 吉井, 後藤, “トピックモデルを用いた歌声特徴量の分析" » https://staff.aist.go.jp/t.nakano/PAPER/SIGMUS201309nakano.pdf • 類似度計算 – ユークリッド距離 • 値が小さいほど類似度が高い 2. 処理フロー 7
• データセットについて – ジャンル:結果の分かりやすさのため「j-pop」に絞って収集 – 曲数:合計1,000曲のmp3ファイルを収集 • アーティスト数:181 • Spotify
APIにてサンプル視聴用の30秒のクリップが提供されている – マーケットプレイスのリージョン:日本に限定 • クエリについて – 以下の3種類で実験 • サカナクション「新宝島」 • sumika「ファンファーレ」 • 増田太郎の歌唱 3. 実験条件 8
• サカナクション「新宝島」をクエリ とした場合の類似歌声 – 考察 ・同じ曲がトップ1に(Spotifyで別IDとして登録されていた) ・同一アーティストの別曲が上位に入らないなど、改善の余地あり 4. 実験結果 –MFCCの類似度-
9 曲名 アーティスト 距離 新宝島 サカナクション 0.42 地獄でなぜ悪い 星野源 9.65 Face Down 嵐 9.71 アゲハ蝶 ポルノグラフィティ 9.99 君のために僕がいる 嵐 10.05
• サカナクション「新宝島」をクエリとした場合の類似歌声 – 考察 ・MFCCとほぼ同じ結果 4. 実験結果 –LPMCCの類似度- 10 曲名
アーティスト 距離 新宝島 サカナクション 0.59 Face Down 嵐 10.59 地獄でなぜ悪い 星野源 11.03 水星(Original mix) feat. オノマトペ大臣 tofubeats 11.15 君のために僕がいる 嵐 11.29
• sumika「ファンファーレ」をクエリ とした場合の類似歌声 – 考察 ・4位に女性アーティストが来ており、類似度を上手く捉えられていない ・一方、サンボマスターのような熱く太い歌声は似ている 4. 実験結果 –MFCCの類似度-
11 曲名 アーティスト 距離 輝きだして走ってく サンボマスター 4.40 エソラ Mr.Children 5.75 Sorry 清水翔太 7.20 Jupiter 平原綾香 7.84 Bon Voyage ONE OK ROCK 8.05
• sumika「ファンファーレ」をクエリとした場合の類似歌声 – 考察 ・MFCCと同じアーティストが並ぶ 4. 実験結果 –LPMCCの類似度- 12 曲名
アーティスト 距離 輝きだして走ってく サンボマスター 4.27 エソラ Mr.Children 7.00 Sorry 清水翔太 7.25 努努-ゆめゆめ- ONE OK ROCK 7.67 Jupiter 平原綾香 8.08
• 増田太郎が歌う「ファンファーレ」をクエリ とした場合 – 考察 ・1位であっても距離のスケールが大きく、特徴を上手く掴めていない ・Spleeterによるダウンサンプリングなど前処理を揃えるべきだったか ・重複や偏りの影響でユニークなアーティスト数が十分でなかった 4. 実験結果
–MFCCの類似度- 13 曲名 アーティスト 距離 クローバー 菅田将暉 12,075 アゲハ蝶 ポルノグラフィティ 12,122 180° 山猿 12,126 君こそスターだ サザンオールスターズ 12,136 One Love 嵐 12,137
• 増田太郎が歌う「ファンファーレ」をクエリとした場合の類似歌声 – 考察 ・問題点はMFCCで上げたことと同じ 4. 実験結果 –LPMCCの類似度- 14 曲名
アーティスト 距離 クローバー 菅田将暉 9,332 アゲハ蝶 ポルノグラフィティ 9,376 ロングホープ・フィリア 菅田将暉 9,384 Everything 嵐 9,385 君こそスターだ サザンオールスターズ 9,401
• 歌声の特徴に基づき楽曲の類似度を算出することで、 曲との新しい出会い方の実現性について実験した – Spleeterを利用することで歌声波形と伴奏の分離 – 分離された歌声波形をMFCC, LPMCCを用いて歌声特徴量に変換 • 今後の課題
– 歌声の別の特徴量抽出手法を取り入れた精度の改善 • ΔF0:ビブラートやこぶしなど、音高の時間変化の特徴 – 今回は声質のみで検索するという思惑がありスコープ外とした – いわしさんの下記の取り組みに、アドオンとして歌声類似度機能を追加したい • “今回作成した曲同士のデータをGraphデータに変換し,3D空間に作図して Web公開しようと思います.”, -ブログより引用 – https://fake-plastic-trees.hatenablog.jp/entry/2019/12/01/183713 • ユーザの歌唱をクエリとするための音声入力インタフェースの実装 5. まとめ 15