Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Introduction to works of Data Scientist in LY C...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
LINEヤフー株式会社 採用情報
November 24, 2024
Technology
0
300
Introduction to works of Data Scientist in LY Corporation
LINEヤフー株式会社 採用情報
November 24, 2024
Tweet
Share
More Decks by LINEヤフー株式会社 採用情報
See All by LINEヤフー株式会社 採用情報
ソーシャルコマース統括本部 PdM,TPMのお仕事紹介
lycorp_recruit_jp
1
300
LINEヤフー デザイナー紹介資料/Introduction for Designer
lycorp_recruit_jp
0
490
LINEヤフー CISO管掌 組織説明資料
lycorp_recruit_jp
0
1.3k
コーポレートビジネスカンパニー組織説明資料
lycorp_recruit_jp
0
22k
Company Introduction_English
lycorp_recruit_jp
0
33k
Introduction for Engineer_English
lycorp_recruit_jp
0
210
Yahoo! メディアサービスにおけるデ ータ利活用基盤開発 (バックエンド)
lycorp_recruit_jp
1
4.4k
Yahoo!不動産における開発体制
lycorp_recruit_jp
0
1k
LINEヤフー サービスインフラグループ紹介
lycorp_recruit_jp
1
34k
Other Decks in Technology
See All in Technology
Agent ServerはWeb Serverではない。ADKで考えるAgentOps
akiratameto
0
110
猫でもわかるKiro CLI(AI 駆動開発への道編)
kentapapa
0
240
身体を持ったパーソナルAIエージェントの 可能性を探る開発
yokomachi
1
130
AIエージェント、 社内展開の前に知っておきたいこと
oracle4engineer
PRO
2
140
AI実装による「レビューボトルネック」を解消する仕様駆動開発(SDD)/ ai-sdd-review-bottleneck
rakus_dev
0
150
社内レビューは機能しているのか
matsuba
0
140
DevOpsエージェントで実現する!! AWS Well-Architected(W-A) を実現するシステム設計 / 20260307 Masaki Okuda
shift_evolve
PRO
3
890
クラウド × シリコンの Mashup - AWS チップ開発で広がる AI 基盤の選択肢
htokoyo
2
260
JAWSDAYS2026 [C02] 楽しく学ぼう!AWSとは?AWSの歴史 入門
hiragahh
0
170
20260311 ビジネスSWG活動報告(デジタルアイデンティティ人材育成推進WG Ph2 活動報告会)
oidfj
0
340
visionOS 開発向けの MCP / Skills をつくり続けることで XR の探究と学習を最大化
karad
1
240
JAWS FESTA 2025でリリースしたほぼリアルタイム文字起こし/翻訳機能の構成について
naoki8408
1
630
Featured
See All Featured
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
Practical Orchestrator
shlominoach
191
11k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
310
The Curse of the Amulet
leimatthew05
1
10k
What does AI have to do with Human Rights?
axbom
PRO
1
2k
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.1k
Designing for humans not robots
tammielis
254
26k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
270
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.2k
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
3.7k
How to build a perfect <img>
jonoalderson
1
5.3k
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
220
Transcript
© LY Corporation Introduction to works of Date Scientist in
LY Corporation DS統括本部 4本部 宗像 北斗 / Munakata Hokuto 1
© LY Corporation 宗像 北斗 (Munakata Hokuto) ~2023 : 大阪大学
工学研究科 駒谷研究室 - 音源分離の研究 2023~ : LINE株式会社 ASPチーム - 音楽情報処理の研究開発 2023/10~ : LINEヤフー株式会社 4本部 - 動画解析 / 音楽情報処理の研究開発 普段京都オフィスにいます 趣味: ・ギター,ライブ鑑賞 (ロック,パンク,メタル,シューゲイザー…) ・飲み会 (あんまり飲めない) ・良い紅茶 2 自己紹介 DCASE 2024(品川)にて
© LY Corporation 所属チームでの仕事 音楽情報処理 / 動画解析にまつわる研究開発 音楽情報処理:LINE MUSICなどの楽曲を扱うコンテンツのUX改善 ・歌唱者ダイアライゼーション
・動画を入力とした楽曲推薦 ・楽曲タギング 動画解析:スポーツナビなどの動画コンテンツの検索システムや動画広告の審査自動化 ・テキストクエリを用いたオーディオクリップ検索 ・テキストクエリを用いたオーディオの区間検索 ・マルチモーダル (Text, Image, Video, Audio) 基盤モデル 研究・開発どちらもやってます! 国際会議/論文誌投稿,OSSライブラリ開発,サービス向けツール開発
© LY Corporation 歌唱者ダイアライゼーション 複数人歌唱楽曲でどのタイミングで誰が歌っているか予測 応用先:LINE MUSICのUX向上 (歌詞表示,カラオケ機能) 従来:ボーカル抽出技術と話者(=対話音声)ダイアライゼーション技術の組み合わせ 課題:歌唱者ダイアライゼーションの学習データのアノテーションは高コスト
提案:大規模な楽曲データと音声変換モデルを組み合わせた合成データ生成法を提案! ☺ 企業ならではの大規模データ,音声合成チームとの連携 結果:大幅な性能改善 (ダイアライゼーション誤り率: 38.2% → 23.4%),国際会議採択! Diarization model Vocal extraction Singer labels Singer B A Time ♡~~~~~ ♧~~~~~
© LY Corporation テキストクエリを用いたオーディオの区間検索 長いオーディオから特定のイベントが含まれる区間を検索したい 応用先:スポーツ動画の自動ハイライト集生成,広告の自動審査 従来:事前に短く分割されたオーディオクリップの検索システムしかない 提案:コンピュータビジョンで扱われる動画に対する区間検索を応用,タスク整備 ☺ CVをバックグラウンドに持つメンバーと協力して新データセット,モデル提案
結果:単純なベースラインに比べて性能改善 (avg.mAP: 57.0→67.8),国際会議投稿中! Input long audio Input text query Freq.[kHz] 0 16 0 10 20 30 50 40 60 Time [second] 44s 16s Output audio moment Audio moment retrieval ”Spectators watch sports and cheer.” [16s, 44s]
© LY Corporation マルチモーダル基盤モデルの開発 日本語版Text-Image基盤モデルの拡張 目標:現状の基盤モデルに新たなモーダル(Video/Audioなど)を追加 (https://techblog.lycorp.co.jp/ja/20240514bにてText-image基盤モデルの詳細公開中!) 応用先:動画クリップに対する検索,自動タギング 現在進行中! ・日本語版の学習
/ 評価データ収集中 ・大規模学習に向けた環境構築 マルチモーダルなユーザクエリ マルチモーダルな出力 Audio Video Text Audio Video Text
© LY Corporation 1日の流れ ケース1 10:00-11:00 ミーティング 研究の進捗報告,アイデア出し 11:00-14:00 論文読み/資料作成/雑務
合間にお昼ご飯 14:00-15:00 全体定例 事業部との連携や 全社的な動きについて周知 15:00-18:45 論文読み/実験・実装/資料作成 日によってさまざま ミーティングが少ない夕方の方が コーディングに集中できる ケース2 10:00-15:00 論文執筆 締切前はとにかく書く 15:00-16:00 研究について1on1 行き詰まったらメンバーに相談 16:00-20:00 実験 論文を補強するための実験 集中モード
© LY Corporation