Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Whisperに耳をすませば
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Henry Cui
October 30, 2022
Technology
290
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Whisperに耳をすませば
Henry Cui
October 30, 2022
More Decks by Henry Cui
See All by Henry Cui
プロダクション言語モデルの情報を盗む攻撃 / Stealing Part of a Production Language Model
zchenry
1
260
Direct Preference Optimization
zchenry
0
470
Diffusion Model with Perceptual Loss
zchenry
0
520
レンズの下のLLM / LLM under the Lens
zchenry
0
230
Go with the Prompt Flow
zchenry
0
230
Mojo Dojo
zchenry
0
270
ことのはの力で画像の異常検知 / Anomaly Detection by Language
zchenry
0
720
驚愕の事実!LangChainが抱える問題 / Problems of LangChain
zchenry
0
330
MLOps初心者がMLflowを触る / MLflow Brief Introduction
zchenry
0
210
Other Decks in Technology
See All in Technology
自作お家AIエージェントスタックチャンFWで困っている所紹介
74th
0
160
When Platform Engineering Meets GenAI
sucitw
0
200
秘密度ラベル初心者が第1歩でつまづかないための「設計・運用」ポイント
seafay
PRO
1
520
なぜ人は自分のプロジェクトを 「なんちゃってアジャイル」と 自嘲するのか
kozotaira
0
160
そこにあるから地図ができる~位置を示す"モノ"を愉しむ~ - Interface 2026年6月号GPS特集オフ会 / interface_202606_GPS_offline
sakaik
1
120
Hatena Engineer Seminar 37 jj1uzh
jj1uzh
0
210
AWS Summit Japan 2026の振り返りと2027へ向けて / AWS Summit Japan 2026 Recap and Prospects for 2027
kaminashi
1
100
飲食店もAIで。レジ締めやハンディシステムをつくってる話 / Using AI for restaurant management
vtryo
0
210
アラート調査向けAIエージェントの本番導入とその後/AI Agents for Alert Investigation: Production Deployment and After
taddy_919
1
260
AWS Security Hub CSPMの成功・失敗体験
cmusudakeisuke
0
590
Fabricをフル活用する AI Agent Hub -製造業特化AIエージェントの設計
iotcomjpadmin
0
160
テスト設計の本質を改めて考えてみる~生成AIを活用する時代だからこそ、作ったテストの説明性を高めよう~
yamasaki696
1
160
Featured
See All Featured
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
62
44k
Designing Powerful Visuals for Engaging Learning
tmiket
1
430
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
220
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.4k
Building AI with AI
inesmontani
PRO
1
1.1k
Impact Scores and Hybrid Strategies: The future of link building
tamaranovitovic
0
320
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
340
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
2
1.5k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
25k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
3.5k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
550
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
330
Transcript
Whisperに耳をすませば 機械学習の社会実装勉強会第16回 Henry 2022/10/30
自己紹介 ▪ 東京大学理学部情報科学科 ▪ 同大学大学院情報理工学系研究科コンピュター科学専攻 ▪ 博士(情報理工学)取得 • ICMLなどの国際・国内学会・ジャーナルに論文発表 •
学振DC2・理研AIPセンター研究パートタイマー • AIPチャレンジなどの競争的研究費取得・外国大学への訪問 ▪ 在学中に株式会社パンハウスを共同創業 2
内容 ▪ Whisperとは ▪ 誰でも試せるデモ ▪ Whisperを使ったアプリケーション 3
Whisperは音声認識モデル Whisperは最近OpenAIがオープンソースした音声認識モデル で、学習済み重みも公開されている 特徴は以下三つ ▪ シンプルなEnd-to-end Transformerベースのモデル ▪ 膨大な教師つき学習データ ▪
多タスクで訓練されて、多タスクを遂行できる 4
Whisperのモデル構造 ▪ シンプルな End-to-end モデル ▪ Transformerベース ▪ 多タスク対応のため、タスクを指定するトークンがある 5
Whisperが学習したデータ ▪ 膨大かつ教師つきのデータセットを使うのは初 • 既存手法は、少ない教師つきデータか、膨大な教師なしデータでしか 学習できていない ▪ 総計68万時間(約78年)になる • 従来使われる教師つきデータのおよそ10倍のサイズ
• データ増しによる性能改善の余地はまだある(scaling law) ▪ 三分の一が非英語 • 公式ブログではスペイン語・韓国語の認識例が挙げられている • もちろん日本語音声も認識可能 • 99言語に対応との紹介も ▪ Zero-shotで頑丈性を評価 6
Whisperが遂行できるタスク ▪ 公式ブログによると、以下のタスクが遂行できる • 言語認識 ▪ 与えれた音声の言語を答える • フレーズのタイムスタンプ ▪
音声にある各フレーズのタイムスタンプを答える • 多言語スピーチ文字起こし ▪ 音声にある言語そのままの文字起こし • スピーチの英語翻訳 ▪ 音声にある言語を英語に翻訳した文字起こし ▪ ほとんどの音声・文字に関わるアプリケーションをカバー 7
内容 ▪ Whisperとは ▪ 誰でも試せるデモ ▪ Whisperを使ったアプリケーション 8
Webページとコマンドラインツール ▪ https://huggingface.co/spaces/openai/whisper ▪ pip install git+https://github.com/openai/whisper.git でイン ストールすれば、whisper audio.mp3
--model medium のよう に推論できる ▪ HuggingFaceの一つのモデルとしても使える 9
内容 ▪ Whisperとは ▪ 誰でも試せるデモ ▪ Whisperを使ったアプリケーション 10
YouWhisper ▪ Youtube動画の自動字幕生成 ▪ https://huggingface.co/spaces/sensahin/YouWhisper ▪ ソースコードなどのファイルも参照可能 11
Podcastの文字起こし ▪ https://twitter.com/1littlecoder/status/15744743569225400 32 12
日本語アクセントの英語も ▪ https://twitter.com/sleepy_yoshi/status/157371909458654 8224 13
スペイン語の歌も行ける ▪ https://twitter.com/eoteromuras/status/1573009151600508 939 14
一方で精度が高くない言語もある ▪ https://twitter.com/silasmorkgard/status/15735939518268 45696 15
DeepLと組んでより流暢な日本語に ▪ https://twitter.com/Taro32546/status/15772600919332167 69 16
無音の場合にはまだ弱い ▪ https://twitter.com/smly/status/1581663054366138368 ▪ 短く切れば回避できる 17
古い映画の字幕を作ってみたら酷かった ▪ https://blog.takuya-andou.com/entry/youtube_whisper3 18
まとめ ▪ OpenAIのWhisperモデルは膨大な学習データのおかげで、 多数のタスクで高性能を達成した ▪ 無音やマイナー言語などの場合にはまだ弱い時がある ▪ アプリケーションが多く展望される 19