Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Whisperに耳をすませば
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Henry Cui
October 30, 2022
Technology
290
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Whisperに耳をすませば
Henry Cui
October 30, 2022
More Decks by Henry Cui
See All by Henry Cui
プロダクション言語モデルの情報を盗む攻撃 / Stealing Part of a Production Language Model
zchenry
1
250
Direct Preference Optimization
zchenry
0
460
Diffusion Model with Perceptual Loss
zchenry
0
520
レンズの下のLLM / LLM under the Lens
zchenry
0
230
Go with the Prompt Flow
zchenry
0
230
Mojo Dojo
zchenry
0
270
ことのはの力で画像の異常検知 / Anomaly Detection by Language
zchenry
0
720
驚愕の事実!LangChainが抱える問題 / Problems of LangChain
zchenry
0
320
MLOps初心者がMLflowを触る / MLflow Brief Introduction
zchenry
0
210
Other Decks in Technology
See All in Technology
AI-DLCを活用した高品質・安全なAI駆動開発実践 / AI Driven Development with AI-DLC
yoshidashingo
0
140
EventBridge Connection
_kensh
4
560
Claude Code×Terraform IaC テンプレート駆動開発
itouhi
1
340
Claude code Orchestra
ozakiomumkj
3
970
BigQuery の Cross-cloud Lakehouse への歩み
phaya72
2
550
Cloud Run のアップデート 触ってみる&紹介
gre212
0
320
SIer20年! 培ったスキルがスタートアップで輝く時
shucho0103
0
420
個人最適 から 全体最適 へ AI情報共有会・AIギルド・AI-DLC で進める カンリーの組織展開
rfdnxbro
0
1.6k
もりもり新機能を一挙紹介! AgentCoreに入門して、AWS上にAIエージェントを構築しよう
minorun365
PRO
6
820
OCI Oracle AI Database Services新機能アップデート(2026/03-2026/05)
oracle4engineer
PRO
0
220
Dario Amodi『Policy on the AI Exponential』を理解する
nagatsu
0
190
Dynamic Workersについて
yusukebe
2
590
Featured
See All Featured
Music & Morning Musume
bryan
47
7.2k
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
160
So, you think you're a good person
axbom
PRO
2
2.1k
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
62
54k
The Cult of Friendly URLs
andyhume
79
6.9k
Side Projects
sachag
455
43k
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
420
The agentic SEO stack - context over prompts
schlessera
0
790
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
190
HTML-Aware ERB: The Path to Reactive Rendering @ RubyCon 2026, Rimini, Italy
marcoroth
1
150
Exploring anti-patterns in Rails
aemeredith
3
390
Transcript
Whisperに耳をすませば 機械学習の社会実装勉強会第16回 Henry 2022/10/30
自己紹介 ▪ 東京大学理学部情報科学科 ▪ 同大学大学院情報理工学系研究科コンピュター科学専攻 ▪ 博士(情報理工学)取得 • ICMLなどの国際・国内学会・ジャーナルに論文発表 •
学振DC2・理研AIPセンター研究パートタイマー • AIPチャレンジなどの競争的研究費取得・外国大学への訪問 ▪ 在学中に株式会社パンハウスを共同創業 2
内容 ▪ Whisperとは ▪ 誰でも試せるデモ ▪ Whisperを使ったアプリケーション 3
Whisperは音声認識モデル Whisperは最近OpenAIがオープンソースした音声認識モデル で、学習済み重みも公開されている 特徴は以下三つ ▪ シンプルなEnd-to-end Transformerベースのモデル ▪ 膨大な教師つき学習データ ▪
多タスクで訓練されて、多タスクを遂行できる 4
Whisperのモデル構造 ▪ シンプルな End-to-end モデル ▪ Transformerベース ▪ 多タスク対応のため、タスクを指定するトークンがある 5
Whisperが学習したデータ ▪ 膨大かつ教師つきのデータセットを使うのは初 • 既存手法は、少ない教師つきデータか、膨大な教師なしデータでしか 学習できていない ▪ 総計68万時間(約78年)になる • 従来使われる教師つきデータのおよそ10倍のサイズ
• データ増しによる性能改善の余地はまだある(scaling law) ▪ 三分の一が非英語 • 公式ブログではスペイン語・韓国語の認識例が挙げられている • もちろん日本語音声も認識可能 • 99言語に対応との紹介も ▪ Zero-shotで頑丈性を評価 6
Whisperが遂行できるタスク ▪ 公式ブログによると、以下のタスクが遂行できる • 言語認識 ▪ 与えれた音声の言語を答える • フレーズのタイムスタンプ ▪
音声にある各フレーズのタイムスタンプを答える • 多言語スピーチ文字起こし ▪ 音声にある言語そのままの文字起こし • スピーチの英語翻訳 ▪ 音声にある言語を英語に翻訳した文字起こし ▪ ほとんどの音声・文字に関わるアプリケーションをカバー 7
内容 ▪ Whisperとは ▪ 誰でも試せるデモ ▪ Whisperを使ったアプリケーション 8
Webページとコマンドラインツール ▪ https://huggingface.co/spaces/openai/whisper ▪ pip install git+https://github.com/openai/whisper.git でイン ストールすれば、whisper audio.mp3
--model medium のよう に推論できる ▪ HuggingFaceの一つのモデルとしても使える 9
内容 ▪ Whisperとは ▪ 誰でも試せるデモ ▪ Whisperを使ったアプリケーション 10
YouWhisper ▪ Youtube動画の自動字幕生成 ▪ https://huggingface.co/spaces/sensahin/YouWhisper ▪ ソースコードなどのファイルも参照可能 11
Podcastの文字起こし ▪ https://twitter.com/1littlecoder/status/15744743569225400 32 12
日本語アクセントの英語も ▪ https://twitter.com/sleepy_yoshi/status/157371909458654 8224 13
スペイン語の歌も行ける ▪ https://twitter.com/eoteromuras/status/1573009151600508 939 14
一方で精度が高くない言語もある ▪ https://twitter.com/silasmorkgard/status/15735939518268 45696 15
DeepLと組んでより流暢な日本語に ▪ https://twitter.com/Taro32546/status/15772600919332167 69 16
無音の場合にはまだ弱い ▪ https://twitter.com/smly/status/1581663054366138368 ▪ 短く切れば回避できる 17
古い映画の字幕を作ってみたら酷かった ▪ https://blog.takuya-andou.com/entry/youtube_whisper3 18
まとめ ▪ OpenAIのWhisperモデルは膨大な学習データのおかげで、 多数のタスクで高性能を達成した ▪ 無音やマイナー言語などの場合にはまだ弱い時がある ▪ アプリケーションが多く展望される 19