Whisperに耳をすませば

Whisperに耳をすませば機械学習の社会実装勉強会第16回 Henry 2022/10/30

自己紹介 ▪ 東京大学理学部情報科学科 ▪ 同大学大学院情報理工学系研究科コンピュター科学専攻 ▪ 博士（情報理工学）取得 • ICMLなどの国際・国内学会・ジャーナルに論文発表 •
学振DC2・理研AIPセンター研究パートタイマー • AIPチャレンジなどの競争的研究費取得・外国大学への訪問 ▪ 在学中に株式会社パンハウスを共同創業 2

内容 ▪ Whisperとは ▪ 誰でも試せるデモ ▪ Whisperを使ったアプリケーション 3

Whisperは音声認識モデル Whisperは最近OpenAIがオープンソースした音声認識モデルで、学習済み重みも公開されている特徴は以下三つ ▪ シンプルなEnd-to-end Transformerベースのモデル ▪ 膨大な教師つき学習データ ▪
多タスクで訓練されて、多タスクを遂行できる 4

Whisperのモデル構造 ▪ シンプルな End-to-end モデル ▪ Transformerベース ▪ 多タスク対応のため、タスクを指定するトークンがある 5

Whisperが学習したデータ ▪ 膨大かつ教師つきのデータセットを使うのは初 • 既存手法は、少ない教師つきデータか、膨大な教師なしデータでしか学習できていない ▪ 総計68万時間（約78年）になる • 従来使われる教師つきデータのおよそ10倍のサイズ
• データ増しによる性能改善の余地はまだある(scaling law) ▪ 三分の一が非英語 • 公式ブログではスペイン語・韓国語の認識例が挙げられている • もちろん日本語音声も認識可能 • 99言語に対応との紹介も ▪ Zero-shotで頑丈性を評価 6

Whisperが遂行できるタスク ▪ 公式ブログによると、以下のタスクが遂行できる • 言語認識 ▪ 与えれた音声の言語を答える • フレーズのタイムスタンプ ▪
音声にある各フレーズのタイムスタンプを答える • 多言語スピーチ文字起こし ▪ 音声にある言語そのままの文字起こし • スピーチの英語翻訳 ▪ 音声にある言語を英語に翻訳した文字起こし ▪ ほとんどの音声・文字に関わるアプリケーションをカバー 7

Webページとコマンドラインツール ▪ https://huggingface.co/spaces/openai/whisper ▪ pip install git+https://github.com/openai/whisper.git でインストールすれば、whisper audio.mp3
--model medium のように推論できる ▪ HuggingFaceの一つのモデルとしても使える 9

YouWhisper ▪ Youtube動画の自動字幕生成 ▪ https://huggingface.co/spaces/sensahin/YouWhisper ▪ ソースコードなどのファイルも参照可能 11

Podcastの文字起こし ▪ https://twitter.com/1littlecoder/status/15744743569225400 32 12

日本語アクセントの英語も ▪ https://twitter.com/sleepy_yoshi/status/157371909458654 8224 13

スペイン語の歌も行ける ▪ https://twitter.com/eoteromuras/status/1573009151600508 939 14

一方で精度が高くない言語もある ▪ https://twitter.com/silasmorkgard/status/15735939518268 45696 15

DeepLと組んでより流暢な日本語に ▪ https://twitter.com/Taro32546/status/15772600919332167 69 16

無音の場合にはまだ弱い ▪ https://twitter.com/smly/status/1581663054366138368 ▪ 短く切れば回避できる 17

古い映画の字幕を作ってみたら酷かった ▪ https://blog.takuya-andou.com/entry/youtube_whisper3 18

まとめ ▪ OpenAIのWhisperモデルは膨大な学習データのおかげで、多数のタスクで高性能を達成した ▪ 無音やマイナー言語などの場合にはまだ弱い時がある ▪ アプリケーションが多く展望される 19

Whisperに耳をすませば

Whisperに耳をすませば

Henry Cui

More Decks by Henry Cui

Other Decks in Technology

Featured

Transcript