慶應義塾大学機械学習基礎10 応用と評価

情報工学科教授杉浦孔明 [email protected] 慶應義塾大学理工学部機械学習基礎第１０回応用と評価

機械学習における評価尺度 - - 4

Superhuman：人間を凌駕する機械知能チャンピオンを超えた例チェス（1997）、Jeopardy!（クイズ, 2011）、囲碁（2017）、グランツーリスモ（ゲーム, 2022）平均的な人と同等以上の例機械翻訳、音声合成、ImageNet（1000カテゴリの物体認識）
[Park+ 2017] Tacotron 2 https://www.itmedia.co.jp/news/articles/1705/25/news103.html

アンケート：以下について、自由に答えてください - - 6 ▪ 同じ応用タスク（機械翻訳、顔画像生成、…）に対し、様々な手法があることは珍しくない ▪ 「手法Aは手法Bより性能が良い/悪い」とユーザとして思うことがあ
るが、どうしてそう思うのか？良い・悪いの違いは何か？

評価尺度の選び方の観点既存 vs 新規 - - 7 ▪ 既存の標準的尺度があれば、その尺度で評価すべき
▪ 新規タスクでは自ら提案することもある

評価尺度の選び方の観点自動評価 vs 手動評価 - - 8 ▪ 既存の標準的尺度があれば、その尺度で評価すべき
▪ 新規タスクでは自ら提案することもある ▪ 自動評価尺度 ▪ 評価サイクルを高速に実行できる ▪ 手動評価尺度（例：被験者に点数付けを依頼） ▪ 簡便 ▪ 評価に時間がかかるため継続的改善が困難

機械学習における代表的評価尺度 - - 9 ▪ 汎用的な評価尺度 ▪ 精度、適合率、再現率、F値 ▪ 平均二乗誤差、平均二乗平方根誤差、平均絶対誤差
▪ 計算量（速度）、メモリ使用量 ▪ 分野別の評価尺度 ▪ 単語誤り率（音声認識）、perplexity（言語モデル）、BLEU（機械翻訳）、FID（画像生成）

分類問題における混同行列の例 - - 10 ▪ ラベルが「正」or「負」の分類問題において、以下の結果が得られたとするラベル正負
予測正 40 15 負 5 40

混同行列（confusion matrix） - - 11 ▪ True positive (TP)：予測もラベルも正
▪ True negative (TN)：予測もラベルも負 ▪ False positive (FP)：予測は正だったが、ラベルは負 ↑予測を誤ったpositive ▪ False negative (FN)：予測は負だったが、ラベルは正ラベル正負予測正 TP (True positive) FP (False positive) 負 FN (False negative) TN (True negative)

適合率と再現率 - - 12 ▪ 適合率（precision） ▪ 予測が正であるもののうち、ラベルが正であるものの割合 ▪
再現率（recall） ▪ ラベルが正であるもののうち、予測が正であるものの割合 ▪ 全部取ってくれば再現率は１ ▪ Precision = 45/55 = 81.8% ▪ Recall = 45/50 = 90% ラベル正負予測正 45 10 負 5 40

適合率と再現率のトレードオフ - - 13 ▪ 適合率（precision） ▪ 予測が正であるもののうち、ラベルが正であるものの割合 ▪
再現率（recall） ▪ ラベルが正であるもののうち、予測が正であるものの割合 ▪ 全部取ってくれば再現率は ▪ 適合率だけを上げるなら、自信があるサンプルを１つだけ予測すればよいことになってしまう ▪ 再現率だけを上げるなら、全サンプルを正と予測すればよいことになってしまう ▪ 適合率と再現率はトレードオフの関係

精度とF値 - - 14 ▪ 精度（accuracy） ▪ 合っている予測の割合 ▪ F値（F-measure,
score） ▪ 適合率と再現率の調和平均 ▪ Accuracy = 85/100 = 85% ▪ F1 = 2x81.8x90/(81.8+90) = 0.857 ラベル正負予測正 45 10 負 5 40

回帰問題における代表的尺度 - - 15 ▪ 平均二乗誤差（mean squared error, MSE) ▪
平均二乗平方根誤差（root mean squared error, RMSE） ▪ 平均絶対誤差（mean absolute error, MAE）

よくある疑問 - - 16 Q1. Superhumanを達成した機械学習手法によって、人間が働く必要は無くなってしまうのか？ ▪ 機械学習はツールであって、全仕事を代替する万能な存在ではない ▪
「ツールを使いこなして、人がどう判断するか」が重要 ▪ 例：旅行時の音声翻訳、棋士の練習、人機協調による予測 Q2. 機械学習は「人のような解き方」で問題を解くべきではないか？ ▪ 「人のような解き方」は生物学的に未解明なので定義できない ▪ 仮に「人のような解き方」を模倣しても性能が悪ければ社会にインパクトを与えない（冬の時代の反省）

深層学習の応用 - - 21

応用事例の紹介 - - 22 以降では、深層学習の応用に関して押さえておくべきタスクやモデルを紹介する ▪ コンピュータビジョン ▪ 音声言語処理・自然言語処理
▪ マルチモーダル学習

コンピュータビジョン - - 23

物体検出手法の代表例① Single shot multibox detection - - 24 ▪ YOLO[Redmon+
2015], SSD [Liu+ 2015] 物体を囲む領域（bounding box）を予測

物体検出手法の代表例② - - 25 ▪ R-CNN(region-based CNN)[Girshick+ 2014], Faster R-CNN[Ren+
2015] ▪ 最近ではTransformer型（DETR[Carion+ 2020]等）が増えている ▪ ３年生の知能ロボティクス実験で扱う https://github.com/open-mmlab/mmdetection 上記では、物体検出モデルが簡単に使えるようになっている

セマンティックセグメンテーション手法の代表例 - - 26 ▪ Mask R-CNN [He+ 2017] ▪
画素ごとに分類を行う https://github.com/facebookresearch/detectron2

姿勢推定手法の代表例① - - 27 ▪ OpenPose [Cao+ 2017] https://github.com/CMU-Perceptual-Computing-Lab/openpose

姿勢推定手法の代表例② - - 28 ▪ DensePose [Güler+ 2018] https://github.com/facebookresearch/detectron2/blob/main/projects/DensePose/doc/DENSEPOSE_CSE.md

光学文字認識（OCR; Optical character recognition） - - 29 ▪ 1933年にPaul Handelが米国で
特許を取得 ▪ 現代ではスマートフォン上でも可能 https://cloud.google.com/vision/docs/drag-and-drop?hl=ja

音声言語処理・自然言語処理 - - 30

音声翻訳のしくみ - - 31 音声認識 (speech recognition) 音声→テキスト機械翻訳 (machine
translation) テキスト→テキスト音声合成 (speech synthesis) テキスト→音声日本語テキスト駅はどこですか日本語音声英語テキスト Where is the station? 英語音声学習済モデル日本語音声・言語コーパス日英対訳コーパス英語音声・言語コーパス学習済モデル学習済モデル事前に学習事前に学習事前に学習 VoiceTra 言語に関するデータセット

音声認識手法の代表例① - - 33 ▪ 古典的手法 ▪ 隠れマルコフモデル（HMM, 1980s-） ▪
観測確率：混合ガウス分布 ▪ 状態遷移：マルコフ過程 ▪ DNN-HMM [Dhal+ 2011] ▪ 観測確率：DNN ▪ 状態遷移：マルコフ過程 [Dhal+ 2011]

音声認識手法の代表例② CTC [Hannun+ 2014] - - 34 ▪ 深層学習時代より前に提案 [Graves
2006] ▪ フレームごとにトークン（文字）を予測 ▪ トークンが繰り返されていたら統合 ▪ （深層学習時代に再注目され）大規模音声認識へ適用 [Hannun+ 2014] https://ratsgo.github.io/speechbook/docs/neuralam/ctc 空白文字

機械翻訳手法の代表例 - - 35 ▪ 古典的手法 ▪ IBM models (1980s-)等
▪ RNN [Kalchbrenner+ 2013] [Cho+ 2014] ▪ DNNを用いた機械翻訳としてニューラル翻訳（Neural Machine Translation）という呼称が定着 ▪ トランスフォーマー[Vaswani+ 2017]

音声合成手法の代表例： WaveNet [van den Oord+ 2016b] - - 36 ▪
PixelRNN [van den Oord+ 2016a] ▪ 画素を系列として予測するモデル（同じ著者） ▪ PixelRNNを音声に適用し、自己回帰的に系列を予測

音声合成手法の評価： Mean opinion score (MOS) https://towardsdatascience.com/state-of-the-art-of-speech-synthesis-at-the-end-of-may-2021-6ace4fd512f2 Ground Truth 24kHz Year
[Shen+ 2017] MOS

マルチモーダル学習 - - 38

マルチモーダル学習（multimodal learning）の歴史 - - 39 ▪ 複数のモダリティ（modality）を扱う ▪ 例：画像、音声、テキスト、センサ ▪
古典的機械学習手法では小規模問題しか扱えなかった⇔2015年以降近年成長が著しい ▪ マルチモーダル言語処理 ▪ 実世界と言語の関係を扱う ▪ 多層的な関係を持つ挑戦的な課題（省略、意図等） SHRDLU [Winograd 1970s] Microsoft

マルチモーダル言語処理のサブ分野：理解と生成 - - 40 マルチモーダル言語理解タスク ▪ Visual Question Answering
(VQA) ▪ 参照表現理解 ▪ Image-text matching [Wang+ 2017] マルチモーダル言語生成タスク ▪ 画像キャプショニング、video captioning ▪ Text-to-image ▪ Visual dialog [Das+ 2016][Alayrac+, 2022]

画像キャプショニングの代表例： Show and tell [Vinayls+ 2015] - - 41 ▪
CNNを用いて画像を潜在表現（latent representation）に変換 ▪ RNNを用いてテキストを生成画像の「意味」「屋外の市場で買い物をする人達。果物売り場には多くの野菜が並んでいる。」

VQAの代表例： [Agrawal+ 2015] - - 42 ▪ VGGを用いて画像を潜在表現に変換 ▪ LSTMを用いて質問を潜在表現に変換
後段で統合「画像中に馬は何頭いますか？」「２頭」

CLIP [Radford+ 2021] - - 43 ▪ ウェブから収集された4億組の画像・テキストを使用 ▪ 正しい画像とテキストの組を予測できるように学習
▪ 他のモデルに組み込まれていることが多い N=e.g. 400M N=e.g. 400M

2022年、マルチモーダル言語処理が爆発的に拡大① Text-to-image ▪ DALL·E 2 [Aditya (OpenAI) + 2022/4] ▪
Imagen [Chitwan (Google)+ 2022/05]

2022年、マルチモーダル言語処理が爆発的に拡大② Text-to-image - - 45 ▪ Parti（2022/6） https://parti.research.google/ ▪ Stable
Diffusion（2022/6） ▪ 実習

応用分野の現状 - - 46 ▪ ２０代が活躍 ↑深層学習手法をコーディングできる４０代以上は少ない ▪ 多様なユーザに使われる技術に
なったものの、作り手の多様性が不十分 多様な人材が求められている

応用分野の今後 - - 47 ▪ ２０代が活躍 ↑深層学習手法をコーディングできる４０代以上は少ない ▪ 多様なユーザに使われる技術に
なったものの、作り手の多様性が不十分 多様な人材が求められている ▪ 冬の時代が再来するのか？ ▪ 第２次AIブームまでと異なり、応用との結びつきが強い 他の基幹産業と同様、安定すると予想される N年後を予測する正しい目利きが重要

本講義全体の参考図書 - - 48 ▪ ★機械学習スタートアップシリーズこれならわかる深層学習入門瀧雅人著講談社（本講義では、異なる表記を用いることがあるので注意）
▪ ★Dive into Deep Learning (https://d2l.ai/) ▪ 深層学習改訂第2版 (機械学習プロフェッショナルシリーズ) 岡谷貴之著講談社 ▪ ディープラーニングを支える技術岡野原大輔著技術評論社 ▪ 画像認識 (機械学習プロフェッショナルシリーズ) 原田達也著講談社 ▪ 深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ) 坪井祐太、海野裕也、鈴木潤著、講談社 ▪ IT Text 自然言語処理の基礎岡﨑直観、荒瀬由紀、鈴木潤、鶴岡慶雅、宮尾祐介著、オーム社 ▪ 東京大学工学教程情報工学機械学習中川裕志著、東京大学工学教程編纂委員会編丸善出版 ▪ パターン認識と機械学習上・下 C.M. ビショップ著丸善出版

参考文献 - - 49 1. Graves, A., Fernández, S., Gomez,
F., & Schmidhuber, J. (2006, June). Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the 23rd international conference on Machine learning (pp. 369-376). 2. Dahl, G. E., Yu, D., Deng, L., & Acero, A. (2011). Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition. IEEE Transactions on audio, speech, and language processing, 20(1), 30-42. 3. Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G., Elsen, E., ... & Ng, A. Y. (2014). Deep speech: Scaling up end-to-end speech recognition. arXiv preprint arXiv:1412.5567. 4. Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 580-587). 5. Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and tell: A neural image caption generator. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3156-3164). 6. Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in neural information processing systems, 28, 91-99. 7. Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., ... & Dean, J. (2016). Google's neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144. 8. Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y., & Berg, A. C. (2016, October). Ssd: Single shot multibox detector. In European conference on computer vision (pp. 21-37). Springer, Cham.

参考文献 - - 50 1. Redmon, J., Divvala, S., Girshick,
R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788). 2. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. In Advances in neural information processing systems (pp. 5998-6008). 3. 神田直之. (2017). 音声認識における深層学習に基づく音響モデル. 日本音響学会誌, 73(1), 31-38. 4. Cao, Z., Simon, T., Wei, S. E., & Sheikh, Y. (2017). Realtime multi-person 2d pose estimation using part affinity fields. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7291- 7299). 5. Güler, R. A., Neverova, N., & Kokkinos, I. (2018). Densepose: Dense human pose estimation in the wild. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7297-7306). 6. Irie, K., Zeyer, A., Schlüter, R., & Ney, H. (2019). Language modeling with deep transformers. arXiv preprint arXiv:1905.04226. 7. Neverova, N., Novotny, D., Khalidov, V., Szafraniec, M., Labatut, P., & Vedaldi, A. (2020). Continuous surface embeddings. arXiv preprint arXiv:2011.12438. 8. Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., & Zagoruyko, S. (2020, August). End-to-end object detection with transformers. In European Conference on Computer Vision (pp. 213-229). Springer, Cham.

慶應義塾大学 機械学習基礎10 応用と評価

慶應義塾大学 機械学習基礎10 応用と評価

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾大学機械学習基礎10 応用と評価

慶應義塾大学機械学習基礎10 応用と評価