Upgrade to Pro — share decks privately, control downloads, hide ads and more …

慶應義塾大学 機械学習基礎10 応用と評価

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

慶應義塾大学 機械学習基礎10 応用と評価

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 評価尺度の選び方の観点 自動評価 vs 手動評価 - - 8 ▪ 既存の標準的尺度があれば、そ の尺度で評価すべき

    ▪ 新規タスクでは自ら提案するこ ともある ▪ 自動評価尺度 ▪ 評価サイクルを高速に実行 できる ▪ 手動評価尺度(例:被験者に点 数付けを依頼) ▪ 簡便 ▪ 評価に時間がかかるため継 続的改善が困難
  2. 機械学習における代表的評価尺度 - - 9 ▪ 汎用的な評価尺度 ▪ 精度、適合率、再現率、F値 ▪ 平均二乗誤差、平均二乗平方根誤差、平均絶対誤差

    ▪ 計算量(速度)、メモリ使用量 ▪ 分野別の評価尺度 ▪ 単語誤り率(音声認識)、perplexity(言語モデル)、BLEU(機械 翻訳)、FID(画像生成)
  3. 混同行列(confusion matrix) - - 11 ▪ True positive (TP): 予測もラベルも正

    ▪ True negative (TN): 予測もラベルも負 ▪ False positive (FP): 予測は正だったが、ラベルは負 ↑予測を誤ったpositive ▪ False negative (FN): 予測は負だったが、ラベルは正 ラベル 正 負 予測 正 TP (True positive) FP (False positive) 負 FN (False negative) TN (True negative)
  4. 適合率と再現率 - - 12 ▪ 適合率(precision) ▪ 予測が正であるもののうち、 ラベルが正であるものの割合 ▪

    再現率(recall) ▪ ラベルが正であるもののうち、 予測が正であるものの割合 ▪ 全部取ってくれば再現率は1 ▪ Precision = 45/55 = 81.8% ▪ Recall = 45/50 = 90% ラベル 正 負 予測 正 45 10 負 5 40
  5. 適合率と再現率のトレードオフ - - 13 ▪ 適合率(precision) ▪ 予測が正であるもののうち、 ラベルが正であるものの割合 ▪

    再現率(recall) ▪ ラベルが正であるもののうち、 予測が正であるものの割合 ▪ 全部取ってくれば再現率は ▪ 適合率だけを上げるなら、自信 があるサンプルを1つだけ予測 すればよいことになってしまう ▪ 再現率だけを上げるなら、全サ ンプルを正と予測すればよいこ とになってしまう ▪ 適合率と再現率はトレードオフ の関係
  6. 精度とF値 - - 14 ▪ 精度(accuracy) ▪ 合っている予測の割合 ▪ F値(F-measure,

    score) ▪ 適合率と再現率の調和平均 ▪ Accuracy = 85/100 = 85% ▪ F1 = 2x81.8x90/(81.8+90) = 0.857 ラベル 正 負 予測 正 45 10 負 5 40
  7. 回帰問題における代表的尺度 - - 15 ▪ 平均二乗誤差(mean squared error, MSE) ▪

    平均二乗平方根誤差(root mean squared error, RMSE) ▪ 平均絶対誤差(mean absolute error, MAE)
  8. よくある疑問 - - 16 Q1. Superhumanを達成した機械学習手法によって、人間が働く必要は 無くなってしまうのか? ▪ 機械学習はツールであって、全仕事を代替する万能な存在ではない ▪

    「ツールを使いこなして、人がどう判断するか」が重要 ▪ 例: 旅行時の音声翻訳、棋士の練習、人機協調による予測 Q2. 機械学習は「人のような解き方」で問題を解くべきではないか? ▪ 「人のような解き方」は生物学的に未解明なので定義できない ▪ 仮に「人のような解き方」を模倣しても性能が悪ければ社会にインパ クトを与えない(冬の時代の反省)
  9. 物体検出手法の代表例① Single shot multibox detection - - 24 ▪ YOLO[Redmon+

    2015], SSD [Liu+ 2015] 物体を囲む領域 (bounding box) を予測
  10. 物体検出手法の代表例② - - 25 ▪ R-CNN(region-based CNN)[Girshick+ 2014], Faster R-CNN[Ren+

    2015] ▪ 最近ではTransformer型(DETR[Carion+ 2020]等)が増えている ▪ 3年生の知能ロボティクス実験で扱う https://github.com/open-mmlab/mmdetection 上記では、物体検出モデルが簡単に使えるようになっている
  11. セマンティックセグメンテーション手法の代表例 - - 26 ▪ Mask R-CNN [He+ 2017] ▪

    画素ごとに分類を行う https://github.com/facebookresearch/detectron2
  12. 光学文字認識(OCR; Optical character recognition) - - 29 ▪ 1933年にPaul Handelが米国で

    特許を取得 ▪ 現代ではスマートフォン上でも 可能 https://cloud.google.com/vision/docs/drag-and-drop?hl=ja
  13. 音声翻訳のしくみ - - 31 音声認識 (speech recognition) 音声→テキスト 機械翻訳 (machine

    translation) テキスト→テキスト 音声合成 (speech synthesis) テキスト→音声 日本語テキスト 駅はどこですか 日本語音声 英語テキスト Where is the station? 英語音声 学習済モデル 日本語音声・言語 コーパス 日英対訳コーパス 英語音声・言語 コーパス 学習済モデル 学習済モデル 事前に学習 事前に学習 事前に学習 VoiceTra 言語に関する データセット
  14. 音声認識手法の代表例① - - 33 ▪ 古典的手法 ▪ 隠れマルコフモデル(HMM, 1980s-) ▪

    観測確率:混合ガウス分布 ▪ 状態遷移:マルコフ過程 ▪ DNN-HMM [Dhal+ 2011] ▪ 観測確率:DNN ▪ 状態遷移:マルコフ過程 [Dhal+ 2011]
  15. 音声認識手法の代表例② CTC [Hannun+ 2014] - - 34 ▪ 深層学習時代より前に提案 [Graves

    2006] ▪ フレームごとにトークン(文 字)を予測 ▪ トークンが繰り返されていた ら統合 ▪ (深層学習時代に再注目され) 大規模音声認識へ適用 [Hannun+ 2014] https://ratsgo.github.io/speechbook/docs/neuralam/ctc 空白文字
  16. 機械翻訳手法の代表例 - - 35 ▪ 古典的手法 ▪ IBM models (1980s-)等

    ▪ RNN [Kalchbrenner+ 2013] [Cho+ 2014] ▪ DNNを用いた機械翻訳として ニューラル翻訳(Neural Machine Translation)という呼 称が定着 ▪ トランスフォーマー[Vaswani+ 2017]
  17. 音声合成手法の代表例: WaveNet [van den Oord+ 2016b] - - 36 ▪

    PixelRNN [van den Oord+ 2016a] ▪ 画素を系列として予測するモデ ル(同じ著者) ▪ PixelRNNを音声に適用し、自己回 帰的に系列を予測
  18. マルチモーダル学習(multimodal learning)の歴史 - - 39 ▪ 複数のモダリティ(modality)を扱う ▪ 例:画像、音声、テキスト、センサ ▪

    古典的機械学習手法では小規模問題し か扱えなかった⇔2015年以降近年成長 が著しい ▪ マルチモーダル言語処理 ▪ 実世界と言語の関係を扱う ▪ 多層的な関係を持つ挑戦的な課題 (省略、意図等) SHRDLU [Winograd 1970s] Microsoft
  19. マルチモーダル言語処理のサブ分野: 理解と生成 - - 40 マルチモーダル言語理解タスク ▪ Visual Question Answering

    (VQA) ▪ 参照表現理解 ▪ Image-text matching [Wang+ 2017] マルチモーダル言語生成タスク ▪ 画像キャプショニング、video captioning ▪ Text-to-image ▪ Visual dialog [Das+ 2016][Alayrac+, 2022]
  20. 画像キャプショニングの代表例: Show and tell [Vinayls+ 2015] - - 41 ▪

    CNNを用いて画像を潜在表現(latent representation)に変換 ▪ RNNを用いてテキストを生成 画像の「意味」 「屋外の市場で買い物をする人達。果物 売り場には多くの野菜が並んでいる。」
  21. 応用分野の今後 - - 47 ▪ 20代が活躍 ↑深層学習手法をコーディング できる40代以上は少ない ▪ 多様なユーザに使われる技術に

    なったものの、作り手の多様性 が不十分 多様な人材が求められている ▪ 冬の時代が再来するのか? ▪ 第2次AIブームまでと異なり、 応用との結びつきが強い 他の基幹産業と同様、安定する と予想される N年後を予測する正しい目利きが 重要
  22. 本講義全体の参考図書 - - 48 ▪ ★機械学習スタートアップシリーズ これならわかる深層学習入門 瀧雅人著 講談 社(本講義では、異なる表記を用いることがあるので注意)

    ▪ ★Dive into Deep Learning (https://d2l.ai/) ▪ 深層学習 改訂第2版 (機械学習プロフェッショナルシリーズ) 岡谷貴之著 講談社 ▪ ディープラーニングを支える技術 岡野原大輔著 技術評論社 ▪ 画像認識 (機械学習プロフェッショナルシリーズ) 原田達也著 講談社 ▪ 深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ) 坪井祐太、 海野裕也、鈴木潤 著、講談社 ▪ IT Text 自然言語処理の基礎 岡﨑直観、荒瀬由紀、鈴木潤、鶴岡慶雅、宮尾祐介 著、オーム社 ▪ 東京大学工学教程 情報工学 機械学習 中川 裕志著、東京大学工学教程編纂委員会 編 丸善出版 ▪ パターン認識と機械学習 上・下 C.M. ビショップ著 丸善出版
  23. 参考文献 - - 49 1. Graves, A., Fernández, S., Gomez,

    F., & Schmidhuber, J. (2006, June). Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the 23rd international conference on Machine learning (pp. 369-376). 2. Dahl, G. E., Yu, D., Deng, L., & Acero, A. (2011). Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition. IEEE Transactions on audio, speech, and language processing, 20(1), 30-42. 3. Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G., Elsen, E., ... & Ng, A. Y. (2014). Deep speech: Scaling up end-to-end speech recognition. arXiv preprint arXiv:1412.5567. 4. Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 580-587). 5. Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and tell: A neural image caption generator. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3156-3164). 6. Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in neural information processing systems, 28, 91-99. 7. Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., ... & Dean, J. (2016). Google's neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144. 8. Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y., & Berg, A. C. (2016, October). Ssd: Single shot multibox detector. In European conference on computer vision (pp. 21-37). Springer, Cham.
  24. 参考文献 - - 50 1. Redmon, J., Divvala, S., Girshick,

    R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788). 2. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. In Advances in neural information processing systems (pp. 5998-6008). 3. 神田直之. (2017). 音声認識における深層学習に基づく音響モデル. 日本音響学会誌, 73(1), 31-38. 4. Cao, Z., Simon, T., Wei, S. E., & Sheikh, Y. (2017). Realtime multi-person 2d pose estimation using part affinity fields. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7291- 7299). 5. Güler, R. A., Neverova, N., & Kokkinos, I. (2018). Densepose: Dense human pose estimation in the wild. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7297-7306). 6. Irie, K., Zeyer, A., Schlüter, R., & Ney, H. (2019). Language modeling with deep transformers. arXiv preprint arXiv:1905.04226. 7. Neverova, N., Novotny, D., Khalidov, V., Szafraniec, M., Labatut, P., & Vedaldi, A. (2020). Continuous surface embeddings. arXiv preprint arXiv:2011.12438. 8. Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., & Zagoruyko, S. (2020, August). End-to-end object detection with transformers. In European Conference on Computer Vision (pp. 213-229). Springer, Cham.