2022年2月9日(水)- 11日(金)第6回 統計・機械学習若手シンポジウム での講演資料です。
CNNの画像認識におけるブレークスルーから10年、Transformerの機械翻訳におけるブレークスルーから5年。異なる様態のデータに対する機械学習応用の相互参入障壁が大きく緩和された現在、画像情報と言語情報による理解や変換・生成を目的とするVision and Languageは、その周辺分野も巻き込みながら勢いを増している研究分野です。本講演では、Vision and Languageと呼ばれる各研究課題の生い立ちや発展、そして今後の課題について概観します。
いままでもビジョン&ランゲージの講演は何度とやらせて頂いておりますが、今回少し気合を入れて更新しました。ビジョン&ランゲージは本当にタスクが色々増えて来て収集が付かない状況ですが、90分の講演で自分が考え得る限りでは最大のカバレッジを達成したつもりです。また、単にタスクの羅列で終わらないように、タスクの体系化や共通の話題/課題にも言及してあるつもりです。
一方で、最近のキラキラテーマであるTransformer活用については同シンポジウムでチュートリアル講演を行う品川政太朗先生(NAIST)に勝手におんぶにだっこしてほとんど割愛してあります。私自身のTransformerおよびそのビジョン&ランゲージへの応用についての資料は
https://speakerdeck.com/yushiku/end-to-end-object-detection-with-transformers
https://speakerdeck.com/yushiku/do-transformer-modifications-transfer-across-implementations-and-applications
https://speakerdeck.com/yushiku/iccv-2021-tadatadavision-and-languagefalselun-wen-wodu-ndemita
の3本をご覧ください。