IJCAI2021から読み解く第4世代AIの研究開発

1  　Confidential　© TDAI Lab All right reserved.   IJCAI2021から読み解く  第4世代AIの研究開発 
人工知能学会セミナー  2021年11月1日    株式会社TDAI Lab 

2  　Confidential　© TDAI Lab All right reserved.   自己紹介  経歴
2016年　株式会社TDAI Lab創業 (代表取締役社長) 2018年　東京大学大学院工学系研究科修士課程修了 2021年　東京大学大学院工学系研究科博士課程修了興味領域 Fairness, Unbiased Learning to Rank, Recommendation 特技：競技ダンス 2014年東京大学総長賞受賞 2015年全日本学生競技ダンス選手権優勝 2020年芸能人格付けチェック出演 ~2021年全日本準強化指定選手著書「世界一カンタンで実戦的な文系のための人工知能の教科書」福馬智生 Tomoki Fukuma @fukuma_tomoki

3  　Confidential　© TDAI Lab All right reserved.   本資料の目的・留意事項  【想定聴講者
】 1. 近年のAI研究トレンドのざっくりした傾向を掴みたい方 2. 機械学習・深層学習にある程度の予備知識がある方 3. 当カンファレンスについての一参加者の見解を、興味を持って聴講くださる方【留意事項】　本発表資料はできる限り誤解のないように努めておりますが、著者自身の仮説や想定の誤りにより、内容の一部に正確でない表現を含むことがあるかもしれない点、ご容赦ください。

4  　Confidential　© TDAI Lab All right reserved.   目次 •
AI研究開発の潮流 • 第4世代AIとは • 仮説推論（アブダクション）に関する研究 • 知識の表現方法 • まとめ

8  　Confidential　© TDAI Lab All right reserved.   【潮流2】今のAI研究者は何を目指して研究している？【問題点1】AIのブラックボックス問題（説明責任）
【問題点2】AIのバイアス問題（公平性）【問題点3】AIの脆弱性問題（堅牢性）【問題点4】AIの品質保証問題（透明性）【問題点5】AIによるフェイク問題社会応用を進める上での信頼される AIの構築

10  　Confidential　© TDAI Lab All right reserved.   【潮流1】今のAI研究者は何を目指して研究している？【問題点1】学習に大量の教師データや計算資源が必要
【問題点2】学習範囲外の状況に弱く、実世界状況への臨機応変な対応ができない【問題点3】パターン処理は強いが、意味理解・説明等の高次処理はできていない

11  　Confidential　© TDAI Lab All right reserved.   【潮流1】今のAI研究者は何を目指して研究している？【問題点1】学習に大量の教師データや計算資源が必要
OpenAI：Dota2で世界チャンピオンに勝てるようになるまでに、45,000年分学習 Allen AI研究所：「アリスト」は、8年生レベル(日本の中２)の多肢選択式の科学問題に答えるために、 300ギガバイトの科学論文と知識グラフを利用 OpenAI : Transformerの性能には、計算時間・データサイズ・パラメータ数のべき乗則に支配される

12  　Confidential　© TDAI Lab All right reserved.   【潮流1】今のAI研究者は何を目指して研究している？【問題点2】学習範囲外の状況に弱く、実世界状況への臨機応変な対応ができない
https://arxiv.org/abs/1904.08653

13  　Confidential　© TDAI Lab All right reserved.   【潮流1】今のAI研究者は何を目指して研究している？【問題点3】パターン処理は強いが、意味理解・説明等の高次処理はできていない
https://www.forbes.com/sites/robtoews/2020/07/19/gpt-3-is-amazingand-overhyped/?sh=338645581b1c

AI研究開発の潮流 • 第4世代AIとは • 仮説推論（アブダクション）に関する研究 • 知識と経験の違いとは？ • まとめ

15  　Confidential　© TDAI Lab All right reserved.   第4世代AI (システム2.0)について
• 行動経済学で有名なDaniel Kahnemanは、著書「ファスト&スロー」において、人間の知能には2つの側面があるとし、反応の速い即応的知能をシステム1.0、それに比べると反応が遅い熟考的知能をシステム2.0と呼んだ • 現在の深層学習はシステム1.0に相当し、将来の方向性はシステム2.0の深層学習という講演のメッセージ IJCAI 2021 Invited Talk Yoshua Bengio “System 2 Deep Learning: Higher-Level Cognition, Agency, Out-of-Distribution Generalization and Causality”

17  　Confidential　© TDAI Lab All right reserved.   システム1.0について •
Bengio :「システム1.0とは、人間が直感的、無意識的に行っている、言葉では説明できないようなこと、行動の場合は習慣的に行っていることです。これは現在の深層学習が得意とするところです。」 • Ng : 「一般的な人が1秒以下の思考で精神的なタスクをこなせるなら、現在または近い将来、AIを使ってそれを自動化することができるだろう」

18  　Confidential　© TDAI Lab All right reserved.   システム2.0について •
既存システム1.0に知識やルールを与え、状況や文脈（コンテキスト）に応じてそれらを組み合わせて推論するような演繹型の仕組み 1 即応的AI (パターン処理) • 現在のデータからボトムアップにルールやモデルを構築する帰納型の仕組み 2 熟考的AI (パターン処理と知識・記号推論の融合 ) • 教師データが大量になくとも演繹によって補う（問題点1への対処） • 学習範囲外のケースに対しても演繹によって対応（問題点2への対処） • 意味理解・説明も演繹面から強化（問題点3への対処）

19  　Confidential　© TDAI Lab All right reserved.   知覚と推論のギャップを埋める必要性 System
1.0 End-to-End System 2.0 知覚推論 System 1.0 知識環境決定

AI研究開発の潮流 • 第4世代AIとは • 仮説推論（アブダクション）に関する研究 • 知識と経験の違いとは？ • まとめ

21  　Confidential　© TDAI Lab All right reserved.   ピックアップ書誌情報 1.
Abductive Learning with Ground Knowledge Base L.-W. Cai, W.-Z. Dai Y.-X. Huang, Y.-F. Li, S. H. Muggleton and Y. Jiang Proceedings of the 30th International Joint Conference on Artiﬁcial Intelligence (IJCAI’21) 2. Abductive Knowledge Induction from Raw Data W.-Z. Dai and S. H. Muggleton, Proceedings of the 30th International Joint Conference on Artiﬁcial Intelligence (IJCAI’21) 3. Semi-Supervised Abductive Learning and Its Application to Theft Judicial Sentencing, Y.-X. Huang, W.-Z. Dai, J. Yang, L.-W. Cai, S. Cheng, R. Huang, Y.-F. Li and Z.-H. Zhou, Proceedings of 20th IEEE International Conference on Data Mining (ICDM’20)

22  　Confidential　© TDAI Lab All right reserved.   仮説推論（アブダクション）の位置付け System
1.0 End-to-End System 2.0 知覚推論 System 1.0 知識環境決定

23  　Confidential　© TDAI Lab All right reserved.   人間の帰納的問題解決日本言語学オリンピックお試し問題集
https://iolingjapan.org/sample-problems/?s=09

24  　Confidential　© TDAI Lab All right reserved.   Abductive Learningに関するフレームワーク
• Step1. ◦ 入力(画像)をシンボル(数字)に変換(Pseudo Label) • Step2. ◦ Step1で推測したPseudo Label を既知の仮説に基づき一部更新する ◦ (仮説もアップデート) • Step3. ◦ 更新したPseudo Labelを教師データにして再学習

• Step1. ◦ 入力(画像)をシンボル(数字)に変換(Pseudo Label) • Step2. ◦ Step1で推測したPseudo Label を既知の仮説に基づき一部更新する ◦ (仮説もアップデート) • Step3. ◦ 更新したPseudo Labelを教師データにして再学習

• Step1. ◦ 入力(画像)をシンボル(数字)に変換(Pseudo Label) • Step2. ◦ Step1で推測したPseudo Label を既知の仮説に基づき一部更新する ◦ (仮説もアップデート) • Step3. ◦ 更新したPseudo Labelを教師データにして再学習一言で言うと：自分が過去に出力した情報が、何かしらの背景知識や仮説によって修正され、それをもとに再学習

27  　Confidential　© TDAI Lab All right reserved.   例1. 知識として正解ラベルの集合
(Hand Written OCR) • タスク： ◦ 入力：区分けされていない１枚の画像 ◦ 出力：単語予測 • モデル：CRNN • 事前知識：IAM Handwriting Databaseの全ラベル (出力すべき単語の集合が既知 ) • 学習方法：Pseudo Labelと近いものを学習セットから抽出し、置換し再学習 (半教師あり学習) 学習データの割合を変化した際の正解率 Abductive Learning with Ground Knowledge Base(IJCAI2021)

28  　Confidential　© TDAI Lab All right reserved.   例2. 仮説が離散値の組み合わせ(OCR+ルール発見)
• タスク：画像認識+ルールの発見 ◦ Perception：画像認識 𝑓 : Image ↦ {0,1,...,9} ▪ 𝑧 = 𝑓(𝑥) = 𝑓([𝑖𝑚𝑔1,𝑖𝑚𝑔2,𝑖𝑚𝑔3]) = [7,3,5] ◦ Reasoning：𝑧から出力𝑦を計算するロジックを推論 • 𝜃：機械学習モデルのパラメータ • 𝑧: 未知の疑似ラベル • 𝐻: 一階述語論理 Abductive Knowledge Induction From Raw Data (IJCAI2021)

• Hを構成するルールBと入力系列が多くなるにつれ指数的に探索範囲が増大 • 効率的な最適化手法が提案(詳細な最適化方法については原著を参照) Abductive Knowledge Induction From Raw Data (IJCAI2021)

• Hを構成するルールBと入力系列が多くなるにつれ指数的に探索範囲が増大 • 効率的な最適化手法が提案(詳細な最適化方法については原著を参照) 膨大な探索空間 Abductive Knowledge Induction From Raw Data (IJCAI2021)

• Hを構成するルールBと入力系列が多くなるにつれ指数的に探索範囲が増大 • 効率的な最適化手法が提案(詳細な最適化方法については原著を参照) ◦ 仮説の構築と文字認識を交互に更新 ◦ 探索範囲の枝刈り Abductive Knowledge Induction From Raw Data (IJCAI2021)

32  　Confidential　© TDAI Lab All right reserved.   例3. 仮説に連続値θを含む
(刑罰予測) • タスク：裁判記録（テキスト）から刑罰 (罰金額など)を予測する。 ◦ 中国・貴州省の窃盗に関する裁判記録 687件。 ◦ 一部ラベル付きデータとラベルなしデータが利用可能 (半教師あり学習) ◦ 補助データとして窃盗額・ジャンルラベル(自首や強盗)が利用可能 • ナイーブな方法：BERT + ﬁnetuning • 事前知識 ◦ 窃盗額は刑罰の一つの基準 ◦ 自首や強盗といった追加条件によって刑罰の重さが変わる ▪ それらは文章中に書かれているが、明示的には取り出せない ◦ またこれらがどのように最終結果に影響を与えるかは未知

(刑罰予測) 最終的なイメージ図上記数字のパラメータも最適化対象である点について注意

(刑罰予測) • Step1 ：BERTを用いてテキストからジャンルに対する多クラス分類を行う • Step2：窃盗金額や予想クラスから刑罰を推定 (機械学習的パラメトリックモデル) • Step3：推定したジャンルを(Pseudo Label)再度更新、刑罰予測器のパラメーターも更新

35  　Confidential　© TDAI Lab All right reserved.   ここまでのまとめ •
如何に仮説や知識をもとに知覚したデータから”推論”するか • Abductive Learningという学習フレームワークの紹介 • 知覚(データからシンボルへの変換)と仮説や知識との一貫性が最も高い組み合わせを探す同時最適化問題 • 半教師あり学習との関連性が高い ◦ 省データ化 ◦ モデルパラメータ削減

38  　Confidential　© TDAI Lab All right reserved.   IJCAI2021における知識に関する講演 IJCAI
2021 Award for Research Excellence Ricard Sutton “The Increasing Role of Experience in AI” IJCAI 2021 Invited talk Michael Thielscher “Knowledge Representation for Systems with General Intelligence”

40  　Confidential　© TDAI Lab All right reserved.   General Game
Playing • 2005年AAAI以降続くコンペティション • 未知のゲームをプレイするエージェントの設計を目標とするプロジェクト ◦ 新たなゲームのルールを理解する ◦ 人の介入なしにゲームを効率的にプレイする方法を学習する • ゲームのルールをシステムに理解させる必要がある

42  　Confidential　© TDAI Lab All right reserved.   Deep Reinforcement
Learning for General Game Playing • ゲームのGDL記述を、Propositional Networkに変換(Schkufza, Love, & Genesereth, Al'08) ◦ GDLをグラフで表現 • DNNにゲーム状態を入力 ◦ 報酬と行動確率を出力 • AlphaZeroと同様にself-playで学習 Goldwaser & M.T., AAAl'20

43  　Confidential　© TDAI Lab All right reserved.   個人的感想 •
未知のゲームでも上手くプレイできるエージェントを作る General Game Playing(GGP)というタスクを紹介 • 紹介例： ◦ （知識の表現）Game Description Language ◦ （知識の入力）GDLから変換したPropositional Network ◦ （知識の学習）Self-Play

45  　Confidential　© TDAI Lab All right reserved.   Sutton's The
Bitter Lesson • 2019年3月にSutton氏が公開した記事 • 70年にわたるAI研究から読み取れる最大の教訓は、計算機を活用した汎用的な手法が最終的に最も効果的であるということ • チェスや碁・音声認識・画像認識など、人間のドメイン知識を入れた手法はことごとく統計的手法に置き換えられてきた http://www.incompleteideas.net/IncIdeas/BitterLesson.html

46  　Confidential　© TDAI Lab All right reserved.   知識とは経験的である •
世界はブラックボックスであり、I/Oによってのみ知ることができる • 人間も経験からのみによって学習している • エージェントへの知識も経験のみから学習させるべき ◦ 知識も同様にドメイン知識を使ってグラフなどを構築するものではない？ ◦ 経験から正しく予測できることは知識といって良い？ ▪ President of the US is 〇〇. ▪ The capital of France is 〇〇.

47  　Confidential　© TDAI Lab All right reserved.   知識と経験のギャップ •
しかし知識には経験から得られるものに大きながギャップがある • 如何にそれらのギャップを経験の観点から埋めるかが重要 • また数学的理論や定理は、知識ではなく自然法則のため切り離す必要性がある可能性 • ジョー・バイデンはアメリカ大統領 • エッフェル塔はパリにある • オレゴンはカリフォルニアの北 • あそこのカレー屋さんは美味しい • 私の足は痛いです • 次のピクセルは、青色になります

AI研究開発の潮流 • 第4世代AIとは • 仮説推論（アブダクション）に関する研究 • 知識の表現方法？ • まとめ

49  　Confidential　© TDAI Lab All right reserved.   結論 •
AI研究は第4世代へ ◦ 既存システム1.0に知識やルールを与え、状況や文脈（コンテキスト）に応じてそれらを組み合わせて推論するような演繹型の仕組み • 知覚と仮説を同時に最適化していくフレームワークの紹介 ◦ 人間が”考える”といった行為に似ていると感じた • 仮説や知識をいかに表現するかが課題 ◦ 短期的には以下が焦点 ▪ (表現) 知識グラフなど人間と機械の共通の言語 ▪ (蒸留 )それらを如何にデータから抽出するか ▪ (入力) システムへの入力 ▪ (学習) それらをつかった効率的な学習 ◦ 将来的に知識はどこまで経験から学ばせるべきかどうかの議論

50  　Confidential　© TDAI Lab All right reserved.   追記：知識を如何にデータから抽出する Symbolic
Knowledge Distillation: from General Language Models to Commonsense Models Peter West, Chandra Bhagavatula, Jack Hessel, Jena D. Hwang, Liwei Jiang, Ronan Le Bras, Ximing Lu, Sean Welleck, Yejin Choi https://arxiv.org/abs/2110.07178 https://twitter.com/AkiraTOSEI/status/1455732603491737604?s=20

IJCAI2021から読み解く第4世代AIの研究開発

IJCAI2021から読み解く第4世代AIの研究開発

More Decks by 株式会社TDAI Lab

Other Decks in Research

Featured

Transcript