Upgrade to Pro — share decks privately, control downloads, hide ads and more …

最新研究から読み解くAIを理解するトレンド

 最新研究から読み解くAIを理解するトレンド

株式会社TDAI Lab

January 21, 2023
Tweet

More Decks by 株式会社TDAI Lab

Other Decks in Research

Transcript

  1. 2
  Confidential © TDAI Lab All right reserved. 
 自己紹介
 経歴

    2016年 株式会社TDAI Lab創業 (代表取締役社長) 2018年 東京大学大学院工学系研究科 修士課程修了 2021年 東京大学大学院工学系研究科 博士課程修了 興味領域 Fairness, Unbiased Learning to Rank, Recommendation 特技:競技ダンス 2014年 東京大学総長賞受賞 2015年 全日本学生競技ダンス選手権 優勝 2020年 芸能人格付けチェック出演 2022年 全日本ランキング6位 ~2023年 全日本強化指定選手 著書 「世界一カンタンで実戦的な文系のための人工知能の教科書」 福馬 智生 Tomoki Fukuma @fukuma_tomoki
  2. 3
  Confidential © TDAI Lab All right reserved. 
 目次
 •

    解釈性と説明性の違い • 説明責任に関する有識者の考え方と参考研究 • 注目すべきパラダイムシフト(基盤モデル + 微調整) • 言語基盤モデルの巨大化により新たに可能になった複雑なタスク • 言語基盤モデルの行動との組み合わせ • まとめ
  3.  Confidential © TDAI Lab All right reserved. 
 4
  Confidential © TDAI

    Lab All right reserved. 
 4 解釈性と説明性
 • AIが求められている説明責任については、大きく二つの考え方がある ◦ Interpretablilty(解釈可能性) ▪ 人間の頭に穴を開けて電極を差し込み、脳の活動状況を可視化して解釈するイメージ ▪ 従来の研究はこちらが主流(Grad-CAMなど) ◦ Explainablility(説明可能)👈今日の話 ▪ 人間の思考の流れを踏まえながら、複数の質問に対して段階的に答え続けられる ▪ 従来は実現が不可能と考えられていたが
  4. 5
  Confidential © TDAI Lab All right reserved. 
 目次
 •

    解釈性と説明性の違い • 説明責任に関する有識者の考え方と参考研究 • 注目すべきパラダイムシフト(基盤モデル + 微調整) • 言語基盤モデルの巨大化により新たに可能になった複雑なタスク • 言語基盤モデルの行動との組み合わせ • まとめ
  5.  Confidential © TDAI Lab All right reserved. 
 6
  Confidential © TDAI

    Lab All right reserved. 
 6 説明責任に関する有識者の見解
 • 私は「AIの予測に説明責任」を負わせるべきかどうかについて、 私の技術的専門知識に関連して答えると全くするべきではない と思います。 • 画像に歩行者が写っているかの判断で、AIシステムに「なぜそ れを考えたのですか」と尋ねた際、人間が理解しやすい簡単な 規則があるのであれば、そのような問題は、何年もずっと前に既 に解決された問題だったでしょう。 • その代わりシステムをどのように信頼するかに応じて、そのシス テムがどのように振る舞うかに基づいて規制する必要がありま す。 2018年のWIREDでのHinton氏のインタビュー記 事意訳 https://www.wired.com/story/googles-ai-guru- computers-think-more-like-brains/ この発言は、賛同もあった半面、多くの研究者から 「Interpretableであることも、 Explainableであることも放 棄したかのようだ」と、批判的、懐疑的な意見も出まし た。 https://www.forbes.com/sites/cognitiveworld/2018/ 12/20/geoff-hinton-dismissed-the-need-for-explaina ble-ai-8-experts-explain-why-hes-wrong/#5d5f3796 756d
  6.  Confidential © TDAI Lab All right reserved. 
 7
  Confidential © TDAI

    Lab All right reserved. 
 7 関連研究:Beyond Accuracy: Behavioral Testing of NLP Models with CHECKLIST
 • ACL 2020 Best Paper • 従来はtrain-test-validationでのみ精度評価が行われることが一般的 • そこでチェックリストを設けることで多面的に性能を評価しようという試み ◦ Min Func Test:ユニットテスト的な発想 ◦ INVariance:摂動に対する出力の頑健さ(入力が多少変わっても出力はかわらない ) ◦ DIRectional:出力を変えるような変更で出力が変わるか
  7. 8
  Confidential © TDAI Lab All right reserved. 
 関連研究:ベンチマークの見直し(Dynabench) •

    2021年は多数のベンチマークの記録をまとめて大幅に 更新する言語モデルは登場しなかった 
 • モデルの進歩が止まったのではなく、 既存のデータセット ではモデルの評価が追いついていない可能性 
 • 2021年はどうモデルを評価すればいいのか( 評価指標・ データセットなど)について議論が深まった年 
 
 • 機械翻訳分野におけるメタ評価によると、過去10年間に 発表された769本ののうち、74.3%がBLEUのみを使用 
 Dynabench: Rethinking Benchmarking in NLP [Kiela et al. 2021 ACL] Human Performance Scientific Credibility of Machine Translation Research: A Meta-Evaluation of 769 Papers[Marie et al. 2021 ACL]
  8. 9
  Confidential © TDAI Lab All right reserved. 
 目次
 •

    解釈性と説明性 • 説明責任に関する有識者の考え方と参考研究 • 注目すべきパラダイムシフト(基盤モデル + 微調整) • 言語基盤モデルの巨大化により新たに可能になった複雑なタスク • 言語基盤モデルの行動との組み合わせ • まとめ
  9. 10
  Confidential © TDAI Lab All right reserved. 
 最近の注目技術:ChatGPT •

    12⽂1⽂にOpenAIが公開した対話AIで,今までのGPTシリーズに⽂間からのフィードバックをもとにした 強化学習(RLHF)を⽂ない、対話用に微調整したモデル ◦ https://chat.openai.com/chat • 非常に高性能で、ほとんどの質問に対する⽂然な回答、コピペで動く⽂度なプログラミングコードの⽂成 ,翻訳,⽂章構成,⽂章要約, ⽂章校正が可能 • 従来の検索エンジンを置き換える可能性があると言われ、Googleが「コードレッド(緊急事態)」を発令 したことも話題になった https://www.nytimes.com/2022/12/21/technology/ai-chatgpt-google-search.html
  10. 11
  Confidential © TDAI Lab All right reserved. 
 背景知識:基盤モデル •

    基盤モデル(Foundation Model)とは、大量のデータから(一般的に自己教師あり的に)学習 することで、下流の広範なタスクに対し高い汎化性能を獲得したモデル ◦ 代表例:BERT, GPT-3, CLIP, DALLE-2 … • 基盤モデルはそのまま使われることは少なく、手元のタスクに応じて微調整して用いられる。 https://arxiv.org/abs/2108.07258 2021年にBommasaniらのスタンフォード大学のグループによって , 基盤モデル(Foundation Model)と命名
  11. 12
  Confidential © TDAI Lab All right reserved. 
 言語基盤モデルの微調整 •

    基盤モデルは、タスクごとに微調整しないとそのままでは性能が悪い • 言語基盤モデルにユーザーが求めている解答をさせるための工夫でトレンドな手法 ◦ 重み変化あり ▪ Reinforcement Learning from Human Feedback (RLHF) ▪ Instrction Tuning ◦ 重み変化なし ▪ Prompt Engineering(Chain-of-Thoughtなど)👈今日はこちらの事例を紹介 • 特にRLHFは人間の曖昧な”出力の良さ”を報酬信号にして強化学習するため柔軟性が高く、注 目を集めている(時間が余ったら解説) XAIの実現には、言語基盤モデルを微調整をすれば良いのでは?
  12. 13
  Confidential © TDAI Lab All right reserved. 
 目次
 •

    解釈性と説明性の違い • 説明責任に関する有識者の考え方と参考研究 • 注目すべきパラダイムシフト(基盤モデル + RLHF) • 言語基盤モデルの巨大化により新たに可能になった複雑なタスク • 言語基盤モデルの行動との組み合わせ • まとめ
  13. 14
  Confidential © TDAI Lab All right reserved. 
 注目論文(1/3)Chain-of-Thought
 •

    【論文名】:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models [NeurIPS 2022]
 • Chain of Thoughtで、論理的思考を要するタスク( 算術、常識問題、記号推論)での性能を高めた 
 ◦ CoT:最終的な答えを求めるのに必要な『 思考プロセス』を記述したプロンプト 
 • CoTはパラメータ数の多いモデルほど効果的(右下図) 
 マーカー部分全てCoTの事例 PaLMの方がLaMDAよりもCoTの導入効果が大きい
  14. 15
  Confidential © TDAI Lab All right reserved. 
 トレンド1. 注目論文(2/3)Minerva


    • 【論文名】Minerva: Solving Quantitative Reasoning Problems with Language Models [NeurIPS 2022] 
 • Googleの言語モデル(PaLM)を、118GBのarxivの論文とLatexで書かれているWebページで微調整 
 • 自然言語と数式の両情報が含まれる大規模学習データセットを特殊な前処理(Latexを潰さない)で作成(図1) 
 →特に数学問題での性能を大幅に向上
 • いきなり答えを予測するのではなく途中経過・途中式を書かせるCoT promptingを採用(図2) 
 (図1) (図2)
  15. 16
  Confidential © TDAI Lab All right reserved. 
 トレンド1. 注目論文(2/3)Minerva


    • 【論文名】Minerva: Solving Quantitative Reasoning Problems with Language Models [NeurIPS 2022] 
 • Googleの言語モデル(PaLM)を、118GBのarxivの論文とLatexで書かれているWebページで微調整 
 • 回答を大量生成(16~64個程度)してその中で多数決で解を決める(図3) 
 • 特にMATHデータセット(高校数学レベル)で既存SOTAを大幅更新(図4) 
 ◦ accuracyが6.9%から50.3%へ向上 
 (図3) (図4)
  16. 17
  Confidential © TDAI Lab All right reserved. 
 トレンド1. 注目論文(3/3)LIFT

    【論文名】LIFT: Language-Interfaced Fine-Tuning for Non-Language Machine Learning Tasks [NeurIPS 2022] • GPT3 などの巨大言語モデルのファインチューニングは、NLPタスクだけでなく、分類・回帰などタスクで も効果的だと示した • 入出力が自然言語のため、モデル構造やロス関数の変更が不要であり、ノーコードで言語モデルを用い た機械学習が可能
  17. 18
  Confidential © TDAI Lab All right reserved. 
 トレンド1. 注目論文(3/3)LIFT

    • 従来では何のデータについて解いているか、不明なままI/Oの関係からタスクを解いていた一方、 LIFTでは解くべきタスクについてその特徴量が何であるか自然言語で教えることが可能 → 特徴量の名前を付けて学習することで性能向上に貢献 • Iris: 97%, MNIST: 98% , F-MNIST: 90%!
  18. 19
  Confidential © TDAI Lab All right reserved. 
 目次
 •

    解釈性と説明性の違い • 説明責任に関する有識者の考え方と参考研究 • 注目すべきパラダイムシフト(基盤モデル + 微調整) • 言語基盤モデルの巨大化により新たに可能になった複雑なタスク • 言語基盤モデルの行動との組み合わせ • まとめ
  19. 20
  Confidential © TDAI Lab All right reserved. 
 Retrieval Augmentation

    【既存の課題】 • 知識のアップデートが行えないと、次第に性能が悪くなる可能性 ◦ →Temporal Adaptiveなモデルが必要 【解決策】 • 外部ソースから関連知識を抽出する Retrieverを同時に学習させる事例も • OpenAIのWebGPTは参照コーパスを動的にインターネットから検索してQAに答える
  20. 21
  Confidential © TDAI Lab All right reserved. 
 最近の事例: GPT

    Index • 自分で学習させたいドキュメントなどを読み込ませて、GPT-3と組み合わせられる
  21. 22
  Confidential © TDAI Lab All right reserved. 
 最近の話題:LangChain •

    LangChainは、外部ツール(Python、電卓、Web検索、データベース)と連携できる ◦ LangChainもライブラリの総称 ◦ 元論文など ▪ ReAct: Synergizing Reasoning and Acting in Language Models ▪ Measuring and Narrowing the Compositionality Gap in Language Models
  22. 23
  Confidential © TDAI Lab All right reserved. 
 目次
 •

    解釈性と説明性の違い • 説明責任に関する有識者の考え方と参考研究 • 注目すべきパラダイムシフト(基盤モデル + 微調整) • 言語基盤モデルの巨大化により新たに可能になった複雑なタスク • 言語基盤モデルの行動との組み合わせ • まとめ
  23. 24
  Confidential © TDAI Lab All right reserved. 
 まとめ •

    XAIの実現可能性が高まってきた • モデルは直接脳内を解釈するのではなく、特定の状況でどのように振る舞うかという癖によって理解しようと いう話に発表者は共感 (Hinton先生の話) • モデルの巨大化により、意味推論・数学や分類・回帰などもできるようになってきた ◦ CoTによってどこでAIが間違えたかわかる • RLHFなどの微調整方法によって、人間がわかりやすいと思えるかどうかの報酬信号を与えれば、柔軟にモ デルの出力をコントロールできる • 最近は、Web検索などと組み合わせることで知識の拡張や、 Pythonを利用したりなど行動の拡張も行われ ている