AIの仕組みを知る: 言語処理モデル・生成モデルとその可能性

AIの仕組みを知る：言語処理モデル・生成モデルとその可能性株式会社Preferred Networks 西澤勇輝 2023/06/14 @第2回情報教育の未来を考える”若手”勉強会

2 • 自己紹介 • 機械学習（深層学習）ってなに？ • 生成モデルってなに？ • 自然言語処理モデルの大雑把な仕組みと特性 •
教育現場での活用 • 今後どうなるのか非専門家向けに「技術の特性を理解する」ことに焦点を当てて説明します。 2023年6月現在の情報であり、今後大きく変化することが考えられます。今後AIがどうなっていくのかに関しては、個人的な意見になります。本日の内容 2023/06/14 第2回情報教育の未来を考える”若手”勉強会

3 西澤勇輝株式会社Preferred Networks (PFN) コンシューマプロダクト担当GM -2016 NHK学生ロボコン参加（2016年優勝） -2019
東京大学大学院情報理工学系研究科卒業（修士） 2019- Preferred Networks入社 PFN教育チームにてエンジニア・マネージャを担当。 • 文科省「未来の学びプロジェクト（みらプロ）」で機械学習をテーマにした教材開発 • プログラミング教材「Playgram」開発・「プログラミング教育HALLO」展開 • タイピング教材「Playgram Typing」開発 • 社会人向け教材「ジクタス」開発 • プログラミング要素を取り込んだゲーム「Omega Crafter」開発自己紹介 https://typing.playgram.jp/ https://playgram.jp https://store.steampowered.com/app/2262080/Omega_Crafter/

4 ≒「特徴量」を人間が手動で設計するのではなく、大量のデータの傾向から推定し、それに従って判定などを行う何に使われている？ • 入出力は画像だったり、文字だったり、色々なものがある • 作れるものの例 ◦ 数字認識器
◦ イラストの自動生成 ◦ 顔の判別器 ◦ 会話bot ◦ …などなど機械学習ってなに？（ざっくり） 2023/06/14 第2回情報教育の未来を考える”若手”勉強会

5 学習: たくさんの例題（データセット）から、類似の問題が解ける「モデル」を獲得すること深層学習: 機械学習の中で、何層もの「ニューラルネット」を使うことで、より複雑なタスクを行うことができる手法 • ニューラルネット: 人間の脳の神経（ニューロン）の構造に似ている、網のような構
造で、網のワイヤーそれぞれに「重み＝学習で得られるパラメータ」がある • （パラメータが非常に多く自由度が高いので、可能性を秘める反面、学習が困難）ポイント: たくさんのデータを使って、たくさんのパラメータ（数字）を調整することで、精度の高い出力（画像、文章、etc…）が得られる（完璧とは限らない）機械学習ってなに？ 2023/06/14 第2回情報教育の未来を考える”若手”勉強会

6 • 認識をするもの → 識別モデル ◦ 数字認識器、顔の判別器 • 生成をするもの →
生成モデル ◦ イラストの自動生成、会話bot ◦ 必ずしも答えが一意とは限らない最近、「生成モデル」の発展がすごい • Stable Diﬀusion: 非常に高クオリティの画像を生成する ◦ https://huggingface.co/spaces/stabilityai/stable-diﬀusion • ChatGPT: 非常に自然な会話を行う ◦ https://chat.openai.com/ 生成モデルってなに？パッと見ただけでは、もはや本物と区別できない誰でも手軽に試すことができる環境 https://ja.stability.ai/stable-diffusion https://chat.openai.com/

7 ChatGPT: https://chat.openai.com/ 米国OpenAI社が開発した、AIとテキストで会話することが可能なサービス。 • 2022年11月に公開され、自然な会話ができることで話題になった。 • 2023年3月にはGPT-4が公開され、メディアなどでも非常に多く取り上げられるようになった。 •
Webを参照して回答する機能の追加など、現在も継続的に改良が行われている。 GPT = Generative Pre-Trained Transformer / 事前学習生成トランスフォーマ • Transformerというのは、自然言語処理（＝人間の言葉の解析）を行う有名なモデルで、これの基礎自体は2017年から存在する • GPTをチャットに特化させたものがChatGPT ChatGPT

8 大雑把に言うと、「ある文章の次にどんな文章が来るのか？」を予測し続けることで、自然な文章を出力する（穴埋めが得意）例: 「あけまして」の次にどんな言葉が来るか？ GPTなどが自然言語処理を行う仕組み 2023/06/14 第2回情報教育の未来を考える”若手”勉強会

9 大雑把に言うと、「ある文章の次にどんな文章が来るのか？」を予測し続けることで、自然な文章を出力する（穴埋めが得意）例: 「あけまして」の次にどんな言葉が来るか？ → 「おめでとう」の確率が高い GPTなどが自然言語処理を行う仕組み 2023/06/14 第2回
情報教育の未来を考える”若手”勉強会

10 大雑把に言うと、「ある文章の次にどんな文章が来るのか？」を予測し続けることで、自然な文章を出力する（穴埋めが得意）例: 「あけまして」の次にどんな言葉が来るか？ → 「おめでとう」の確率が高い「あけましておめでとう」の次にどんな言葉が来るか？ GPTなどが自然言語処理を行う仕組み 2023/06/14
第2回情報教育の未来を考える”若手”勉強会

11 大雑把に言うと、「ある文章の次にどんな文章が来るのか？」を予測し続けることで、自然な文章を出力する（穴埋めが得意）例: 「あけまして」の次にどんな言葉が来るか？ → 「おめでとう」の確率が高い「あけましておめでとう」の次にどんな言葉が来るか？ → 「ございます。」「！今年もよろしく！」の順で確率が高い、など
これを予測し続ける GPTなどが自然言語処理を行う仕組み 2023/06/14 第2回情報教育の未来を考える”若手”勉強会

12 これを会話に拡張するこれは、ある生徒と先生の会話です。あなた: 「最近悩んでるんです。」先生: 「 ↑次の文章を予測させる GPTなどが自然言語処理を行う仕組み ChatGPTに入力された指示
2023/06/14 第2回情報教育の未来を考える”若手”勉強会

13 これを会話に拡張するこれは、ある生徒と先生の会話です。あなた: 「最近悩んでるんです。」先生: 「何を悩んでいるんですか？」←出力結果 GPTなどが自然言語処理を行う仕組み ChatGPTに入力された指示 ChatGPTの予測結果
2023/06/14 第2回情報教育の未来を考える”若手”勉強会

14 これを会話に拡張するこれは、ある生徒と先生の会話です。あなた: 「最近悩んでるんです。」先生: 「何を悩んでいるんですか？」あなた:「成績が伸びなくて…」←人間が続ける GPTなどが自然言語処理を行う仕組み ChatGPTに入力された指示
ChatGPTの予測結果人間の入力 2023/06/14 第2回情報教育の未来を考える”若手”勉強会

15 これを会話に拡張するこれは、ある生徒と先生の会話です。あなた: 「最近悩んでるんです。」先生: 「何を悩んでいるんですか？」あなた:「成績が伸びなくて…」先生: 「
←ここまでの会話全体を入力し、さらに次を予測させる GPTなどが自然言語処理を行う仕組み ChatGPTに入力された指示 ChatGPTの予測結果人間の入力 2023/06/14 第2回情報教育の未来を考える”若手”勉強会

16 これを会話に拡張するこれは、ある生徒と先生の会話です。あなた: 「最近悩んでるんです。」先生: 「何を悩んでいるんですか？」あなた:「成績が伸びなくて…」先生: 「何の科目の成績が伸びないのですか？」←出力結果
GPTなどが自然言語処理を行う仕組み ChatGPTに入力された指示 ChatGPTの予測結果人間の入力 2023/06/14 第2回情報教育の未来を考える”若手”勉強会

17 これを会話に拡張するこれは、ある生徒と先生の会話です。あなた: 「最近悩んでるんです。」先生: 「何を悩んでいるんですか？」あなた:「成績が伸びなくて…」先生: 「何の科目の成績が伸びないのですか？」
… これを繰り返すことにより、AIとの会話が成立する（それっぽい会話が完成） GPTなどが自然言語処理を行う仕組み ChatGPTに入力された指示 ChatGPTの予測結果人間の入力 2023/06/14 第2回情報教育の未来を考える”若手”勉強会

18 つまりどういうことか？ GPTなどが自然言語処理を行う仕組み 2023/06/14 第2回情報教育の未来を考える”若手”勉強会

19 つまりどういうことか？ ChatGPTは「それっぽい次の言葉」を出力しているだけ、と考えるべき GPTなどが自然言語処理を行う仕組み 2023/06/14 第2回情報教育の未来を考える”若手”勉強会

20 世界のルールを理解しているように見えるが、そう見えるだけ • 「そう見える」だけでもできる仕事はたくさんあるので、有用性は高い ◦ 例: 文章を校正したり提案してもらう、表にしてもらう、etc. ◦ プログラミングせずとも、日本語でコンピュータに指示を出せる •
結果的に論理的な出力が得られることがある一方で、その出力を完全に信頼してはいけない ◦ 例: 実在しない人間について語り始める • 指示の出し方によりある程度のコントロールはできるが、絶対に正確な情報を出力させる方法は現状存在しない ChatGPTはそれっぽい「次」を出力しているだけ 2023/06/14 第2回情報教育の未来を考える”若手”勉強会

21 OpenAIが教育者向けの記事を提供している https://platform.openai.com/docs/chatgpt-education 利用方法の例 • 授業の効率化・ブレストのための起案 • 盗作などの不正行為の検出 • AIとの付き合い方を学んでいく
リスクと対策 • 先生のいる環境で使うことを強く推奨している • 正確ではないこと、情報が古い可能性を認識する必要がある • 使い方によっては、有害なコンテンツを生成する場合がある • ChatGPTを利用して生成されたコンテンツには引用を入れる ChatGPTの教育現場での活用 2023/06/14 第2回情報教育の未来を考える”若手”勉強会

22 スピードが速すぎて「わからない」ただ、今まで懐疑的だった人も警鐘を鳴らしている現段階ではできないことも多いが、今後さらに発展していくことは確実これからの教育で重要だと思うこと • まず触ってみて、それをどう使いこなすか自ら考えられること • きちんと技術の特性を理解すること
• これから必要なもの、これからも必要なものが何かを理解すること今後AIはどう発展していくのか？ https://wired.jp/article/geoffrey-hinton-ai-chatgpt-dangers/ https://jp.reuters.com/article/elon-musk-ai-idJPKBN2VV0CW 2023/06/14 第2回情報教育の未来を考える”若手”勉強会

23 自然言語処理の発展によってこれから必要になるものの例 • コンピュータへの新たな指示の出し方 ◦ コンピュータへの指示はプログラミングだけではなく、人間の言葉でできるようになるかもしれない ◦ 指示をどう解釈するかも、モデル次第で変わる可能性がある（プロンプトエンジニアリング）
• 新しい仕事のやり方 ◦ 人間よりもAIのほうが優れている仕事は存在するし、今後AIの能力も変わっていく ◦ 技術を使いこなす方法を常に考え、試してみる ▪ 「ずる」をする生徒もいるかもしれないが、算数プリントを電卓で解くのと同じで、利用者に倫理観が必要これから必要なもの、これからも必要なもの 2023/06/14 第2回情報教育の未来を考える”若手”勉強会

24 これからも必要なものの例 • 算数、理科、情報科学の基礎 ◦ 数学・物理法則など不変なもの ◦ インターネットの仕組みなども、そう簡単に変わるものではない ◦ アルゴリズムなどを理解していないと解けない問題は存在する
◦ プログラミングには人間の言葉のような曖昧さが無いので、手順が決まっている場合には人間の言葉よりも優れている • 国語力・コミュニケーション能力 ◦ 指示が自然言語になるなら、より重要になるかもしれない • なにをAIに委ねられるか/委ねてよいかの判断 ◦ そのためには、人間側に技術の理解と適切な倫理観が必要これから必要なもの、これからも必要なもの 2023/06/14 第2回情報教育の未来を考える”若手”勉強会

25 • ChatGPTを含む新技術は特性を理解して使うことが重要 ◦ 正しく使えば、強力な武器になる ◦ 嘘や攻撃的な内容を含むことはある ▪ 教育利用では、セーフティーとなる先生を立てるのが望ましい •
今後AIが発達していくのは不可避であり、その前提に立つことが必要 ◦ これから必要なものを理解し、常に新しいものを使いこなす意欲を持つ ◦ これからも必要な知識をきちんと学ぶ • 人間側に適切な倫理観が必要 ◦ AIに完璧さを求めず、また悪用については人間側にも教育が必要 ◦ 素晴らしいツールだからこそ、使い手のモラルが問われるまとめ 2023/06/14 第2回情報教育の未来を考える”若手”勉強会

26 PFN Confidential Appendix

27 LLM（大規模言語モデル）のパラメータ数・コスト GPT-3: 1750億パラメータ https://arxiv.org/abs/2005.14165 Palm2（Googleの開発する大規模言語モデル）: 3400億パラメータ https://www.cnbc.com/2023/05/16/googles-palm-2-uses-nearly-ﬁve-times-more-text-data-than-predecessor.html GPT-3の訓練にかかる費用は2020時点のスペックで推定460万ドル（6億円超）。実際にはもっと試行錯誤が行われていると想定される
https://lambdalabs.com/blog/demystifying-gpt-3 2023/06/14 第2回情報教育の未来を考える”若手”勉強会

AIの仕組みを知る: 言語処理モデル・生成モデルとその可能性

AIの仕組みを知る: 言語処理モデル・生成モデルとその可能性

Preferred Networks PRO

More Decks by Preferred Networks

Other Decks in Technology

Featured

Transcript