はてなインターンシップ2024 AI 講義資料

AI 講義 id:pokutuna 2024/08/21 Hatena (Summer) Internship 2024 1

2 ようこそはてなインターンへ

ぽくつなです id:pokutuna • 2011 インターン 2013 入社 • チーム歴 Miiverse
➡ カクヨム➡ PF ➡ BizPF ➡ 新規アイコン 3

5 「なんか AI で面白い話して」

今日の内容 • AI の盛り上がりの背景がわかる • AI をプロダクトに使う時の視点がわかる • 「へー」と思う 6

三ない運動 • 課題なし • 配属後にたぶん使わない • 数理的な話なし 7

8 AI 使ってる? • チャット AI ◦ ChatGPT, Claude, Gemini...
• コード生成 ◦ GitHub Copilot, Cursor • 画像生成 ◦ Stable Diffusion, DALL·E

9 AI めちゃくちゃ盛り上がっている

10 盛り上がり • ビッグテックが次々と AI モデルをリリース ◦ ChatGPT, Gemini, Llama,
Claude, ... • 経済効果年間2.6～4.4兆ドル相当の可能性[1] • 各社が AI を使ったサービスをリリース [1] McKinsey & Company 生成AIがもたらす潜在的な経済効果 https://www.mckinsey.com/jp/~/media/mckinsey/locations/asia/japan/our%20insights/the_economic_potential_of_generative_ ai_the_next_productivity_frontier_colormama_4k.pdf

11 盛り上がり • ChatGPT のブレイクスルー ◦ ひとめで分かるすごさ・知識があるように見える • 従来の機械学習と違う体験 ◦
生成的である ◦ 専門家でなくても使える • 1つのモデルで多様なタスクができる

12 多様なタスクを解ける

13 多様なタスクを解ける

15 ちょっと立ち戻って

AI って何? • AI = Artiﬁcial Intelligence ◦ 人間の知能・知覚を模倣するコンピュータ •
機械学習 ◦ データからパターンを学習して予測するアプローチ 16

17 人工知能学会　AIマップタスクフォース『AIマップβ 2.0 AI研究初学者と異分野研究者・実務者のための課題と技術の俯瞰図』p12-13 https://www.ai-gakkai.or.jp/aimap/ いろいろな課題領域

18 ニューラルネットワーク

ニューラルネットワーク 19 Overview of a Neural Network’s Learning Process https://medium.com/data-science-365/overview-of-a-neural-networks-learning-process-61690a502fa

20 様々なつなぎ方 Van Veen, F. & Leijnen, S. (2019). The
Neural Network Zoo. Retrieved from https://www.asimovinstitute.org/neural-network-zoo

代表的なつなぎ方畳込み(CNN) 21 再帰型(RNN) MNIST Handwritten Digits Classiﬁcation using a
Convolutional Neural Network (CNN) https://towardsdatascience.com/mnist-handwritten-digits-classiﬁcation-using-a-co nvolutional-neural-network-cnn-af5fafbc35e9

ニューラルネットワーク • ニューロンの集合である • 様々なネットワークのつなぎ方がある • 特徴を捉えるための工夫が反映されている ◦ CNN: 特徴の位置関係
◦ RNN: 系列の順序依存関係 • 大規模言語モデル(LLM)はニューラルネット 22

23 ニューラルネットの発展

24 発展を促すできごと • AlexNet (2012) • Transformer (2017) • スケーリング則
(2020) • 創発的能力の獲得 (2022)

AlexNet • 画像認識コンペで圧勝 ◦ GPU を利用した学習 ◦ データ拡張、ドロップアウト 👉 ディープラーニングが流行る
25

26 Transformer • 2017年『Attention Is All You Need』 ◦
We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. • Self-Attention ◦ 入力のすべての要素との関連性を計算する機構 ◦ 局所的・全体的な関係も学習する

27 Transformer • (ある程度)汎用的なアーキテクチャ ◦ 実装の共通化 & 相互利用性が高まる 🤗 👉
研究が加速 ◦ アーキテクチャの探索 → 大規模化・効率化

28 LLM Visualization https://bbycroft.net/llm Transformer

29 • 計算量・学習データ・パラメータ数のべき乗に比例して誤差が減少するスケーリング則 Kaplan, J., McCandlish, S., Henighan,
T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., & Amodei, D. (2020, January 23). Scaling Laws for Neural Language Models. arXiv. https://arxiv.org/abs/2001.08361

30 • ある学習量から突然タスクが解ける ◦ 10^22~24 FLOPs • 明に学習していない推論ができるように創発的能力の発現
Jason Wei and Yi Tay, Research Scientists, Google Research, Brain Team (2022), Characterizing Emergent Phenomena in Large Language Models https://research.google/blog/characterizing-emergent-phenomena-in-large-language-models/

31 今へ戻る

32 ChatGPT 登場 • 2022-11 Chat GPT-3.5 • 2023-01 アクティブユーザ
1億人超え • 2023-03 Chat GPT-4, Whisper • 2023-10 DALLE-3

33 競争の激化 • 各社が次々と新モデルをリリース • 学習コスト・パラメータ数の増加 ◦ 23年7月 Llama2 70B
→ 24年7月 Llama3.1 405B ◦ Llama3.1 学習 3,930万 GPU 時間 (405B ≒ 810GB)

性能競争 + 価格競争 • 学習も推論もコストがバカ高い ◦ 自分たちでやるのは現実的ではない ◦ 頑張っている会社もある •
一方で API 値段はどんどん下がっている ◦ ユーザー奪い合いバトル • アプリ開発者として API 使うのが正着 35

36 良いモデルを選ぶには?

37 OpenAI (2024), Hello GPT-4o, https://openai.com/index/hello-gpt-4o/ ベンチマーク

38 よく見るベンチマーク • MMLU: Measuring Massive Multitask Language Understanding ◦
57教科の様々な分野、4択問題 • GLUE, SuperGLUE: General Language Understanding Evaluation ◦ 自然言語処理のタスク ◦ 文法の正しさ, ネガポジ, 文同士が同じ意味か, ... • DROP: Discrete Reasoning Over the content of Paragraphs ◦ 文章理解 & 計算操作の必要な推論

39 MMLU 🙈 https://huggingface.co/datasets/cais/mmlu/viewer/world_religions/test

40 MMLU 日本がキリスト教とヨーロッパから閉ざされた期間は、次のどれですか。 🙈 https://huggingface.co/datasets/cais/mmlu/viewer/world_religions/test A: 1749-1945 B: 1052-1616
C: 1641-1853 D: 1517-1870

41 MMLU 日本がキリスト教とヨーロッパから閉ざされた期間は、次のどれですか。 https://huggingface.co/datasets/cais/mmlu/viewer/world_religions/test A: 1749-1945 B: 1052-1616 C:
1641-1853 D: 1517-1870

42 DROP 日本では、スーパーファミコン版のファイナルファンタジーIVが 144万本売れた。プレイステーション版は1997年に日本でさらに26万1000本売れた。2003年3月31日までに、プレイステーションとワンダースワンカラーのリメイク版を含むこのゲームは世界中で216万本出荷され、そのうち182万本が日本で、34万本が海外で出荷された。ニンテンドーDS版が発売される直前の 2007年の時点で、このゲームは世界中で約300万本売れた。ゲームボーイアドバンス版は、2006年末までに日本で21万9000
本以上売れた。2009年5月までに、このゲームのDS版は世界中で110万本売れた。 Q: スーパーファミコン版のファイナルファンタジーIVは、DS版より何百万本多く売れたのでしょうか？ https://huggingface.co/datasets/ucinlp/drop/viewer/default/train?q=Japan&row=76857 1.44 - 1.1 = 0.34

43 じゃあ GPT4 が良いんだな • と言っていいのか? ◦ 「Claude のほうが賢い」と言う人も多い
• ベンチは性能の一面でしかない • 良い = 課題が解決できる

44 使いやすさ • 生成以外の機能 • コンテキストサイズ • レイテンシ • レートリミット
• コスト & 請求 • アカウント管理 • 利用規約 ◦ 学習に使われるか • etc...

45 プロダクトに組み込むには?

48 toitta

LLM の得意なこと • なめらかなテキスト生成 • 要約 • 非構造化データの読み取り • 推論・優先順位付け
• 従来の自然言語処理タスク(ものによる) 49

LLM の苦手なこと • 最新情報に基づく出力 • 専門知識が必要なもの • 正確性が要求されるもの • 数値計算
50

51 SUZURI 商品説明生成

52 Leading Drive-Thru Innovation with Wendy’s FreshAI https://www.wendys.com/blog/drive-thru-innovation-wendys-freshai Wendy's ドライブスルー

53 評価

評価を考える • 「AI で良い記事タイトルをつける」 ◦ 良いって何?? ◦ 言語化 → 定量化する(できるとは限らない)
• 基準がないと ◦ 再現性がない, 改善ができない ◦ 目視の雰囲気運用になる 54

55 従来の指標に学ぶ • 正解不正解があるもの ◦ 精度, 適合率, 再現率... • 翻訳,
要約から ◦ BLUE, ROUGE, BERTスコア… • タスクベースの指標を参考に ◦ 音声認識 → WER, CER, … ◦ 検索 → AP, カバレッジ Hugging Face Evaluate Metric https://huggingface.co/evaluate-metric

56 LLM-as-a-Judge • LLM で LLM を評価する ◦ 一対比較, 点数付け,
etc • 一部を人間が評価 → LLM に続き • スコアで捉えにくい良し悪しを捉える • まだまだ未開拓

57 まとめ

58 話したこと • AI の盛り上がりと昨今の背景 • 課題を解決できるのが良いモデル • チャットだけじゃない得意を活かそう •
継続的な評価の仕組み重要

59 話していないこと • Embedding & RAG • 画像生成、拡散モデル • CLIP、マルチモーダル化
• Encoder-Decoder • etc...

60 これからどうなる? • このまま性能向上していく? • 小さいモデルの実用性が上がる? • 追加学習の技術が発達する? • AI
開発に関わらずに済む?

61 おわり

はてなインターンシップ2024 AI 講義資料

はてなインターンシップ2024 AI 講義資料

More Decks by Hatena

Featured

Transcript