Upgrade to Pro — share decks privately, control downloads, hide ads and more …

はてなインターンシップ2024 AI 講義資料

Hatena
October 31, 2024
18

はてなインターンシップ2024 AI 講義資料

Hatena

October 31, 2024
Tweet

More Decks by Hatena

Transcript

  1. 4

  2. 8 AI 使ってる? • チャット AI ◦ ChatGPT, Claude, Gemini...

    • コード生成 ◦ GitHub Copilot, Cursor • 画像生成 ◦ Stable Diffusion, DALL·E
  3. 10 盛り上がり • ビッグテックが次々と AI モデルをリリース ◦ ChatGPT, Gemini, Llama,

    Claude, ... • 経済効果 年間2.6~4.4兆ドル相当の可能性[1] • 各社が AI を使ったサービスをリリース [1] McKinsey & Company 生成AIがもたらす潜在的な経済効果 https://www.mckinsey.com/jp/~/media/mckinsey/locations/asia/japan/our%20insights/the_economic_potential_of_generative_ ai_the_next_productivity_frontier_colormama_4k.pdf
  4. 14

  5. AI って何? • AI = Artificial Intelligence ◦ 人間の知能・知覚を模倣するコンピュータ •

    機械学習 ◦ データからパターンを学習して予測するアプローチ 16
  6. 20 様々なつなぎ方 Van Veen, F. & Leijnen, S. (2019). The

    Neural Network Zoo. Retrieved from https://www.asimovinstitute.org/neural-network-zoo
  7. 代表的なつなぎ方 畳込み(CNN) 21 再帰型(RNN) MNIST Handwritten Digits Classification using a

    Convolutional Neural Network (CNN) https://towardsdatascience.com/mnist-handwritten-digits-classification-using-a-co nvolutional-neural-network-cnn-af5fafbc35e9
  8. 26 Transformer • 2017年 『Attention Is All You Need』 ◦

    We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. • Self-Attention ◦ 入力のすべての要素との関連性を計算する機構 ◦ 局所的・全体的な関係も学習する
  9. 29 • 計算量・学習データ・パラメータ数の べき乗に比例して誤差が減少する スケーリング則 Kaplan, J., McCandlish, S., Henighan,

    T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., & Amodei, D. (2020, January 23). Scaling Laws for Neural Language Models. arXiv. https://arxiv.org/abs/2001.08361
  10. 30 • ある学習量から突然タスクが解ける ◦ 10^22~24 FLOPs • 明に学習していない 推論ができるように 創発的能力の発現

    Jason Wei and Yi Tay, Research Scientists, Google Research, Brain Team (2022), Characterizing Emergent Phenomena in Large Language Models https://research.google/blog/characterizing-emergent-phenomena-in-large-language-models/
  11. 32 ChatGPT 登場 • 2022-11 Chat GPT-3.5 • 2023-01 アクティブユーザ

    1億人超え • 2023-03 Chat GPT-4, Whisper • 2023-10 DALLE-3
  12. 34

  13. 性能競争 + 価格競争 • 学習も推論もコストがバカ高い ◦ 自分たちでやるのは現実的ではない ◦ 頑張っている会社もある •

    一方で API 値段はどんどん下がっている ◦ ユーザー奪い合いバトル • アプリ開発者として API 使うのが正着 35
  14. 38 よく見るベンチマーク • MMLU: Measuring Massive Multitask Language Understanding ◦

    57教科の様々な分野、4択問題 • GLUE, SuperGLUE: General Language Understanding Evaluation ◦ 自然言語処理のタスク ◦ 文法の正しさ, ネガポジ, 文同士が同じ意味か, ... • DROP: Discrete Reasoning Over the content of Paragraphs ◦ 文章理解 & 計算操作の必要な推論
  15. 43 じゃあ GPT4 が良いんだな • と言っていいのか? ◦ 「Claude のほうが賢い」 と言う人も多い

    • ベンチは性能の一面でしかない • 良い = 課題が解決できる
  16. 44 使いやすさ • 生成以外の機能 • コンテキストサイズ • レイテンシ • レートリミット

    • コスト & 請求 • アカウント管理 • 利用規約 ◦ 学習に使われるか • etc...
  17. 46

  18. 47

  19. 評価を考える • 「AI で良い記事タイトルをつける」 ◦ 良いって何?? ◦ 言語化 → 定量化する(できるとは限らない)

    • 基準がないと ◦ 再現性がない, 改善ができない ◦ 目視の雰囲気運用になる 54
  20. 55 従来の指標に学ぶ • 正解不正解があるもの ◦ 精度, 適合率, 再現率... • 翻訳,

    要約から ◦ BLUE, ROUGE, BERTスコア… • タスクベースの指標を参考に ◦ 音声認識 → WER, CER, … ◦ 検索 → AP, カバレッジ Hugging Face Evaluate Metric https://huggingface.co/evaluate-metric
  21. 56 LLM-as-a-Judge • LLM で LLM を評価する ◦ 一対比較, 点数付け,

    etc • 一部を人間が評価 → LLM に続き • スコアで捉えにくい良し悪しを捉える • まだまだ未開拓