Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLM時代の半導体・集積回路

 LLM時代の半導体・集積回路

Yoshioka Lab (Keio CSG)

July 17, 2024
Tweet

More Decks by Yoshioka Lab (Keio CSG)

Other Decks in Research

Transcript

  1. ◼ 2014 慶應理工学部電子工学科卒 ◼ 2014-2021 株式会社東芝 ◼ 2017-2018 スタンフォード大 客員研究員

    ◼ 2021-電気情報工学科専任講師 ◼ 専門:集積回路(LSI)、ロボットセンシング 自己紹介
  2. 5mm 2.5mm PLL+ BGR 22ch TIA for TDC 22ch TIA

    for ADC 22ch TDC 11ch ADC 11ch ADC Digital Circuits 自己紹介 ◼ 慶應大 石黒研究室 ◼ 東芝 研究開発センター 入社(2014) ◼研究の軸足:回路設計技術
  3. ムーアの法則~集積回路の発展~ Figure in courtesy of K. Rupp, “42 years of

    Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ .
  4. ムーアの法則~集積回路の発展~ Figure in courtesy of K. Rupp, “42 years of

    Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ . 世界初のCPU Intel 4004 トランジスタ数:2250
  5. ムーアの法則~集積回路の発展~ Figure in courtesy of K. Rupp, “42 years of

    Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ . 世界初のCPU Intel 4004 トランジスタ数:2250 CMOSプロセス:10um ムーアの法則:集積されるトランジスタ数は2年で倍に →CPUのトランジスタ数は1000万倍向上 Apple M2 Pro トランジスタ数:400億 CMOSプロセス:5nm
  6. ムーアの法則と限界 Figure in courtesy of K. Rupp, “42 years of

    Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ . ムーアの法則の鈍化: ・CPU性能自体はここ10年で飽和 ・CPU動作周波数も変わっていない
  7. ビヨンドムーア ~ドメイン特化~ • 集積回路は新しい時代に突入 – トランジスタの性能に頼り切ったムーア時代から脱却 – ビヨンドムーアの時代へ • 汎用計算機(CPU)から専用計算機へ

    – 特定処理を加速するアクセラレータ型プロセッサの台頭 – グラフィックアクセラレータ(GPU) • 汎用性のためDNN学習に活用 – DNNアクセラレータ • TPU、NPU等多数 https://www.joc.or.jp/sports/athletics_combined.html
  8. ◼ FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness, Tri

    Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, Christopher Ré ◼ AttentionはLLMで多様されるものの、その演算方法はGPU上で最適化されてない ◆MatMulといったレイヤ毎に全出力をメモリに書き出すのは非効率 ◆→そこでAttentionを一つの演算ブロックにまとめ(Fusing)、さらに行列計算を分割するこ と(Tiling)で可能な限り中間データをローカルメモリ内に留める LLM研究例: FlashAttention Kentaro Yoshioka(21/17)
  9. 変数の型とメモリの使い方 型 ビット数 整数型 int16 16 int32 32 int64 64

    実数型 float 32 double 64 ・・・・ 16 ・・・・・・・・・・・ 32 ・・・・・・・・・・・ 64 ・・・・ 1 8 23 符号(0:正,1:負) 指数部 仮数部 64 ・・・・ 1 11 52 32
  10. 変数の型と表現できる数値の範囲 (32bit/64bit CPU) 型 ビット数 数値の範囲 整数型 int16 16/16 ±32,767

    int32 32/32 ±2,147,483,647 int64 64/64 ±9,223,372,036,854,775,807 実数型 float 32/32 ±10-38~1038 有効桁 7 桁 double 64/64 ±10-308~10308 有効桁 15桁
  11. ◼ IEEE SSCS(Solid-State Circuits Society 集積回路)系 ◆Tier 1: ISSCC, VLSI

    (世界大会) ◆Tier 2: CICC, ESSCIRC, ASSCC(地域選抜) ◆学会投稿にはシリコン試作が必須なのが特徴 ◼ IEEE EDA (Electronic Design Automation)系 ◆Tier 1: DAC, ICCAD(世界大会) ◆Tier 2: DATE, ASP-DAC(地域選抜) ◆元々は設計技術、ツールに関する学会だったが、 最近は回路設計自体についての論文も受け付けている ⚫ 回路はシミュレーションがほとんど 集積回路学会について Kentaro Yoshioka(40/17) IO/Register circuits 1088x78 AR-CIM CTRL WL/IN ADC Output Misc. 1270um 320um 60um Register wiring