Upgrade to Pro — share decks privately, control downloads, hide ads and more …

アナログが世界を救う? アナログコンピューティングの応用と課題

アナログが世界を救う? アナログコンピューティングの応用と課題

Yoshioka Lab (Keio CSG)

March 17, 2023
Tweet

More Decks by Yoshioka Lab (Keio CSG)

Other Decks in Research

Transcript

  1. 今日の流れ • 自己紹介 • 汎用からアクセラレータの時代へ • DNNアクセラレータと最適輸送の接点 • なぜ、そしていつアナログコンピューティング? •

    DNN向けアナログコンピューティング研究の紹介 −電荷領域を用いるアナログコンピューティング −時間領域を用いるアナログコンピューティング 最適輸送研究会OT2023
  2. 自己紹介 • 2014 慶應大卒 • 2014-2021 株式会社東芝 • 2017-2018 Stanford

    Visiting Scholar • 2021- 慶應大専任講師着任 吉岡研究室PI • 集積回路(LSI) − 高前田CREST(分担) 2021- アナログCIM回路 − ムーンショット6(連携) 2021- 量子コンピュータ用アナログ回路 • 3Dセンシング(LiDAR) − さきがけ(ICT) 2022- 自動運転LiDARセキュリティ 最適輸送研究会OT2023 Twitter: Kaggle:arutema47 研究室マスコット:CSG君
  3. 5mm 2.5mm PLL+ BGR 22ch TIA for TDC 22ch TIA

    for ADC 22ch TDC 11ch ADC 11ch ADC Digital Circuits •研究の軸足:集積回路設計 自己紹介
  4. ムーアの法則~集積回路の発展~ Figure in courtesy of K. Rupp, “42 years of

    Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ .
  5. ムーアの法則~集積回路の発展~ Figure in courtesy of K. Rupp, “42 years of

    Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ . 世界初のCPU Intel 4004 トランジスタ数:2250
  6. ムーアの法則~集積回路の発展~ Figure in courtesy of K. Rupp, “42 years of

    Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ . 世界初のCPU Intel 4004 トランジスタ数:2250 CMOSプロセス:10um ムーアの法則:集積されるトランジスタ数は2年で倍に →CPUのトランジスタ数は1000万倍向上 Apple M2 Pro トランジスタ数:400億 CMOSプロセス:5nm
  7. ムーアの法則と限界 Figure in courtesy of K. Rupp, “42 years of

    Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ . ムーアの法則の鈍化: ・CPU性能自体はここ10年で飽和 ・CPU動作周波数も変わっていない
  8. ビヨンドムーア ~ドメイン特化~ • 集積回路は新しい時代に突入 – トランジスタの性能に頼り切ったムーア時代から脱却 – ビヨンドムーアの時代へ • 汎用計算機(CPU)から専用計算機へ

    – 特定処理を加速するアクセラレータ型プロセッサの台頭 – グラフィックアクセラレータ(GPU) • 汎用性のためDNN学習に活用 – DNNアクセラレータ • TPU、NPU等多数 https://www.joc.or.jp/sports/athletics_combined.html
  9. アクセラレータの重要な研究課題 • ②演算回路の低電力化 – デジタル演算回路は既に最適化済み – さらなる低電力化は難しい – Extreme option:

    Analog computing!? – Required DNN arithmetic precision is low (INT2-INT8) – 低精度演算ではアナログコンピューティングにより低電力化が可能 Full(FP32) INT2 INT3 INT4 INT5 Resnet50 ImageNet top-1 0.769 0.722 0.753 0.765 0.767 Weight+Activation quantized network with PACT J. Choi, “PACT: Parameterized Clipping Activation for Quantized Neural Networks” arXiv:1805.06085
  10. デジタル回路 vs アナログ回路 • 電気回路⇔電子回路 − 電気回路:抵抗、容量、インダクタといった受動素子 − 電子回路:トランジスタを始めとする能動素子 •

    情報の増幅、記憶が可能 最適輸送研究会OT2023 Low (GND) 入力(A) VDD GND 出力(X) High (VDD ) Low (GND) 入力(A) VDD GND 出力(X) High (VDD ) Low (GND) 入力(A) VDD GND 出力(X) High (VDD )
  11. デジタル回路 vs アナログ回路 • デジタル回路 −ゲート(論理回路)に1/0信号を伝搬し計算処理 −Pros: ノイズの影響なし;高精度な計算可能(e.g. FP128) −Cons:

    低電力化ポテンシャルはない • アナログ回路 −0.1, 0.3..といった連続値を扱う −Pros: 連続値活用による高効率化 −Cons:ノイズに弱く、高精度計算には不向き 最適輸送研究会OT2023
  12. When to analog? • When is analog computation efficient? −

    At high precision (>9-10b), energy exponentially increase due to kT/C noise − Digital is efficient for binary precision; not much advantage 最適輸送研究会OT2023 [Ref] B.Murmann, “Mixed-Signal Co mputing for Deep Neural Network In ference” TVLSI 2021. Binary ~9-10b
  13. When to analog? • When is analog computation efficient? −

    Sweet spot is INT3-6, where analog is not limited by noise − Ideally, analog MAC’s energy increases linearly in this region 最適輸送研究会OT2023 Sweet spot INT3~6 [Ref] B.Murmann, “Mixed-Signal Computing for Deep Neural Netw ork Inference” TVLSI 2021.
  14. How to analog? • We cover multi-bit analog computation methods

    that can cover the INT3-6 sweet spot: − Charge-based computing • Aiming to replace the Multiply-and-Accumulate (MAC) circuit 最適輸送研究会OT2023 W[N] IN[N] +
  15. Charge-based computing • “Multiply” is done by digital, and “accumulation”

    of vector N is done in the analog domain → realize binary MAC − Can integrate weights memory and process as “in-memory computing” 最適輸送研究会OT2023 [Ref] H. Valavi, “A 64-Tile 2.4-Mb In-Memory- Computing CNN Accelerator Employing Charge -Domain Compute”, JSSC 2019. Inputs [1:N] W[0] IN[0] W[N] IN[N] Accumulate via charge 電荷領域(Q=ΣCV)で演算 ・2000要素のベクトル加算を1サイクルで実施 ・必要回路要素がデジタル回路に比べ少なく、 低電力化を実現 ADC
  16. Multi-bit extension • How can we extend to multi-bit MACs?

    − Binary computation can extend to arbitrary precision by “bit- serial” processing 最適輸送研究会OT2023 1010 x 0101 1010 0000 1010 0000 110010 4b x 4b broken up to 16 binary multiple&adds C.Eckert, “Neural cache: Bit-serial in-cache acceleration of deep neural networks” ISCA 2018.
  17. Multi-bit extension • How can we extend this to multi-bit

    MACs? − Binary computation can extend to arbitrary precision by “bit- serial” processing 最適輸送研究会OT2023 1010 x 0101 1010 0000 1010 0000 110010 Vectorize bit-serial operation [Ref] H. Jia, “A Programmable Hete rogeneous Microprocessor Based on Bit-Scalable In-Memory Computi ng”, JSSC 2020.
  18. Pros/Cons of Charge-based computing • Pros: − Realize extremally small

    “in-memory computing” cell − Amortize ADC cost by increasing column size to >2000 • Cons: − Arithmetic precision limited by ADC resolution • Tradeoff between precision vs readout energy 最適輸送研究会OT2023 IO/Register circuits 1088x78 AR-CIM CTRL WL/IN ADC Output Misc. 1270um 320um 60um Register wiring
  19. Time/Phase domain Computing 最適輸送研究会OT2023 • Target low-area and 8-bit MAC

    resolution − Realize analog computation for wide application with low cost Time domain approach → Accumulates pulse length → Multiple DTC required  DTC: Digital-to-time-converter DTC DTC DTC DTC [Miyashita, ASSCC2017]
  20. Time/Phase domain Computing 最適輸送研究会OT2023 • Target low-area and 8-bit MAC

    resolution − Realize analog computation for wide application with low cost Time domain approach → Accumulates pulse length → Multiple DTC required  DTC: Digital-to-time-converter DTC DTC DTC DTC [Miyashita, ASSCC2017] Proposed phase domain approach → Accumulates phase → Only single DTC + Gated Ring Oscillator Require digital cells only; small area and scalable DTC Gated Ring Oscillator (GRO) IN Weight Output [Yoshioka, VLSI2018][Toyama, ASSCC2018]
  21. PMAC: Phase domain MAC 最適輸送研究会OT2023 Phase Domain Digital MAC Resolution

    1~8 bit 1~64 bit Norm. Area /Bit 1.2 1 Norm. Power 0.125 1 • Target low-area and 8-bit MAC resolution − Realize analog computation for wide application with low cost Proposed phase domain approach → Accumulates phase → Only single DTC + Gated Ring Oscillator Require digital cells only; small area and scalable DTC Gated Ring Oscillator (GRO) IN Weight Output [Yoshioka, VLSI2018][Toyama, ASSCC2018]
  22. Fabricated chip 最適輸送研究会OT2023 35um 35um GRO MAC core DTC GRO

    Read out Asyn. Timing circuit Output circuits LOGO FPGA Board ARTY Artix 7 MAC input Trigger MAC output Finish signal PC to monitor outputs 32FP 8b PMAC Validation Results[%] 98.2 98.1 MNIST classification (10000 test data) results Input Layer Output Layer 784 10 MNIST DNN H1 256 H2 256 H3 256 H4 256 *98.2% was the limit for fully-connected NNs
  23. Pros/Cons of PMAC • Pros: − Achieves high-accuracy MAC operation

    within the analog computation sweet spot (INT3-6) − Does not require high-precision ADC • Cons: − Only supports output-stationary dataflows • Cannot adapt in-memory architectures − Only proven with a single MAC circuit • Entire analog accelerator efficiency is unknown − 逐次演算のみ対応、並列計算は出来ずスループットは電荷型に劣る 最適輸送研究会OT2023