Upgrade to Pro — share decks privately, control downloads, hide ads and more …

今のコンピュータ、AI にも Web にも 向いていないので 作り直そう!!

Avatar for piacerex piacerex
November 05, 2025

今のコンピュータ、AI にも Web にも 向いていないので 作り直そう!!

Avatar for piacerex

piacerex

November 05, 2025
Tweet

More Decks by piacerex

Other Decks in Technology

Transcript

  1. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい 今のコンピュータ、AI にも Web にも 向いていないので 作り直そう!! Aug.

    13, 2025 ver 0.1 created. Sep. 16, 2025 ver 0.2 updated Sep. 27, 2025 ver 0.3 updated Oct. 12, 2025 ver 0.4 updated Oct. 19, 2025 ver 0.5 updated Oct. 26, 2025 ver 0.7 updated Nov. 01, 2025 ver 0.8 updated Nov. 02, 2025 ver 0.9 updated Nov. 03, 2025 ver 1.0 updated 株式会社DigiDockConsulting 常務取締役CETOほか5社CxO Elixirコミュニティ「fukuoka.ex」「ElixirImp」「LiveView JP」オーガナイザ 国際カンファレンス「ElixirConf JP」ファウンダー 北九州市立大学 「プログラミング論」教授級非常勤講師 北九州高等専門学校 特命教授 / コンピュータ研究部 指導員 AIスクール「AIジョブカレ」福岡校開校講師 piacere / 森 正和 AIの先のまだ見ぬ未来へ。加速するエンジニアリングの最前線
  2. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい 生成AIの盛り上がりによる電力不足のせい? • 生成AIが広く認知された 2023年後半、AIの電力 消費に注目が集まる ◦ 2023年末にQiita

    コラム でこの件まとめています ◦ 「Qiita AI Elixir」で検索 • データセンター電力不安 等で住民反対運動も増加 ◦ 国内だと印西市や日野市 ◦ 海外だとテキサス州やペン シルバニア州、ウィスコン シン州、ニューメキシコ州 が有名
  3. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい いいえ … AI以前にWeb+NWの方が2倍深刻 • 2024年時点でWeb+NWの電力消費量はAIの2倍もあり AIの方が高いCAGRであっても追いつくには時間がかかる ◦

    全世界データセンター合計 … 約415TWh/年 ◦ うちAI関連 … 約140 TWh/年 ◦ うちWeb+NW関連 … 約275 TWh/年 (AIの1.96倍) Data centre electricity consumption by region, Base Case, 2020- 2030 https://www.iea.org/reports/energy-and-ai/energy-demand-from-ai Data center energy and AI in 2025 https://www.devsustainability.com/p/data-center-energy-and-ai-in-2025 • データセンターの電力消費量 はIT全体の約30~40%を占め IT全体は1,037~1,380TWh • 総発電量は30,856TWh/年で うちIT利用分は3.3~4.5% ICT energy evolution: Telecom, data centers, and AI https://www.ericsson.com/en/reports-and-papers/white- papers/ict-energy-evolution-telecom-data-centers-and-ai Global Electricity Review 2025: Global Electricity Trends https://ember-energy.org/latest-insights/global- electricity-review-2025/global-electricity-trends
  4. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい 2030年以降のITの電力消費量はどうなる? • CiscoのデータセンターIPトラフィック実測値を土台に、 近年CAGR20%から各年の流量を求め、電力消費量がIP トラフィック量に比例しつつ、年効率改善は1.5%とする 前提※で電力消費量を算定 ※下記JST低炭素社会戦略センターの「情報化社会の進展がエネルギー消費に与える影響

    (Vol.1) で用いら れている算定方法を採用 … なお本レポートの想定は上記算定より悲観的である https://www.jst.go.jp/lcs/pdf/fy2018-pp-15.pdf • 2030年の電力消費量は現在の2~3倍、2050年には現在 の69~91倍まで増加 (現総発電量の3倍を超えている!) ◦ 現在のIT消費1,037~1,380TWh/年、総発電量30,856TWh/年 Cisco Global Cloud Index 2015-2020 https://www.cisco.com/c/dam/m/en_us/ser vice- provider/ciscoknowledgenetwork/files/622_1 1_15-16-Cisco_GCI_CKN_2015- 2020_AMER_EMEAR_NOV2016.pdf Nokia Global Network Traffic Report 2023-2033 https://www.nokia.com/asset/213660/
  5. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい 2030年にはAIもWeb+NWも使えなくなる… • 2030年 … 総発電量を3倍に増やすか、コンピュータの消 費電力を67%削減しなければいけません ◦

    総発電量増加で実現 … 全世界6万基の発電所を18万6千基に増加 ◦ 物理的には不可能では無いが、あと5年で社会を大変革するレベル • 2050年 … 総発電量を91倍に増やすか、消費電力 98.9% 削減 (現在の僅か1%!!) が必要 ◦ 総発電量増加で実現 … 発電所数を6万基から546万基に増加 ▪ 地表面には収まる一方、建造資源が賄えない
  6. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい 根本原因は「コンピュータのアーキテクチャ」 • これらの問題は、現代コンピュータを支えるノイマン型 アーキテクチャの「フォン・ノイマン・ボトルネック (以降VNBと略)」に主要因がある ◦ 1命令毎のメモリアクセスがあり、CPU/GPUよりも激重なメモリ

    を待つムダもあり、ムダな電力消費 と 性能劣化、排熱 が起こる • この講演は、このVNBを含むAIとコンピュータの7つの 課題に切り込み、ソフトウェア開発とクラウド利用だけ では見えにくい現代コンピューティング の課題に切り込みます • その発見に至る原体験と、解決に向けた 私たちの活動/成果も紹介します
  7. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい my favotite technologies & implements => real

    / realization digitalization digital twin (VR/AR) => X/ Resonite @piacere_ex Qiita / Github / YouTube / Discord @piacerex 44年前からプログラマ (職業歴は31年) PL/PM歴 29年 PdM歴 21年 PO歴 17年 アジャイル歴 25年 (eXtreme Programmingメイン) 書けるプログラミング言語 159言語 IT経営歴 15年 VR/AR歴 5年 コスプレ歴 2年 小3でゲームプログラミングを始め、現在もプロダクト とOSSを開発するエンジニア+6社経営+技術顧問2社 大手企業をメイン顧客とし、新規事業+プロダクトの 同時立上げ支援とUX・D2C、データマーケティング、 並行・分散/VR・AR・AI融合、独自HW技術を提供 fukuoka.exほか技術コミュニティを複数主催し、毎月 イベント開催とLT、ライブコーディングを国内外展開 AIとプログラミングの講義も、大学/自治体/企業に piacere / 森 正和 “piacere” is an Italian word, means “Joy”
  8. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい fukuoka.ex#53 Elixir Lightning Talks!! fukuoka.ex#54 Elixirで宇宙衛星/エッジ コンピューティング/Web

    @マネーフォワード 【東京←→福岡2拠点開催】 QUNOG 10周年祝 fukuoka.exとkokura.ex って何ソレ、美味しい? … つまみ食い コロナ明けからは メイドアバターのコスプレで登壇/司会
  9. ver 1.0:2023/3/9 fukuoka.ex#53 Elixir Lightning Talks!! ver 1.8:2023/6/2 ミニスカ実装 (暑くて…)

    ver 1.9:2023/6/15 ver 2.0:2023/6/22 fukuoka.ex#54 Elixirで宇宙衛星/エッジ コンピューティング/Web ver 2.6:2024/10/11 50歳でコスプレ/女装 友達が100人増えたw ver 2.5:2024/10/9 ver 2.9:2024/10/18 QUNOG 10周年祝 fukuoka.exとkokura.ex って何ソレ、美味しい? … つまみ食い 20代後半に戻る50歳 体重:-9.5kg 体脂肪:-8.9kg (-9.3%) ウエスト:-16cm 血管年齢:-28歳 シックスパック30年ぶり ver 3.0:2024/10~11 青髪メイド以外のブランチ もテスト → ピボット ver 3.5:2024/11/17 門司港コスプレピクニック キャラものコスプレイヤーとしてIT登壇以外に進撃 ※コスプレ/女装はあくまでアバターの実体化(`・ω・´)ゞ ガチ感高めだが、そっちの趣味に目覚めたとか、恋愛的好みが変わった等では無いw ver 0.0:2020/5/24
  10. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい nana: 外出先からオートロック解除で置き配+不在票要らず 北九州マンション3棟に導入済 → 200戸 x 10棟マンション級の準備中

    自動ドア開閉はAzure IoT Hub経由、 インターフォン代わりのスマホアプリ とエントランスに置く部屋呼出用iPad ElixirDesktop製 Instagram … https://www.instagram.com/kyouei.taro/reel/DIAs5t5T87a full purduct
  11. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい nonfi: VR/CADデータを現実世界に現界 (まるで固有結界) 土木現場や高校の授業、BIMに採用 → AI+AR観光案内に転用開始 AR

    グ ラ ス に よ る 一 人 者 視 点 + 実 物 の 第 三 者 視 点 カ メ ラ .mp4 RTK測位で誤差2cm位置合わせ実現、VR/CADデータをリアルタイム反映
  12. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい Bright: スマホでポチポチすればスキルup & 成長可視化 医療向けバージョンもローンチ → IT版を遥かに超えるパイに拡大予定

    • 400いいね超えの開発ストーリー、Qiitaコラムあります ◦ 「Elixir Bright 今」でググってください full purduct https://bright-fun.org from エンジニアとデザイナー、 マーケター、PdM/PjM/ PMM等、プロダクト開発に 携わるメンバーや管理者の スキルを見える化できる 現在スキルだけで無 く過去の成長履歴も 確認できるので成長 スピードを比較可能 チーム全員のスキル バランスも一覧化
  13. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい CodeLingo: AIで生産性3倍の自走エンジニアを高速育成 研修+eラーニング教材制作ノウハウSaaS化 → IT以外の研修にも展開 https://app.codelingo.tech/users/register from

    full purduct プロンプトを入力する だけで教材と、教材に 沿ったテストをAI生成 (専門知識が無くても AIがフォローします) 既存のLMS/XLPに 後付けで補足教材や テストを追加も可能 先月開催された NexTech Week にブースを出展 教材 テスト AI
  14. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • 2012年からピーク時60,000TPS※1の超大規模なスマホ 向け課金/認証基盤開発していたが、500台のオンプレ アプリサーバー※2 とTimescaleDB的な高速追記型DBで もFullGC全台停止が免れず、休日返上で追い込まれた ※1:

    1秒間に60,000トランザクションの処理、2025年時点だとVISAカード の最大許容量に相当 ※2: クラウドは、2014年頃まで国内で主流で無く、オートスケール等の概念 も一般的では無かった • メジャーな言語から Elixir に書き換えたらアプリサー バーを30台に削減できた • 参考: Pinterestは1,400台のサーバーを70台に削減 https://paraxial.io/blog/elixir-savings 【13年前】60,000TPSの高負荷が捌けない!!
  15. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • 2016年から200社のデータ分析 (見込顧客/購買データ) を日時で行うSaaS開発していたが、日時バッチが1日で 完了せず、終わらない性能改善に労務環境もブラック化 ◦ 当時、AWS最速の64コア搭載m4.16xlargeでも結果

    が出るまで28時間かかっていた • こちらもメジャーな言語から Elixir によるマルチコア 処理に書き換えたら、20分以内に完了した ◦ 前述の大量リクエストは、電話交換機を出自に持つElixirの得意技 なのは知っていたが、データ分析にも強いことを初めて知った • 現代コンピュータと主流の言語に疑問を抱くように… 【9年前】200社のデータ処理が終わらない!!
  16. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • Elixir の威力と沢山の良さを共有したいと思い、Elixir コミュニティ「fukuoka.ex」を2017年6月に発足 ◦ プログラマを苦しめない/夜間コールで起こされない ▪

    年単位でダウンしないメモリクリーンな構造 ▪ スタートアップ/グロース時に性能問題が出ない ▪ アクターモデル: 副作用の並行利用時にロック不要 ▪ イミュータブル: キャッシュコヒーレンシ回避 ▪ プロセス起動制御: 障害の切り離しと耐障害性 ◦ チーム開発が快適で運用・保守をラクにする言語仕様 ▪ 開発効率の高さ (状態に惑わされない、パターンマッチで明示) ▪ エンジニア育成のスピーディさ/確実性 ▪ データフロー仕様を直接記述でき、Ruby的なフレンドリーさ 【8年前】Elixirの力を「fukuoka.ex」で共有
  17. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • fukuoka.exは Elixir の情報共有だけで無く、ハード コアなコンピュータサイエンスも追求するコミュニティ ◦ GPUドライバ開発、FPGAドライバ開発

    ◦ 海外カンファレンス登壇、論文寄稿、ポスター発表 • こうした活動の中で、ノイマン型や旧来言語の問題点に 気付き、その解消をElixirで行う中で非ノイマン型が構成 できるFPGAを研究し、Elixir とセットで既存のCPUや GPUを超える独自チップの可能性に気付きました • 7つの課題も、こうしたプロセスで発見したものです ハードコアなCSも追求する「fukuoka.ex」
  18. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • 生成AIの中核「Multi-head Attention」※はGPU向き で無い処理が60%もあり、HW性能を引き出せていない ※GPT-4以降は改良版の「Grouped Query Attention」だが課題はほぼ同列扱い

    ◦ a)O (n²) メモリ輻輳x5 (スコア行列、加重和ほか) ◦ b)並列化を阻害する依存構造 ▪ 全トークン同士の依存 ▪ 未来トークン参照禁止依存 ▪ 分岐待機 (動的マスク等) ◦ c)分割演算が苦手 ◦ d)ランダムアクセスが苦手 ▪ QからK参照、スコアからVの加重和、動的マスク、MoEバッチ 課題①: 生成AIの60%はGPU向きでは無い
  19. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • e)学習時固有の問題点 FFN/MoE/Router/LayerNorm/Softmax含む ◦ 小型処理GPU占有 … LayerNorm/Router等で失速

    ◦ 小バッチが苦手 … Fine TuningやLoRAでは性能出ない ◦ HBM帯域不足 … 数T b/s程度ではGPUコアを持て余す ◦ NW速度制約※ … 大規模AI学習はNW遅延でGPUが遊ぶ ※1 課題④「VNBが原因でNW帯域をフル活用できない」で詳述 • f)推論時固有の問題点 ◦ 小バッチ/少トークン … 推論時には性能が出ない ◦ 過剰パーツ消費電力 … 推論だと稼働しないGPUコア/HBM ◦ 量子化が苦手 … INT4等や混合ブロック精度に未対応 ◦ リアルタイムが苦手 … GPU自体そもそも向いてない ◦ 学習以上に推論のムダな電力消費/性能劣化が甚大!! 課題①: 生成AIの60%はGPU向きでは無い
  20. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • 現行CPU/GPUの性能向上は、プロ セスルールが幅を利かせているが、 物理限界に制約され間もなく頭打ち • 1nm縮めても消費電力/性能劣化は 約15%向上だが、下記VNB損失量

    はその2~3世代分とかなり大きい ◦ CPU性能と比べ、メモリアクセスは遅く、CPUが空回りしている ◦ 命令とデータが共通バスで同時アクセスされ、競合するため詰まる ◦ 生成AIでは大型テンソル転送と分岐待機多発でVNB損失より顕著 • にも関わらず、VNBはプロセスルールほどはCPU/GPU の性能向上として注目されていない 課題②: VNBはプロセスルールより影が薄い 4nmまでのFinFET が歩留まり、物理構 造変えたが各種限界 を迎え頭打ち
  21. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • 2014年まで改善し続けたDCのPUE (≒電力効率) は冷却 /電源設備の負荷増大で横ばいで、コレ以上CPU/GPU の高性能化はDC運用としてペイしない限界を迎えている •

    冷却/電源設備の負荷増大の原因 は、CPU/GPUの排熱の増加で 2014年以降、冷却設備の消費電力 の方が上回ってしまった • 建設地域の電力をDCが占有したり 排熱ヒートアイランド懸念で住民 反対運動の火種になっている 課題③: 電力増加による高性能化はもう限界 平均PUEは1.58 都市型は1.5~2.0で この平均より低い
  22. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • NWパケット処理はVNB4点 x 上下8点で演算より深刻 • SmartNIC/DPU/GPUDirect/XGMI/CXL/RDMA/ NVLink等により、NWからOS手前の前半部は改善するが

    OS以降からアプリまでの後半部分は改善できない ◦ フォトニクス (NVLink OpticalやIOWN等) でも同様 • NW機器にもVNBがあり、回線使用率10~40%に留まる 課題④: NW帯域もVNBでフル活用できない NW回線 NIC VNB発生① PCIe内振り分け メモリにDMA転送 VNB発生② 割り込み OSでTCP/IP処理 VNB発生③ アプリ VNB発生④
  23. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • コンピューティングが大量ユーザー (2010年以降)/大量 データ (2015年以降) へと変わり、CPU/GPUもマルチ コア主流

    (2003年以降) となっているが、2010年以前に 誕生した言語が慣例的に使われ、マルチコア対応が困難 ◦ マルチコアはアイドル状態でも40%近い電力を消費し、シングル コア向けプログラミングをすると、ムダな電力消費が放置される • メモリ破壊的更新は、キャッシュ コヒーレンシとロック管理で性能 劣化/消費電力増大/実装複雑化 • その回避や性能担保のために プログラマが苦労を強いられる 課題⑤: シングルコア前提の言語が主流 年毎の最新CPUクロック周波数の変化 Hennessy, J. L. and Patterson, D. A.: Computer Architecture: A Quantitative Approach, Morgan Kaufmann, 6th edition (2017).
  24. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • ここまで述べたノイマン型アーキテクチャの課題を解決 すべく非ノイマン型が研究されているが、実用になって いるもの※は特殊目的向けの僅かのみ ※Google TPU、Perfered Network

    MN-Core、Graphcoreなど • もしプログラミングの機会があっても、普通のWeb/ IoT/AIプログラマが使う言語※や開発知識が使えない ※言語そのものは利用できても、実際は特化DSLやHWレベルの知識が必要で困難 • 非ノイマン的プログラミング※も技術的には可能だが普通 のプログラマの範疇を超えており、全てのプログラマが 実施可能では無い ※GPUローカルメモリ高効率利用、CPUキャッシュアウト抑制などTPU的なアイデア 課題⑥: プログラマ、非ノイマン型は開発困難
  25. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • ノイマン型でもSWをHW化すればシンプルに省電力化/ 高速化できるので、ASIC/SoC/FPGA化は有望 ◦ 身近な例で言えば、レイヤー1~3のNW機器は多くが ASIC/SoC化されている •

    しかし非ノイマン型同様、ASIC/SoC開発も普通の Web/IoT/AIプログラマではプログラミングできない ◦ RTL…Verilog、SystemVerilog、VHDL ◦ HLS…C++、Scala、MATLAB、Python、OpenCL※ ※言語そのものは利用できても、実際は論理回路DSLやHWレベル知識が必要 • レイヤー4以上のNW機器がASIC/SoC化されないのも、 上記言語のASIC/SoC開発が困難でペイしない点がある 課題⑦: プログラマ、ASIC/SoCも開発困難
  26. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • 課題①: 生成AIの60%はGPU向きでは無い ◦ GPU向きで無い処理が60%も存在、推論ではGPUを持て余す • 課題②/③:

    VNBはPRより影薄い、高性能化はもう限界 ◦ 物性での改善は歩留まりでVNB見逃し、高性能化は排熱で頭打ち • 課題④: VNBが原因でNW帯域をフル活用できない ◦ パケット処理もVNBで大幅遅延、SmartNIC等でも解消できない • 課題⑤: シングルコア前提の言語が主流 ◦ 旧言語でHW性能が引き出せない、プログラマは苦労を強いられる • 課題⑥/⑦: 非ノイマン/ASIC/SoC開発不可 ◦ 普通のWeb/IoT/AIプログラマは非ノイマンやASIC/SoC開発難 まとめ: AIとコンピュータの7つの課題
  27. 下記中の「お問い合わせ」 で今回講演の感想やコラボ 提案等いただけたら嬉しい • 先に述べた課題を放置すると「人類が詰む」と分かった 私達は、この状況の打開を fukuoka.ex 設立からの8年 間、模索し続けてきました •

    その結果、「FPGA上に実装されたElixir」が、 全ての課題を解決可能であることが分かりました • 2030年の電力不足は FPGA版ElixirChip を用いた 製品が世に広まれば解消される見込み ◦ 2050年も ASIC/SoC版ElixirChip で片付きそう • まずは FPGA版ElixirChip の基本性能を見てから 課題①~⑦がどのように解決されるか見ていきましょう
  28. 下記中の「お問い合わせ」 で今回講演の感想やコラボ 提案等いただけたら嬉しい • DC1世代前Xeon Silver 4309Y比較で性能3.3倍、電力 99.92%削減、価格1/3、消費電力あたり性能4,125倍 • 現行世代Xeon

    Gold同等性能、98.6%削減、価格1/15 • 3台あれば、EPYCやThreadRipperの最新機より高性能 で電力96.9%削減、価格1/10 … スパコンとバトれる? 現役CPUを上回るFPGA版ElixirChip
  29. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい ①解決: FPGA版ElixirChipは生成AIにマッチ • GPUは生成AI実行時に60%のムダがあったが、FPGA版 ElixirChipはそれらムダを下記によって大幅に緩和 ◦ a)O

    (n²) メモリ輻輳x5 ※トークン数はモデルに依存 … 3~10倍 ▪ ~400トークン: メモリ転送削減 (BRAM/UltraRAM上搭載) ▪ ~8,000トークン: HBMプリフェッチ (HBMからBRAM/ UltraRAMにストリームプリフェッチでオンチップ処理化) ▪ それ以上: DDRプリフェッチ (DDRからHBMもプリフェッチ) ◦ b)並列化を阻害する依存構造 … 5~10倍 ▪ マルチヘッド/トークン依存/MoEはHWパイプラインで演算 を独立化し、結果を集約すれば、分岐待機を緩和できる ◦ c)ヘッド分割でコア性能劣化 … 2~6倍 ▪ 各ヘッド用HWパイプラインでヘッド間移動不要、CC除去
  30. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい ◦ d)ランダムアクセスが苦手 … 3~10倍 ▪ Q/K/VをHBMからBRAM/UltraRAMにストリームプリフェ ッチ/オンチップ化し、ランダムアクセスを高速化

    • e)学習時固有の問題点 FFN/MoE/Router/LayerNorm/Softmax含む ◦ HBM帯域不足 … 2~5倍 ▪ BRAM/UltraRAMにオンチップ化し、HBM帯域依存を緩和 ◦ 小型処理GPU占有 … 2~4倍 ▪ 小型処理を各独立でロジック化できるので占有無 ◦ 小バッチが苦手 … 2~4倍 ▪ 小バッチに最適化されたHWパイプラインで効率低下は無 ◦ NW速度制約 … 2~8倍 ▪ RDMA/NVLink転送相当をFPGA上でストリーム化 ①解決: FPGA版ElixirChipは生成AIにマッチ
  31. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • f)推論時固有の問題点 ◦ 小バッチ/少トークン … 4~12倍 ▪

    バッチ単位/トークン単位に最適化されたHWパイプライン ▪ ヘッド/トークンをBRAM/UltraRAMストリームプリフェッチ ◦ 過剰パーツ消費電力 … 4~10倍 ▪ 未使用ブロックを個別に停止 or 省電力化 ◦ 量子化が不得手 … 2~6倍 ▪ INT4等や混合ブロック精度を混在可能 ◦ リアルタイム不得手 … 4~12倍 ▪ 入力直後からの即時処理はFPGAの得意分野 ▪ GPU特有のカーネル切替/分岐・小規模演算待機などが無い ▪ Attention/FFN/Embeddingを並列パイプライン化し高速化 • 推論性能20倍/省電力70% (学習8倍/省電力60%) ①解決: FPGA版ElixirChipは生成AIにマッチ
  32. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • 特許に触れるため概略のみだが、非ノイマン化でVNBを 極力無くし、省電力と性能向上を根本解決 ◦ ノイマン型CPU/GPUのような1命令1メモリアクセスとしない ◦ DDR/HBMを極力使わず、LUTやBRAMの活用でメモリ転送除去

    ◦ データフローで実装できる言語仕様からデータアクセス最適化 ◦ 分岐待機/メモリ転送待機をパイプラインで独立化 ②解決: 非ノイマン化でVNB大幅緩和 従来CPU/GPU ElixirChip メモリ メモリ ① ② ③ ④ ⑤ ① ② ③ ④ ⑤ list = [1, 2, 3, 4, 5] list |> Enum.map(& &1 * 3) |> Enum.filter(& &1 >= 8) |> Enum.sum() ① ② ③ ④ ⑤
  33. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • 前述のFPGA版ElixirChipは廉価FPGA「KR260」の成績 ◦ 10年前のプロセスルール16nmでXeon Gold同等性能と言うこと • 「Versal

    HBM」で3~7倍上乗せ … GPUとバトらせる ◦ NICも光トランシーバ搭載なので、課題④解決でNW性能10倍up 10年前のプロセスルールで現役対等
  34. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい ③解決: 電力/排熱増加無で高性能化を実現 • CPUは1Uに1~2枚搭載に対し、KR260 ElixirChipは1U に4~8台集積可で敷地あたり性能Xeon Goldの4~8倍

    • 冷却/電源設備不要でDC運用費用64倍オトク! … 2.4億円 ◦ サーバー2,000台を4年償却、XeonGold 6442Yだと145~152億円 ◦ 価格あたり性能は15倍有利 ◦ 設備投資が減り、PUEは1.05に改善 ※Xeon Gold時のPUEは1.3想定 ◦ 敷地も1/4~1/8削減可で、1Uに8台積めば性能8倍までスケール
  35. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • NWパケット後半のVNB除去には、パケットをNICから FPGAロジックにダイレクトに渡せる構造を構築 ◦ a)OSレイヤーを無くす ▪ NICからDMAを介さずFPGAに直接ストリーミング

    ▪ 必要に応じてFPGA内でシフトレジスタ化してバッファリング ◦ b)TCP/IPスタックをアプリと共にHW化する ▪ TCP/IPスタックとアプリをセットでFPGA化 ▪ 既存OS的なメモリ上り/下りは行わせず即時処理 • SmartNICなど併用で全VNB除去すれば、性能10倍up • 光トランシーバで「真のフォトニクス」し、40倍までup ◦ ハイエンドFPGA「Versal HBM」は標準搭載、課題①-eも解決 ④解決: NW処理後半のVNB除去で全解決
  36. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • Elixir を採用することで、下記の大量ユーザー/データ 向けの優位性と言語仕様がHW化に上乗せされる ◦ マルチコア特化 …シングルコアを一言書き換えるだけ

    ◦ データ処理特化 …並行・並列化/遅延化/QoSも容易 ◦ アクターモデル …副作用の並行利用時にロック不要 ◦ プロセスレベルのスケーラビリティ/分散 ▪ 数百万、数千万単位でプロセス起動・制御できる ▪ クラウド無でもスケールアウト/イン/仮想化可能 ◦ イミュータブル …メモリクリーン、CC解消、GC軽量 ◦ 低レイテンシ …大量パケット/ユーザー処理に有利 ◦ 耐障害性 …プロセス起動制御による障害切り離し ◦ チーム開発向き …高開発効率、高速育成/確実性 ⑤解決: マルチコア前提の言語Elixirを採用
  37. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • Elixir コードからFPGA & ASIC/SoC向けコード生成 ◦ HW知識が無い普通のプログラマでもHW開発が可能

    ◦ SystemVerilogで吐くのでHWレベルチューニング可 ◦ レイヤー4以上NW機器のHW化もペイし、更に高速化 • HW版ErlangVMもありErlang/Elixir資産も動かせる ⑥⑦解決: ASIC/SoCとFPGAをElixirで開発 ※ElixirFPGA: FPGA版ElixirChipの別名称
  38. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • 課題①: 生成AIの60%はGPU向きでは無い ◦ 解決: GPU向きで無い処理でもFPGAとElixirChipで緩和OK •

    課題②/③: VNBはPRより影薄い、高性能化はもう限界 ◦ 解決: 非ノイマン化でVNB極力無くす、冷却/電源無で高性能化 • 課題④: VNBが原因でNW帯域をフル活用できない ◦ 解決: NW処理後半のVNB除去+SmartNIC等で全解決 • 課題⑤: シングルコア前提の言語が主流 ◦ 解決: マルチコア前提の Elixir を採用すれば自ずと解消 • 課題⑥/⑦: 非ノイマン/ASIC/SoC開発不可 ◦ 解決: ASIC/SoCとFPGAを Elixir で開発できるようにする 7つの課題を全て解決するFPGA版ElixirChip
  39. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • 効果測定しやすく、ユーティリティも高い一方で、FPGA 化されるケースが少ないKR260 Webサーバー版で開始 ◦ 2025年12月リリース、某データセンターにテスト配備予定 ◦

    想定効果 … 性能向上28~36%up+消費電力67~85%削減 • 続けて下記を対応し、性能向上63%up+ ◦ アプリケーションサーバー群 ▪ APIゲートウェイ/IoTゲートウェイ ▪ 認証サーバー ▪ 動画配信サーバー ◦ レイヤー4以上NW機器群 ▪ ロードバランサー、FW、CDNなど • 並行して、Versal HBM 生成AI対応版のPoCを実施 FPGA版ElixirChipのリリースラインナップ
  40. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • 2050年の問題を現時点から解決可能なASIC/SoC版 ElixirChipを土台にすれば、現在コンピューティングで は不可能な「魔法級の実装」を叶えられる ◦ a)消費電力: 95~99%削減

    ◦ b)性能: 50~800倍向上 ◦ c)生産性: 10~40倍向上 • 消費電力面の活用① … 下記の 「異次元デバイス」が実現可能 ◦ 4.2年間、充電が不要なスマホ ◦ 104日間、飛行可能なドローン ◦ 上記2つの効果は、18万台の自動車をEV化 するか、発電所を5基削減する効果に相当 ASIC/SoC版ElixirChipで叶う魔法級の実装
  41. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい ASIC/SoC版ElixirChipで叶う魔法級の実装 • 消費電力面の活用② … PUE1.005~1.01で、敷地面積 が1/8で済み、排熱と冷却や消費電力増大に依存せずに ハイパースケールDC以上にどこまでもスケーラビリティ

    拡大できる「リミットレスDC」が作れる ◦ DC電力依存が減り、資源国/電力コスト高騰国のハンディが消失 ◦ 脱炭素/カーボンニュートラルを超えた、「ゼロヒート」産業出現 • 消費電力面の活用③ … エッジ超知能化、つまりスマホや エッジデバイス/IoTに生成AI常駐させても電力が保つ ◦ クラウド接続不要で即時応答する生成AIが利用可能になる ◦ 都市/農村/陸海空を選ばず、全ての環境で「超知能」を携帯可能 • 消費電力面の活用④ … 太陽光発電が断絶しても416日間 アクティブモードで保つ人工衛星 (従来は10日程度)
  42. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい ASIC/SoC版ElixirChipで叶う魔法級の実装 • 性能向上面の活用① … 今はメタル回線では困難に思える ユースケースでも、NW回線を使い切れば実現可能になる ◦

    ⅰ)「分散データセンター」でDC問題解決 ▪ 冷却設備/電源設備/広大な敷地の全てが不要なので、オフィ スや雑居ビルにElixirChipを配置し、NW接続でDC級パワーを 発揮できる「分散データセンター」が可能となる ▪ 住民問題勃発のデータセンター問題もコレで一気に解消できる ◦ ⅱ)エッジリアルタイムAIで通信途絶下でも困らない ▪ VNB除去でエッジサーバーでのリアルタイム大規模AIも動く ▪ クラウドまでの通信路がオフラインになってもエッジ端末とエ ッジサーバーの間で大規模AIが稼働できるようになるので、通 信途絶環境下でも大規模AIの恩恵を受けられる
  43. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • 性能向上面の活用② … 2025年時点の最高速スパコン、 実効性能1.7exaFLOPSの「El Capitan」を追い抜く ◦

    ASIC/SoC版ElixirChip、はEl Capitan搭載のEPYC 9004より敷地 あたり性能2.6倍が出せ、冷却/電源設備 (大規模液冷直結、三相 高電圧入力+PDU) のコストも削れ、4.8exaFLOPSの可能性 • 下記スパコンタスクが短縮可能に ASIC/SoC版ElixirChipで叶う魔法級の実装
  44. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • 性能向上面の活用③ … 「真のフォトニクス」と「非ノイ マン型コンピューティング」で、「真のリアルタイム」 が実現されると、本格的に現実改変が可能となる ◦

    現実空間をセンシングし、瞬時3Dプリントで即時現実空間の拡張 ◦ VRとAR、現実空間をシームレス接続する「真のデジタルツイン」 ◦ メガネ型デバイスやコンタクト型デバイスでの固有結界的世界実現 ◦ 歩行者に即時パーソナライズされたホログラム広告 ◦ 脳波/視線/ジェスチャーへの同期UI ◦ その場にいるようなリモート手術 ◦ その場で操作するような遠隔ロボット ◦ クラウド制御可能な自動運転 ◦ 群制御ドローン同時操作 ◦ 対面音声翻訳 ◦ グループMTG音声同時翻訳 ASIC/SoC版ElixirChipで叶う魔法級の実装
  45. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい • フォン・ノイマンが、ノイマン型アーキテクチャを着想 したのが1945年 … 今から70年前の昔のこと • 現代コンピュータやWeb+NW、AIは、この大昔のアイ

    デアに依存し過ぎな故、HWの本来性能は出せず、人類の 発展は行き詰まった … は言い過ぎでしょうか? • そもそも、70年前のアーキテクチャが通用すること自体 が「奇跡」や「偶然」で、生成AIや人類の行動データが 生む「私たちの未来」を到底支え切れるものでは無いと 捉えれば、そろそろ見直しても良いハズ • つまり、70年前の威光に縋らず、私達自身で未来を築く 最後に: 70年前の威光に縋らず私達で未来を
  46. 下記の上部「お問い合わせ」 で今回講演の感想やコラボ 案などいただけたら嬉しい Build the future with Elixir and YOU

    下記中の「お問い合わせ」 で今回講演の感想やコラボ 提案等いただけたら嬉しい