Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLM Compute Infrastructure Overview

LLM Compute Infrastructure Overview

【社内勉強会資料(公開用)】
LLM計算基盤の全体像
学習・推論・アーキテクチャ最適化

Avatar for KARAKURI Inc.

KARAKURI Inc.

April 13, 2026

More Decks by KARAKURI Inc.

Other Decks in Research

Transcript

  1. 1. スケーリング則 2. Transformer Recap 3. 分散学習 4. 分散推論 5.

    アーキテクチャの改良 KARAKURI Inc.All rights reserved. 目次 2
  2. KARAKURI Inc.All rights reserved. The Bitter Lesson Richard Suttonが2019年に提唱した「苦い教訓(The Bitter

    Lesson)」は、AIの歴史において、人間の 知恵やドメイン知識をアルゴリズムに組み込もうとする試みは、長期的には計算量(Compute)をレバ レッジする手法(Search and Learning)に常に負けてきたという観察である。 LLMの発展はこの教訓の究極の実証と言える。言語の精緻なルールを記述するのではなく、単純な目的関 数(Next Token Prediction)と巨大なネットワーク、そして膨大な計算資源を組み合わせることで、創 発的な能力が引き出された。これにより、AI開発の核心は「言語の本質の解明」から「計算効率の極限追 求」へとシフトした。限られた計算資源からいかに多くの性能を引き出すかが、LLM開発における最も重 要な競争軸となっている。 4
  3. KARAKURI Inc.All rights reserved. スケーリング則 The Bitter Lessonを実証的なデータで裏付けたのがスケーリング則(Scaling Laws)である。OpenAI (Kaplan

    et al., 2020)やDeepMind(Hoffmann et al., Chinchilla, 2022)の研究により、モデルの性能 (Loss)は、パラメータ数 (N)、データ量 (D)、そして投入した総計算量 (C, FLOPs単位) の3つの変数に 対してべき乗則(Power Law)に従って改善することが明らかになった。 ここで重要なのは、スケーリング則が示す「計算量 C」とは、あくまで理論上の累積演算量(FLOPs)で あるという点だ。限られた時間的・金銭的リソース(Compute Budget)の中で、いかにこの C を巨大化 させ、かつ効率的に性能へと転換できるかは、純粋にエンジニアリングの領域に属する。 具体的には、ハードウェアのピーク性能に対する実行効率(MFU: Model FLOPs Utilization)を極限まで 高める「カーネル最適化」や、数万枚のアクセラレータを通信の停滞なく連動させる「分散学習」、そし て実運用でのスループットを最大化する「分散推論」といった諸技術が、スケーリング則という数学的抽 象を現実のプロダクトへと昇華させるための鍵となる。つまり、物理的なリソースを「有効な計算量」へ と変換する「変換効率」の向上こそが、LLM開発における競争力の源泉である。 5
  4. KARAKURI Inc.All rights reserved. データフライホイールによる改善 The Bitter Lessonは「計算量をレバレッジせよ」という抽象的な原則だが、これをLLM開発で具体的に実践しているのが、データフライホイールと呼 ばれる開発サイクルである。 LLMの学習は、大きく3つのフェーズに分けられる。

    1. 事前学習(Pretraining): ウェブテキストや書籍など大規模コーパスで言語の汎用的な知識・知能を獲得する。 2. 中間学習(Mid-training): 事前学習後のモデルに対し、特定の能力(長文脈理解、コード生成、数学的推論など)を強化するために、より質 の高い学習データを追加的に学習させる。 3. 事後学習(Post-training): SFTやRLを通じて、タスクを成功させる確率の高い思考方法・推論プロセス・ツールの利用方法を獲得する。 ここでしばしば指摘される重要な考え方がある。LLMの本質的な能力の上限は、事前学習・中間学習で獲得した知識と知能によって決まるという点で ある。事後学習はその上限を引き上げるものではなく、モデルが既に持つ能力を引き出すための「推論プロセスの洗練」に相当する。 この考え方に基づき、過去のモデルの能力を次世代モデルの学習データに還流させるサイクルが確立されつつある。具体的には、実運用に近い多様な タスク——指示追従、学術系推論、エージェンティックコーディングなど——のデータを、過去にリリースされたLLMを用いて大量に合成し、それらを 次世代モデルの事前学習や中間学習のコーパスに混入する。 この手法は、The Bitter Lessonの実践例として2つの意味で興味深い。第一に、個別のタスクに対する人手のルール設計ではなく、汎用モデルの訓練 データそのものを充実させることで能力の底上げを図る点で、「Computeとデータのスケーリングに賭ける」という原則に忠実である。第二に、実際 のユースケースに即した合成データを汎用コーパスに混入することは、訓練データの分布を実運用上の要求分布へ近づける効果を持ち、単にデータ量 D を増やすだけでなく、同じ D から得られる性能の改善率を高める工夫と解釈できる。 6
  5. KARAKURI Inc.All rights reserved. 変換効率の改善 以上を総合すると、LLM開発の成否は「理論上の計算量 C を、限られたリソースの中でいかに最大化し、 それをいかに効率的に性能向上へ変換するか」という問いに集約される。The Bitter

    Lessonが「計算に賭 けよ」という原則を与え、スケーリング則がその定量的な根拠を提供し、データフライホイールが訓練 データの質と計算の好循環を生む。しかし、これらの枠組みがいかに優れていても、その実現は最終的に 物理的な計算インフラの効率に制約される。 以降のセクションでは、この「変換効率」を多層的に改善する技術体系を整理する。まず、最適化の対象 であるTransformerアーキテクチャの構成を概観する。次に単一GPU上で演算パイプラインの効率を極限 まで引き出すカーネル最適化を扱い、さらに数万台のアクセラレータを協調させる分散学習・分散推論へ と議論を拡張する。最後に、「計算構造そのものの再設計」——すなわち、最適化の対象であったアーキ テクチャ自体を作り替える潮流を扱う。 7
  6. KARAKURI Inc.All rights reserved. Softmax Attention(Scaled Dot-Product Attention) 入力の隠れ状態 H

    から、線形射影によりクエリ・キー・バリューを生成する。 RoPEをQ, Kに適用した後、Scaled Dot-Product Attentionを計算する。 ここで d_k はヘッドあたりの次元数、 M は因果マスク(causal mask)で、未来のトークンへのアテン ションを -∞ で遮断する。 d 次元の隠れ状態を n_h 個のヘッドに分割し、各ヘッドが d_k = d / n_h 次元で独立にAttentionを計算 する。各ヘッドの出力を結合し、出力射影を適用する。 11
  7. KARAKURI Inc.All rights reserved. FFN/MLP 各Attentionブロックの後に配置されるフィードフォワードネットワークである。 W_gate, W_up は入力を中間次元へ拡張し、 W_down

    は元の次元へ射影する。 FFNの重み行列は列方向・行方向に分割可能であり、Tensor Parallelismにおける自然な分割対象であ る。 W_gate と W_up は列方向に分割し、 W_down は行方向に分割するのが標準的なパターンである。 12
  8. KARAKURI Inc.All rights reserved. Mixture of Experts (MoE) MixtralやQwen-MoE、DeepSeek-MoEなどが採用するアーキテクチャで、各層のFFNを複数のExpert (個別のFFN)に置き換え、トークンごとにルーターが一部のExpertのみを選択的に活性化する。

    N 個のExpert FFN {E_1, E_2, …, E_N} と、各トークンから上位 K 個のExpertを選択するルーターから 構成される。 ここで W_r はルーターの重み行列であり、 g_i(x) はExpert i に対するルーティング重みである。TopK選 択により、各トークンは N 個中 K 個のExpertのみを通過する。 MoEのルーティングにより、各Expertに割り当てられるトークン数が動的に変化するため、標準的なバッ チ行列乗算は非効率となる。MegaBlocksはこの問題をブロックスパース行列乗算として再定式化し、 GPU上での効率的な計算を実現する。 13
  9. KARAKURI Inc.All rights reserved. GPUメモリ階層とボトルネック Transformerの各コンポーネントは、PyTorchなどのフ レームワーク上では個別の演算として実装されるのが自 然である。しかしナイーブな実装では、各演算の中間結 果が逐一GPUのメインメモリ(HBM)に書き戻され、次 の演算で再び読み込まれるため、ハードウェアのピーク

    性能の一部しか活用できない。カーネル最適化とは、こ うしたメモリ転送のオーバーヘッドを排除し、GPUの演 算能力を極限まで引き出すための低レベル最適化技術で ある。 カーネル最適化を理解するためには、まずGPUのメモリ 階層構造と、演算がどこでボトルネックになるかを把握 する必要がある。重要な点は、SRAMとHBMの帯域幅に 約10倍の差がある一方で、容量はHBMがSRAMの数千倍 であることだ。この非対称性が、カーネル最適化の根幹 をなす。ナイーブな実装では中間結果がHBMに書き戻さ れるため、高速なSRAMの帯域幅ではなく低速なHBMの 帯域幅が実効スループットを支配してしまう。 15
  10. KARAKURI Inc.All rights reserved. Roofline Model 演算がCompute-Bound(計算律速)なのか Memory-Bound(メモリ帯域律速)なのかを判断するた めの分析フレームワークがRoofline Modelである。

    演算のArithmetic Intensity(演算密度) I を以下のよ うに定義する。 16 GEMM(XW, 大バッチ) Compute-Bound 演算量 O(n^2 p) に対しデータ量 O(np) で演算密度が高い RMSNorm Memory-Bound 要素ごとの演算で、各要素に対し O(1) 回の演算しか行わない Softmax Memory-Bound 行方向のreduction + 要素ごとの除算で演算密度が低い Activation Memory-Bound 2つのベクトルの要素積で演算密度が低い Attention(Decode時, B=1) Memory-Bound KVキャッシュの読み込みが支配的
  11. KARAKURI Inc.All rights reserved. 具体例:RMSNorm + QKV射影の融合 各Attentionブロックの入力にはRMSNormが適用され、その出力がQ, K, Vの線形射影に渡される。

    融合により、中間結果 h_hat のHBMへの書き戻しと再読み込みが完全に排除される。Memory-Bound演 算であるRMSNormにとって、このメモリ転送量の削減は実行時間の直接的な短縮に繋がる。 18
  12. KARAKURI Inc.All rights reserved. RMSNorm Fusion RMSNormの融合カーネルの内部では、以下の演算がSRAM上で完結する。 入力ベクトル x に対し:

    Pass 1: RMS計算(Reduction) これはスレッドブロック内の並列リダクション(parallel reduction)で実装される。各スレッドが担当する要素 の二乗和をShared Memoryに書き込み、ツリー状にリダクションすることで O(log d) ステップで完了する。 Pass 2: 正規化 + スケーリング(Element-wise) この結果をHBMに書き戻さず、そのまま後続の線形射影の入力として使用する。 19
  13. KARAKURI Inc.All rights reserved. FlashAttention Softmax Attentionは下記で計算される。 ナイーブな実装では、以下のステップが逐次実行される。 1. S

    = QK^T / √d_k を計算し、HBMに書き出す 2. HBMから S を読み込み、 P = softmax(S) を計算し、HBMに書き出す 3. HBMから P を読み込み、 O = PV を計算する 系列長 T が大きい場合(例:128k)、 S, P はそれぞれ T^2 要素を持ち、BF16で 2T^2 bytes = 32 GB ものHBM容量を消費する。これは明らかに非現実的である。 FlashAttention(Dao et al., 2022; Dao, 2023)は、この T^2 の中間行列を一切HBMに書き出さず、 SRAM上でタイル単位にAttentionを計算することで、メモリ使用量を O(T^2) から O(T) に削減する。重 要なのは、これは近似ではなく数学的に厳密に等価な計算である。 20
  14. KARAKURI Inc.All rights reserved. Online Softmax FlashAttentionを可能にする鍵がOnline Softmax(Milakov & Gimelshein,

    2018)である。 標準的なSoftmaxは、ベクトル x に対し以下のように定義される。 m の減算は数値安定化のためであり、数学的には等価である。この計算には全要素の最大値 m と指数の総和 l が必要であるため、一見 するとタイル分割と矛盾する。 Online Softmaxはこの問題を、統計量 (m, l) をインクリメンタルに更新することで解決する。ベクトルをブロック B_1, B_2, … に分割 し、各ブロックを処理するたびに以下の更新を行う。 ブロック B_k を処理した後の統計量 (m^(k), l^(k)) から、新しいブロック B_(k+1) を処理して (m^(k+1), l^(k+1)) を得る更新規則: ここで e^(m^(k) - m^(k+1)) は、最大値が更新された場合に過去の統計量をリスケールする補正項である。m^(k+1) >= m^(k) である ため、この指数は <= 1 となり数値的に安定である。 21
  15. KARAKURI Inc.All rights reserved. FlashAttentionのタイリングアルゴリズム FlashAttentionは、Online Softmaxの原理をAttention計算全体 に拡張する。 Q, K,

    V をブロックに分割し、ブロック単位で Attentionを計算しながら、出力をインクリメンタルに更新す る。 入力: Q, K, V(HBM上) 出力: O(HBM上) Q を T_r 行のブロック Q_1, …, Q_(T_c) に、K, V を T_c 行のブ ロックに分割する。ブロックサイズは、Q_i, K_j, V_j および中間 結果がすべてSRAMに収まるように選択する。 22 FlashAttention Forward Pass(簡易版) ───────────────────────────── for each Q-block Qᵢ (i = 1, ..., ⌈T/Bᵣ⌉): HBMからQᵢをSRAMにロード 初期化: Oᵢ ← 0, mᵢ ← -∞, ℓᵢ ← 0 for each KV-block Kⱼ, Vⱼ (j = 1, ..., ⌈T/Bᶜ⌉): HBMからKⱼ, VⱼをSRAMにロード ① SRAM上で Sᵢⱼ = Qᵢ Kⱼᵀ / √dⱼ を計算 ② (必要に応じてcausal maskを適用) ③ ブロック内統計量を計算: m ̃ ᵢⱼ = rowmax(Sᵢⱼ) P̃ᵢⱼ = exp(Sᵢⱼ - m ̃ ᵢⱼ) (ブロック内softmax) ℓ̃ᵢⱼ = rowsum(P̃ᵢⱼ) ④ グローバル統計量を更新: mᵢ_new = max(mᵢ, m ̃ ᵢⱼ) ℓᵢ_new = ℓᵢ · exp(mᵢ - mᵢ_new) + ℓ̃ᵢⱼ · exp(m ̃ ᵢⱼ - mᵢ_new) ⑤ 出力をリスケール + 更新: Oᵢ ← Oᵢ · (ℓᵢ · exp(mᵢ - mᵢ_new) / ℓᵢ_new) + P̃ᵢⱼ · exp(m ̃ ᵢⱼ - mᵢ_new) / ℓᵢ_new · Vⱼ ⑥ mᵢ ← mᵢ_new, ℓᵢ ← ℓᵢ_new OᵢをHBMに書き出す
  16. KARAKURI Inc.All rights reserved. 計算量とメモリの比較 ここで M はSRAMのサイズである。FlashAttentionは計算量を増やさずに(実際にはリスケーリングの追 加FLOPsがあるが無視できる)、メモリ転送量を大幅に削減する。M が十分大きければ

    HBM 転送量は O(T^2 d^2 / M) と見積もられ、標準実装の O(Td + T^2) に比べて大幅に少ない。 GPUにおいてはFLOPsの計算速度がメモリ帯域幅を大きく上回るため(A100: 312 TFLOPS vs 2 TB/s)、計算量が同一であってもメモリ転送削減が実行時間の2–4倍の高速化をもたらす。 23 標準 Attention FlashAttention HBMメモリ使用量 O(T^2) O(T) HBM読み書き量 O(Td + T^2) O(T^2 d / M) FLOPs O(T^2 d) O(T^2 d)
  17. KARAKURI Inc.All rights reserved. 逆伝播:再計算(Recomputation) 学習時の逆伝播では、通常、順伝播時の中間結果(S, P)を保存しておき勾配計算に使用する。 FlashAttentionでは S, P

    をHBMに保存しないため、逆伝播時に Q, K, V(および順伝播時に保存した統計 量 m, l)から再計算する。 この再計算は追加のFLOPsを発生させるが、現代のGPUではHBMアクセスのコストが計算コストを大幅に 上回るため、再計算の方が高速である(メモリアクセス量の削減による高速化が、再計算の追加FLOPsに よる遅延を上回る)。これは典型的なcompute-memory tradeoffの実例であり、Memory-Bound演算に おいてはFLOPsの追加よりもメモリ転送の削減が有利であることを示している。 24
  18. KARAKURI Inc.All rights reserved. FlashAttention-2 の改良点 FlashAttention-2(Dao, 2023)は、初代FlashAttentionに対して以下の最適化を加え、約2倍の高速化 を実現した。 1.

    非行列乗算FLOPsの削減: リスケーリングの計算を簡略化し、Tensor Coreで実行できない非GEMM 演算を最小化 2. Qブロック並列化: 初代がKVブロック軸をワープ間で分割していたのに対し、FlashAttention-2はQ ブロック軸で分割。これによりワープ間の通信(Shared Memoryの読み書き + synchronization) を削減 3. 系列長方向の並列化: バッチ・ヘッド次元に加え、系列長方向にも並列化することで、長系列・小 バッチ時のGPU利用率を改善 25
  19. KARAKURI Inc.All rights reserved. MoEカーネルの課題 MoEでは各トークンがルーターにより異なるExpertに割り当てられる。この動的なルーティングは、GPU 上の効率的な計算に以下の問題を引き起こす。 1. 不均等なバッチサイズ: 各Expertに割り当てられるトークン数は動的に変化し、Expert間で異なる

    ため、GPUが得意とする固定サイズのバッチ行列乗算が適用できない 2. Token Dropping: 従来の実装(Switch Transformer等)は、各Expertの capacity factor を設定 し、超過分のトークンをドロップ(廃棄)することで固定サイズのバッチを実現していた。これは モデルの品質を劣化させる 3. Padding: ドロップを回避するために各Expertのバッチサイズを最大Expert容量に合わせてパディ ングする方法もあるが、大量のゼロ要素に対する無駄な計算が発生する 26
  20. KARAKURI Inc.All rights reserved. MegaBlocks:ブロックスパース行列乗算 MegaBlocks(Gale et al., 2023)は、この問題をブロックスパース行列乗算として再定式化することで、Token DroppingもPaddingも

    不要な効率的なMoE計算を実現する。 基本的なアイデアは、全Expertの重み行列を1つの大きなブロック対角行列として表現し、入力トークンの割り当てをスパース行列で表 現することで、MoE全体の計算を単一のブロックスパース行列乗算に変換することである。 N 個のExpert重み行列 W_1, …, W_N をブロック対角行列 W_MoE として構成する。 同時に、ルーティング結果に基づき、各トークンを対応するExpertの入力位置にマッピングする置換行列(permutation matrix)A を 構成する。すると、MoE全体の計算は以下のように書ける。 ここで A はスパースであり、W_MoE はブロック対角(=ブロックスパース)であるため、全体がブロックスパース行列乗算として効率 的に計算できる。 27
  21. KARAKURI Inc.All rights reserved. Dropless MoE MegaBlocksの最も重要な実用的帰結は、Token Droppingなしで効率的なMoE学習が可能になることであ る。 MegaBlocksはこのアプローチにより、Token

    DroppingありのMoE実装(Tutelライブラリ等)に対して最 大40%の学習速度向上を達成し、かつ密なDNNに対しても2.4倍の高速化を実現した。 28 手法 Token Drop Padding 計算効率 モデル品質 Switch Transformer(Token Drop) あり なし 高い(固定バッチ) 劣化 Padding方式 なし あり 低い(無駄な計算) 維持 MegaBlocks(Block-Sparse) なし なし 高い 維持
  22. KARAKURI Inc.All rights reserved. 分散学習 単一GPU上で成立する学習系は、モデルサイズ N、系列長 T、グローバルバッチサイズ B が十分に小さい

    範囲でしか動作しない。フロンティアLLMの学習では、パラメータ、活性、勾配、オプティマイザ状態の いずれも単一デバイスのHBMに収まらないため、どのテンソルをどの次元で分割し、どのタイミングで通 信するかが中核設計になる。 分散学習の全体像は、どの次元でシャードするかという軸で次のように整理できる。 • Data Parallelism: バッチ次元 B • Tensor Parallelism: 隠れ次元 d, FFN次元, attention head 次元 • Pipeline Parallelism: 層次元 L • Context Parallelism: 系列長 T • Expert Parallelism: Expert 次元 E 各手法は排他的ではなく、実運用では DP × TP × PP × CP × EP のように多次元に組み合わせられる。 30
  23. KARAKURI Inc.All rights reserved. Data Parallelism 最も基本的な分散方式はData Parallelism(DP)である。各デバイスがモデル全体を複製し、異なるミニ バッチを処理した後、勾配を集約して同一の重み更新を適用する。 デバイス数を

    D、各デバイスのローカルバッチを b とすると、グローバルバッチサイズは Db である。損 失をデバイス間平均で計算するなら、全体勾配は となる。ここで L_r はランク r が担当するローカルバッチ上の損失である。実装上は backward 後に All-Reduce を実行し、全ランクで同一の勾配を得る。 通信量の支配項は勾配サイズであり、計算量は各GPUでほぼ独立にスケールする一方、通信量はモデルサ イズに比例して増える。したがってDPは、計算密度が高く通信を十分に隠蔽できる場面では非常に効率的 だが、モデル複製が必要であるためメモリ効率は悪い。 31
  24. KARAKURI Inc.All rights reserved. Transformerブロックでの使い方 Transformerでは典型的に次のように使う。 • QKV射影: head 次元または出力次元で

    Column Parallel • Attention出力射影: Row Parallel • FFNの第1線形層: Column Parallel • FFNの第2線形層: Row Parallel これにより大きなGEMMを各GPUに分散でき、単体GPUでは収まらないサイズの隠れ次元を学習可能にす る。 TPの利点は、各GPUが保持する重み量を 1/P に削減しつつ、単一レイヤーの計算を並列化できることで ある。一方で、ほぼすべてのTransformer層で通信が発生するため、GPU間は高速相互接続 (NVLink/NVSwitch等)であることが前提になりやすい。 35
  25. KARAKURI Inc.All rights reserved. Activation Checkpointing 巨大モデルのメモリ支配項は、重みだけでなく活性(activation)でもある。逆伝播では forward 中間 値を再利用するため、通常は各層の出力を保存する。しかし長系列・大バッチではこれが支配的になる。

    Activation Checkpointingは、一部の中間活性を保存せず、backward 時に forward を再計算してメモ リを節約する手法である。 層数を L、各層活性メモリを A とすると、単純保存では O(LA) 必要だが、チェックポイント間隔を粗く すると常駐メモリを大幅に削減できる。極端には全層再計算でメモリを最小化できるが、計算時間は増え る。 この手法は通信ではなく計算とメモリのトレードオフであり、他のあらゆる並列化方式と併用される。 36
  26. KARAKURI Inc.All rights reserved. Sequence Parallelism Sequence Parallelism(SP)は、主に Tensor Parallelism

    と併用され、活性を系列長方向に分割してメ モリを削減する。入力活性 H を、系列長方向に P 分割して のように各ランクへ配置する。 LayerNorm/RMSNorm/Dropout のようなトークンごとの演算は、この分割表現のままローカルに計算で きる。Attention や TP 線形層の前後では All-Gather / Reduce-Scatter を用いて必要なレイアウトへ変 換する。 SPの核心は、TPが重みを分割するのに対し、SPは活性を分割する点にある。特に長文脈学習では、活性 メモリを T に比例して削減できるため効果が大きい。 37
  27. KARAKURI Inc.All rights reserved. GPipe GPipe(Huang et al., 2019)は、1つのミニバッチを m

    個のマイクロバッチに分割する。全マイクロバッチのForwardを先にすべて実行してか ら、全Backwardを逆順で実行する。ミニバッチを m 個のマイクロバッチに分割することで、各GPUが連続的にForwardを処理できるようになり、 バブル率は (d-1)/(m+d-1) に改善される。ただし、全マイクロバッチのForwardが終わるまでBackwardに入れないため、全マイクロバッチの中間 活性値(activations)をメモリに保持し続ける必要がある。 40
  28. KARAKURI Inc.All rights reserved. 1F1B 1F1B(PipeDream-Flush / Narayanan et al.,

    2021)は、GPipeのメモリ問題を解決するスケジューリング手法である。基本的な考え方は、 ForwardとBackwardを交互に実行することで、メモリに同時に保持する活性値の数を最小限に抑えることである。F1の直後にB1を実行するため、 F1の活性値はすぐに解放できる。GPipeではすべてのForwardが終わるまで全活性値(m 個分)を保持する必要があったが、1F1Bでは各GPUが同時 に保持する活性値は最大 d 個に抑えられる。 41
  29. KARAKURI Inc.All rights reserved. 発展的な手法 上記を基礎として、さらに発展した手法がいくつかある。 Interleaved 1F1B(Narayanan et al.,

    2021)は、各GPUに連続したステージではなく複数の非連続なステージを 割り当てる。例えば8ステージ・4GPUの場合、GPU 0 はステージ0と4を担当する。これにより各ステージが小さ くなり、パイプラインバブルがさらに縮小する(バブル率が 1/v 倍に、v は1GPUあたりのステージ数)。ただし 通信回数は増加する。 Zero Bubble Pipeline Parallelism(Qi et al., 2024)は、Backward計算を「入力に対する勾配計算(B)」と 「パラメータに対する勾配計算(W)」に分離し、Wの計算をバブルの隙間に配置することで、理論上バブルをゼ ロに近づける。 DualPipe(DeepSeek-AI, 2024)は、Zero BubbleのBackward分割を土台にしつつ、双方向実行と通信隠蔽まで 取り入れる方式である。クロスノードExpert ParallelismのAll-to-All通信コストに対処するため、 Forward/Backward計算と通信のフェーズを完全にオーバーラップさせることを主目的として設計されている。各 チャンクをAttention、All-to-All dispatch、MLP、All-to-All combineの4コンポーネントに分解し、Forward側 の通信をBackward側の計算で隠蔽する(逆も然り)という形で、計算と通信を同時に走らせ、パイプラインの両 端からマイクロバッチを逆方向に同時に流す。これにより中間ステージでは常にForward/Backwardのペアが存在 し、オーバーラップの機会が最大化される。 42
  30. KARAKURI Inc.All rights reserved. Context Parallelism 系列長 T が極端に大きい場合、Attention の活性やKVがボトルネックになる。Context

    Parallelism(CP)は、系列長方向にトークンを分割し、各 GPUがコンテキストの一部だけを保持する方式である。 単純なFFNやRMSNormは各トークン独立なのでローカルに処理できるが、Self-Attentionでは各クエリが全キーへアクセスする必要がある。ここで使 われる代表的手法がRing Attentionである。 各デバイスはローカルなクエリ Q_r を持ち、キー・バリュー (K_r, V_r) をリング状に隣へ回しながら、順次部分Attentionを蓄積する。 各ステップで局所的に を計算し、FlashAttention の Online Softmax と同様の方法で全コンテキストに対する softmax を逐次マージする。 あるランク r のクエリについて、全体Attentionは だが、これを一度に物理配置する代わりに、リング通信で逐次評価する。 CPでは、各GPUが保持するKV活性を T/P に削減できる。 43
  31. KARAKURI Inc.All rights reserved. Expert Parallelism MoEモデルでは、全トークンが全Expertを通るわけではなく、ルータが少数のExpertのみを 選ぶ。Expert Parallelism(EP)は、この Expert

    群をデバイス間に分散配置する方式であ る。 Expert 数を E、各トークンあたり選択 Expert 数を k とすると、トークン x_t に対するMoE 出力は概念的に である。ここで p_(t,e) は router が与えるゲート重みである。 EPでは、各Expertを異なるGPUへ配置し、トークンを担当ExpertのGPUへ配送する必要があ る。このため典型的には All-to-All 通信が発生する。 GPU r が保持するExpert集合を E_r とすると、GPU r 上で実行される計算は である。ここで T_e は Expert e にルーティングされたトークン集合である。 44
  32. KARAKURI Inc.All rights reserved. 実運用での組み合わせ 実際の大規模学習では、単独方式ではなく複数の並列化を積み重ねる。 ここで重要なのは、CP と EP は独立した次元として単純に掛け合わされ

    るのではなく、同じ GPU プール(DP 次元)を、レイヤーの種類に応じ て異なる形に分割するという点である。CP は Attention 層で系列長方向 に、EP は MoE 層で Expert 方向に GPU を分割する。同一の GPU が、 Attention 計算時には CP グループとして、MoE 計算時には EP グループ として協調する。 このとき各次元の役割は次のように分かれる。 • DP: 学習状態の複製削減とグローバルバッチ拡大 • TP: 単一レイヤーの幅方向分割 • PP: 層方向分割 • CP: Attention 層において、DP の一部を系列長方向の分割に充て る • EP: MoE 層において、DP の一部を Expert 方向の分割に充てる したがって、分散学習の設計とは、単に「GPUを増やすこと」ではなく、 モデル・データ・系列・学習状態・条件付き計算の各軸を、ハードウェア トポロジと通信コストに合わせて写像することに他ならない。 45 TP × PP を除いた残りの GPU プールサイズを D とすると: Attention/Dense 層: world_size = TP × PP × DP × CP (D = DP × CP) MoE 層: world_size = TP × PP × EDP × EP (D = EDP × EP) DP × CP = EDP × EP = D Example (Total GPUs = 1024, TP = 4, PP = 8): D = 1024 / (4 × 8) = 32 Attention層: DP = 16, CP = 2 → 16 × 2 = 32 ✓ MoE層: EDP = 4, EP = 8 → 4 × 8 = 32 ✓ Total GPUs = 4 × 8 × 32 = 1024
  33. KARAKURI Inc.All rights reserved. Prefill/Decode 系列長を T、隠れ次元を d、ヘッド数を n_h、KVヘッド数を n_kv、生成長を

    L_gen とする。単純化のため、1層あたりの主要な計算量を比較すると以下のようになる。 Prefillでは、長さ T の系列全体に対してAttentionを一括計算する。 O(Td^2) はQKV射影やFFNのGEMMに、O(T^2 d) はAttentionのスコア計算に対応 する。十分に大きいバッチではGEMM効率が高く、Tensor Coreによる高い演算利用 率を得やすい。 一方Decodeでは、ステップ t において新しい1トークン分のQueryに対し、過去 t-1 個のKVキャッシュを読む。 Decodeの主要なボトルネックはFLOPsそのものではなく、各層で長さ t に比例して 増大するKVキャッシュの読み出しである。GQAを仮定すると、1層あたりのKV キャッシュサイズは概ね であり、b は1要素あたりのバイト数(BF16なら2 bytes)である。全層で見ると となり、長文脈・大バッチではモデル重み以上にKVキャッシュが支配的になる。 47
  34. KARAKURI Inc.All rights reserved. なぜ分離が必要か 同一GPUでPrefillとDecodeを混在させると、Compute-Boundな大規模GEMMとMemory-BoundなKV参照 が互いに干渉し、どちらの効率も下がる。 この問題を議論するために、2つの重要な指標を導入する。 TTFT =

    Time To First Token(最初のトークンが生成されるまでの時間) TBT = Time Between Tokens(トークン間の生成間隔) TTFTは主にPrefill時間に、TBTは主にDecodeの反復時間に支配される。混在実行では、典型的に以下の 問題が起きる。 • Prefillは大きな行列積を連続で実行するため、SMを長時間占有する • Decodeは小さいバッチで頻繁にスケジュールされ、トークン単位の低レイテンシが求められる • Prefillが長時間GPUを握ると、進行中セッションのDecodeが待たされ、TTFTとTBTがともに悪化す る サービス設計では、この2つの指標を別々に最適化する必要がある。 48
  35. KARAKURI Inc.All rights reserved. FlashDecoding FlashAttentionが訓練やPrefillで有効なのは、巨大な T × T のAttention行列をHBMに書き出さず、タイ

    ルごとにSRAMで処理するからであった。 しかしDecodeフェーズではクエリ長が1であるため、問題の構造が根本的に異なる。各ステップで必要な 計算は のみであり、求められるのは行列全体の処理ではなく、「1本のQueryと長いKV列」の積をいかに高速に 計算するかである。この状況に特化して設計されたのがFlashDecodingである。 49
  36. KARAKURI Inc.All rights reserved. FlashDecodingのアルゴリズム 1ヘッドについて、時刻 t のAttention出力は である。ナイーブ実装には2つの問題がある。全スコア s_j

    をHBMに書き出す方式ではメモリ帯域がボトルネックになり、長 い系列を単一カーネルで直列処理する方式ではSMの並列性が活かせない。FlashDecodingはこの問題を、KV列を複数チャン クに分割し、各チャンクの部分結果をオンラインに統合することで解決する。具体的には、チャンク c に対して局所最大値 m_c、局所分母 l_c、局所出力和 u_c を以下のように計算する。 複数チャンクの統合には、FlashAttentionと同様のOnline Softmaxを用いる。 これにより、長いKV列を複数SMや複数CTAへ並列に分配できる。 50
  37. KARAKURI Inc.All rights reserved. Chunked Prefill 非常に長いプロンプトを持つリクエストが来た場合、Prefillを一括で処理するとGPUが長時間占有され、 既存セッションのDecodeが停滞する。このGPU占有を避けるため、Prefill対象の系列を複数チャンクに分 割し、チャンクごとに処理を区切る手法がChunked Prefillである。

    長さ T の入力を、 C トークンずつのチャンク P_1, P_2, ... に分割する。まず P_1 を処理して、その範囲 のKVキャッシュを作る。次に P_2 を処理するときは、 P_2 のトークンが P_1 のKVキャッシュと、 P_2 内の過去トークンに注意を向けて計算する。終わったらKVを追記する。P_3, P_4 も同様である。 自己回帰Attentionの場合は、Chunked PrefillはFull Prefillと数学的に等価になる。 51
  38. KARAKURI Inc.All rights reserved. Chunked Prefillの仕組み 各チャンクの処理が終わるたびに、スケジューラは他のリクエストのDecodeを差し挟むことができる。こ れにより、長プロンプト1件がGPUを独占する head-of-line blocking

    を緩和できる。ただし代償もある。 チャンクを小さくしすぎると、1回あたりのPrefillが小さすぎてGPU利用率が落ち、効率が下がる。また、 後続チャンクは先行チャンクのKVを読み返す必要があり、追加のオーバーヘッドも発生する。 52
  39. KARAKURI Inc.All rights reserved. Continuous Batching 従来の推論システムでは、一定時間リクエストを集めて固定バッチを作り、そのバッチ全体が終了するま で次のバッチを開始しないStatic Batchingが使われていた。しかしLLM生成では、各リクエストの生成 長が異なるため、固定バッチは著しく非効率になる。

    たとえば3件のリクエストの残り生成長が [128, 12, 7] だった場合、短い2件が終わっても長い1件が完了 するまでバッチ全体が解放されず、GPUのスロットが遊んでしまう。 Continuous Batchingはこの問題を解決する。各Decodeステップのたびにスケジューラが実行キューを 更新し、完了したリクエストのスロットへ待機中の新規リクエストを即座に挿入する。 Continuous Batchingが成立するには、各リクエストのKVキャッシュを可変長で独立に管理できなければ ならない。もし各セッションのKVキャッシュを巨大な連続配列として静的に確保すると、リクエストの完 了や新規挿入のたびにメモリ再配置が必要となり、現実的でない。この問題を解決するのが、後述する PagedAttentionである。 53
  40. KARAKURI Inc.All rights reserved. PagedAttention PagedAttention(Kwon et al., 2023)は、LLM推論時のKVキャッシュのメモリ管理を根本的に効率化す る技術である。OSの仮想メモリにおけるページング機構を、GPU上のKVキャッシュ管理に応用したもの

    であり、Continuous Batchingを実用的に成立させる基盤技術でもある。 従来方式の問題: 従来のKVキャッシュ管理では、各リクエストに最大シーケンス長分の連続GPUメモリを 事前確保する必要があった。これにより2つの問題が生じる。第一に、生成が最大長に達しない場合のメ モリ浪費(内部フラグメンテーション)。第二に、サイズの異なる連続ブロックの確保・解放に伴う外部 フラグメンテーション。実測でGPUメモリの60〜80%が無駄になるとの報告がある。 核心アイデア: KVキャッシュを固定サイズの「ブロック」に分割する。各ブロックは一定数のトークン (典型的には16トークン)分のKey/Valueベクトルを格納する。ブロックは物理GPUメモリ上で連続して いる必要がなく散在して構わない。各シーケンスは「ブロックテーブル」を持ち、論理ブロック番号から 物理ブロック番号への対応を管理する。 55
  41. KARAKURI Inc.All rights reserved. ブロックテーブルによるアドレス変換 各シーケンスは「ブロックテーブル」を保持する。 これはOSのページテーブルと同じ役割を果たし、 論理ブロック番号(シーケンス内で0, 1, 2,

    ...)を 物理ブロック番号(GPUメモリ上の実際の位置)に 対応付ける。Attention計算時には、このテーブル を参照して散在するKVキャッシュブロックを正し い順序で読み出す。 右図の例では、Seq Aの論理ブロック0, 1, 2, 3が物 理ブロック7, 1, 3, 10にマッピングされている。物 理メモリ上ではバラバラだが、ブロックテーブルを 通じて論理的に連続したKVキャッシュとしてアク セスできる。異なるシーケンスのブロックが混在し ても問題ない。 57
  42. KARAKURI Inc.All rights reserved. PagedAttention カーネルの動作 PagedAttentionでは、Attention計算のGPUカーネルが従来と異なる。通常のAttentionは softmax(QKᵀ / √d)

    V を連続メモリ上で計算するが、PagedAttentionカーネルはブロックテーブルを参照しながらブ ロック単位で計算する。 ブロック単位の計算: 各クエリトークンに対して、まず各ブロック内でクエリとKeyの内積を計算し、ブ ロック内のローカルsoftmaxと重み付き和を求める。次に、全ブロックの結果を統合する際にsoftmaxの 正規化を補正する。 Online Softmaxによる統合: ブロック b に対して局所的な最大値 m_b と指数和 l_b を計算し、新ブロッ ク処理のたびに m = max(m_old, m_new) で全体最大値を更新、以前の結果を exp(m_old − m_new) でリ スケーリングする。FlashAttentionのOnline Softmaxと同等の手法であり、数学的に厳密な結果を保証 する。 この設計によりKVキャッシュが物理メモリ上で非連続でもAttention計算の正確性と効率性が維持され る。ブロックサイズはSRAMとの親和性を考慮し、典型的には16トークン程度が用いられる。 58
  43. KARAKURI Inc.All rights reserved. Copy-on-Write によるKVキャッシュ共有 PagedAttentionの大きな利点の一つが、KVキャッ シュブロックのメモリ共有である。ビームサーチや パラレルサンプリングでは、同じプロンプトから複 数の生成パスが分岐する。従来方式ではプロンプト

    部分のKVキャッシュを各パスに丸ごとコピーする 必要があったが、PagedAttentionではブロック テーブルの参照を共有するだけで済む。 各物理ブロックは参照カウント(ref count)を持 つ。共有中のブロックに新トークンを書き込む場合 にのみコピーを作成する(Copy-on-Write)。ビー ムサーチではメモリ使用量が最大55%削減される。 59
  44. KARAKURI Inc.All rights reserved. 動的メモリ管理と性能への影響 動的ブロック割り当て: トークン生成の進行に合わせ、ブロックをオンデマンドで割り当てる。最終ブ ロックに空きがあれば追記し、なければフリープールから取得する。シーケンス完了時にはプールへ返却 する。メモリ逼迫時にはプリエンプションも可能で、優先度の低いシーケンスのブロックをCPUへスワッ プアウトし、再スケジュール時にスワップインできる。

    性能への影響: メモリ効率の劇的改善: 内部フラグメンテーションは最終ブロック内に限定(平均でブロックサイズの半 分以下)、外部フラグメンテーションはゼロ。効率は従来の20〜40%から96%以上に向上。 スループットの向上: 同じGPUメモリ量でより多くのリクエストを同時処理でき、2〜4倍向上。 Continuous Batchingとの組み合わせで特に顕著。 高度なデコーディング手法との親和性: Copy-on-WriteによるKVキャッシュ共有でビームサーチ等のメモ リ効率が大幅改善。 60
  45. KARAKURI Inc.All rights reserved. Disaggregated Inferenceのメカニズム 1. KV-Awareルーティング: ルーターは各推論ワークロードのラン タイムメトリクスを活用して、インテリジェントなエンドポイ

    ントルーティングを実行する。共通プレフィックスを持つリク エストは、すでにキャッシュが構築されているワーカーに振り 分けられ、再計算を回避できる。 2. Prefillフェーズの実行: 選択されたPrefillワーカーがプロンプト 全体を処理し、KVキャッシュを構築して最初のトークンを生成 する。Prefillステージは計算集約型で、Decodeステージはメモ リ集約型であり、その特性の違いから推論プロセスにおいて相 互に制約を及ぼし合う。 3. KVキャッシュ転送: PrefillノードからDecodeノードへのKV キャッシュデータの移動には、RDMAが活用されます。RDMAに よりGPUがOSをバイパスしてピアデバイスのメモリを直接読み 取ることが可能になり、転送オーバーヘッドが最小限に抑えら れる。 4. Decodeフェーズの実行: 専用のDecodeワーカーがKVキャッ シュを参照しながら、トークンを1つずつ自己回帰的に生成す る。 62
  46. KARAKURI Inc.All rights reserved. Speculative Decoding LLMのテキスト生成は自己回帰的(autoregressive)である。つ まり、1トークンずつ順番に生成し、各ステップで前のすべての トークンを入力として次のトークンを予測する。巨大なモデルで は、1トークン生成するのにかなりの計算コストがかかる。10トー

    クン生成するには、その重い計算を10回繰り返す必要がある。 ここでの重要なボトルネックは「逐次性」である。トークン n を 生成するまでトークン n+1 の生成を開始できない。しかし、 Transformerには面白い性質がある。複数トークンの検証は、1 トークンの生成とほぼ同じコストで行える。 Speculative Decodingは、以下の2つのモデルを組み合わせる: • Draft model(ドラフトモデル): 小さくて高速なモデル。 精度は低いが、推論がとても速い • Target model(ターゲットモデル): 大きくて高品質なモ デル。最終的な出力品質を保証する 小さいモデルで「生成」し、大きいモデルで「検証」するというの が基本戦略である。 ターゲットモデルの1回のforward passで、ドラフトモデルが生成 した複数トークンすべてを同時に検証できる。 63
  47. KARAKURI Inc.All rights reserved. Vanilla Linear Attentionとその限界 Softmax Attention は全トークン対の類似度行列

    S = QK^T を計算するため、計算量・メモリともに O(T^2) である。FlashAttention はメモリ使用量を O(T) に削減したが、計算量そのものは O(T^2 d) のままである。系列長が数十万〜百万トークンに達するエージェン ト的ワークロードやCoT推論では、この計算量が依然としてボトルネックになる。 Linear Attention(Katharopoulos et al., 2020)は、Softmax をカーネル関数で置き換え、Attentionを再帰的な状態更新として表現 する。 ここで状態 S_t と正規化ベクトル z_t は以下の再帰で更新される。 正規化項は数値的不安定性を引き起こすため、近年の研究では正規化を省略し、カーネル関数も恒等写像とするのが一般的である。 この定式化では、状態 S_t は固定サイズ d_k × d_v の行列であり、系列長 T に依存しない。したがって推論時のメモリは O(d_k d_v) = O(1)(T に対して)となり、各ステップの計算量も O(d_k d_v) に収まる。 しかし、Vanilla Linear Attentionには本質的な限界がある。状態 S_t はキー・バリュー連想記憶として機能するが、新しい連想を追加 することしかできず、古い情報を消去する機構がない。系列が長くなるにつれて、状態行列に過去の全情報が蓄積され、記憶の過負荷が 発生する。これが、Vanilla Linear Attentionが言語モデリングにおいてSoftmax Attentionに大差をつけられてきた主要因である。 66
  48. KARAKURI Inc.All rights reserved. DeltaNet DeltaNet(Yang et al., NeurIPS 2024)は、Delta

    Rule(Widrow-Hoff規則)をLinear Attentionの状 態更新に導入することで、記憶の選択的上書きを可能にした。 この更新規則の直観は以下の通りである。 • :現在のキー k_t で状態を参照し、記憶されている値を予測する • :新しい値 v_t と予測の差分(Delta)を計算する • :差分に基づいて状態を修正する これを整理すると以下の形になる。 (I - β_t k_t k_t^T) はHouseholder変換に類似した構造であり、キー k_t 方向の古い記憶を消去してから 新しい連想を書き込む操作として解釈できる。Vanilla Linear Attentionの「加算のみ」に対し、 DeltaNetは「消去+書き込み」を行うことで、連想記憶としての精度が大幅に向上する。 67
  49. KARAKURI Inc.All rights reserved. Gated DeltaNet Gated DeltaNet(Yang et al.,

    ICLR 2025)は、DeltaNetのDelta Rule更新に、Mamba2から着想を得た スカラーゲーティング(忘却ゲート)を統合する。 ここで α_t はスカラーの減衰ゲート(decay gate)であり、β_t は更新ゲートである。 この2つのゲーティング機構は相補的に機能する。 • α_t(減衰ゲート): 状態全体に対するグローバルな忘却を制御する。α_t が小さいほど過去の記憶 が急速に減衰する • β_t(更新ゲート)+ Delta Rule: キー方向に対する選択的な記憶の消去と書き込みを制御する Mamba2との比較では、グローバルな減衰ゲート α_t を持つ点は共通するが、新しい情報の書き込み方式 が決定的に異なる。Mamba2は新しいキー・バリュー対を既存の状態に加算するため、同じキーに対する 古い連想と新しい連想が混在しうる。Gated DeltaNetはDelta Ruleにより、まずキー k_t 方向の古い記 憶を消去してから新しい値を上書きするため、同一の状態サイズでより正確な連想記憶が実現される。 68
  50. KARAKURI Inc.All rights reserved. Kimi Delta Attention Kimi Linear(Kimi Team,

    2025)は、Gated DeltaNetの設計をさらに洗練させたKimi Delta Attention (KDA)を提案した。最大の改良点は、Gated DeltaNetのスカラーゲートをチャネルワイズ(次元ご と)のベクトルゲートに拡張したことである。 チャネルワイズゲーティングにより、意味的に重要な次元(構文情報、トピック情報など)は長く保持 し、ノイズ的な次元は急速に減衰させるといった、次元ごとの選択的記憶制御が可能になる。有限サイズ の再帰状態をより効率的に活用できるため、同一の状態サイズでGated DeltaNetを上回る性能が得られ る。 KDAの状態遷移行列は、Diagonal-Plus-Low-Rank(DPLR)形式に分解でき、効率的に計算できる。 71
  51. KARAKURI Inc.All rights reserved. Hybrid Linear Attention Linear Attention系モデル(Gated DeltaNet,

    KDA, Mamba等)は、固定サイズの再帰状態に情報を圧縮 するため、情報の損失が不可避である。具体的には以下の限界がある。 • 精密な検索タスク: 長い系列の中から特定のトークンを正確にコピーする能力が、状態圧縮により劣 化する • 長距離の正確な参照: Full Attentionが任意のトークン対に直接アクセスできるのに対し、Linear Attentionは圧縮された状態を介した間接的なアクセスのみ • Multi-Query Associative Recall(MQAR): 複数のキーバリュー対を記憶し正確に検索するタス クで、状態サイズの制約が性能のボトルネックになる 一方でFull Attentionは、全トークン対への直接アクセスにより精密な情報検索が可能だが、O(T^2) の計 算/メモリコストを払う。 Qwen3-Next, Qwen3.5, Kimi Linear が共通して採用する 3:1 ハイブリッドアーキテクチャは、この相補 性を活かした設計である。 3層のLinear Attentionが効率的な局所的処理と逐次的な状態伝搬を行い、4層目のFull Attentionがグ ローバルな情報同期を提供する。Full Attention層は全体の25%にすぎないため、計算/メモリの大部分は Linear Attentionの O(T) コストで済む。 72
  52. KARAKURI Inc.All rights reserved. Hyper-Connections Transformerの標準的な残差接続には「シーソー効果」と呼ばれる根本的な問題がある。Pre-Normは勾 配消失を防ぐ一方で表現崩壊を引き起こし、Post-Normは表現の多様性を維持する一方で深い層で勾配消 失を引き起こす。つまり、片方を解決するともう片方が悪化するという構造的なジレンマである。 Hyper-Connections(Zhu et

    al., ByteDance, ICLR 2025)の中核は、学習可能な「深さ接続 (depth-connections)」と「幅接続(width-connections)」を導入することである。標準の残差接続 が x_(l+1) = x_l + F(x_l) という1本のストリームであるのに対し、HCは残差ストリームを n 本(論文で は n=4 が推奨)に拡張する。 74
  53. KARAKURI Inc.All rights reserved. HCの構造 各層 l において、3つの学習可能な行列が導入される。 H_pre(n×1行列): n本のストリームを重み付き混合して、層へ

    の単一入力を生成する。これが「幅接続」の前半。 H_post(1×n行列): 層の出力を再びn本のストリームに分配す る。幅接続の後半。 H_res(n×n行列): 前の層からの n 本のストリームをどのように 次の層の n 本のストリームに接続するかを制御する「深さ接 続」。 これらは「静的成分(Static)」と「動的成分(Dynamic)」に分 解できる。静的HCは固定の学習パラメータであるのに対し、動的 HC(DHC)は入力に依存してゲーティングの強度を変化させる。 実験では拡張率4のDHCが最も優れた結果を示している。 HCの重要な理論的貢献の一つは、Pre-NormとPost-Normが、HC の特殊ケースとして表現できることを示した点である。Pre-Norm の接続パターンは対角要素を除いた下三角行列であり、 Post-Normは隣接層間のみの接続に対応する。HCはこれらを含 む、より一般的な接続空間を学習できる。 75
  54. KARAKURI Inc.All rights reserved. mHC: Manifold-Constrained Hyper-Connections HCは小〜中規模では優れた結果を示すが、HCの多様な接続パターンが残差接続に 本来備わる恒等写像(identity mapping)の性質を根本的に損なうことが判明し

    た。これにより深刻な訓練不安定性、スケーラビリティの制限、そして顕著なメモ リアクセスオーバーヘッドが生じる。 具体的には、HCをそのままスケールアップすると、12kステップ付近で予期せぬ損 失の急上昇が発生し、これは勾配ノルムの不安定性と高い相関を示した。 mHC(Xie et al., DeepSeek-AI, 2025)はSinkhorn-Knoppアルゴリズムを用い て、HCの残差接続行列を二重確率行列(doubly stochastic matrix)の多様体上 に射影する。 二重確率行列とは、すべての要素が非負で、各行の合計が1、各列の合計が1になる 行列である。この制約は3つの重要な性質を持つ。まず、スペクトルノルムが1以下 のため信号を増幅できない。次に、二重確率行列同士の積もまた二重確率行列であ るため、何層積み重ねても合成写像が有界に保たれる。そして、これら行列の集合 はBirkhoff多面体を構成し、その頂点は置換行列である。 Sinkhorn-Knoppアルゴリズムは、行と列の正規化を交互に繰り返すことで任意の 非負行列を二重確率行列に射影する。論文では20回の反復がデフォルトとして使用 され、十分な近似精度が得られることが示されている。 mHCではH_preとH_postの射影行列にsigmoid関数を適用して非負性を強制してい る。正と負の係数が混在すると信号の相殺が起き、大規模訓練での不安定化を招く ためである。 76
  55. KARAKURI Inc.All rights reserved. mHCのインフラストラクチャ最適化 mHCで特に重要な点は、アルゴリズムのみならず、 カーネル融合、再計算戦略などのインフラ最適化を 含む点である。 mHCの論文ではカーネル融合と再計算の2つの具体 的なシステム最適化が詳述されている。カーネル融

    合は、Sinkhorn-Knoppの反復正規化と行列演算を1 つのGPUカーネルにまとめることで、HBM(高帯域 メモリ)へのアクセス回数を大幅に削減する。再計 算戦略は、Backward時に中間活性化を保存せず必 要時に再計算することで、拡張された残差ストリー ムによる追加メモリを抑制する。 これらの最適化の結果、mHCは約6.7%の訓練オー バーヘッドで、HCの性能向上を27Bパラメータモデ ルまで安定的にスケーリングできることを実験で確 認している。 77
  56. KARAKURI Inc.All rights reserved. Attention Residuals Attention Residuals(Kimi Team, 2026)のアプローチは、HC

    や mHC とは異なる哲学に基づいている。HC/mHC が残差ストリームを「幅方向」 に拡張したのに対し、AttnRes は「深さ方向」にattentionを適用する。 最も興味深い概念的転換は「時間−深さの双対性」である。残差接続は深 さ方向で情報を圧縮し、再帰ネットワークは時間方向で情報を圧縮する。 系列モデリングでは、attention が再帰を置き換えることで各位置が過去 の位置に選択的にアクセスできるようになった。AttnRes はこの同じ遷移 をネットワークの深さ方向に適用する。 Full AttnRes:各層 l には学習可能な擬似クエリベクトル w_l ∈ R^d が割 り当てられる。このクエリが、過去の全層の出力(RMSNorm 適用後)に 対してドット積を計算し、softmax で正規化された重みを生成する。この 重みに従って過去の層の出力を加重平均したものが、次の層への入力とな る。初期化時にはクエリベクトルをすべてゼロにすることで、均等重み (= 標準残差の近似)からスタートする。 Block AttnRes:Full AttnRes は全層に対して attention を計算するた め、O(Ld) のメモリが必要になる。Block AttnRes では、層をN個のブ ロックに分割し(実験では約8ブロック)、ブロック内では従来通りの加算 残差を使用しつつ、ブロック間では attention を適用する。これにより、 メモリと通信のオーバーヘッドが O(Ld) から O(Nd) に削減される。 78