LLM Compute Infrastructure Overview

中嶋恭久 LLM計算基盤の全体像学習・推論・アーキテクチャ最適化

1. スケーリング則 2. Transformer Recap 3. 分散学習 4. 分散推論 5.
アーキテクチャの改良 KARAKURI Inc．All rights reserved．目次 2

スケーリング則 3

KARAKURI Inc．All rights reserved． The Bitter Lesson Richard Suttonが2019年に提唱した「苦い教訓（The Bitter
Lesson）」は、AIの歴史において、人間の知恵やドメイン知識をアルゴリズムに組み込もうとする試みは、長期的には計算量（Compute）をレバレッジする手法（Search and Learning）に常に負けてきたという観察である。 LLMの発展はこの教訓の究極の実証と言える。言語の精緻なルールを記述するのではなく、単純な目的関数（Next Token Prediction）と巨大なネットワーク、そして膨大な計算資源を組み合わせることで、創発的な能力が引き出された。これにより、AI開発の核心は「言語の本質の解明」から「計算効率の極限追求」へとシフトした。限られた計算資源からいかに多くの性能を引き出すかが、LLM開発における最も重要な競争軸となっている。 4

KARAKURI Inc．All rights reserved．スケーリング則 The Bitter Lessonを実証的なデータで裏付けたのがスケーリング則（Scaling Laws）である。OpenAI （Kaplan
et al., 2020）やDeepMind（Hoﬀmann et al., Chinchilla, 2022）の研究により、モデルの性能（Loss）は、パラメータ数 (N)、データ量 (D)、そして投入した総計算量 (C, FLOPs単位) の3つの変数に対してべき乗則（Power Law）に従って改善することが明らかになった。ここで重要なのは、スケーリング則が示す「計算量 C」とは、あくまで理論上の累積演算量（FLOPs）であるという点だ。限られた時間的・金銭的リソース（Compute Budget）の中で、いかにこの C を巨大化させ、かつ効率的に性能へと転換できるかは、純粋にエンジニアリングの領域に属する。具体的には、ハードウェアのピーク性能に対する実行効率（MFU: Model FLOPs Utilization）を極限まで高める「カーネル最適化」や、数万枚のアクセラレータを通信の停滞なく連動させる「分散学習」、そして実運用でのスループットを最大化する「分散推論」といった諸技術が、スケーリング則という数学的抽象を現実のプロダクトへと昇華させるための鍵となる。つまり、物理的なリソースを「有効な計算量」へと変換する「変換効率」の向上こそが、LLM開発における競争力の源泉である。 5

KARAKURI Inc．All rights reserved．データフライホイールによる改善 The Bitter Lessonは「計算量をレバレッジせよ」という抽象的な原則だが、これをLLM開発で具体的に実践しているのが、データフライホイールと呼ばれる開発サイクルである。 LLMの学習は、大きく3つのフェーズに分けられる。
1. 事前学習（Pretraining）: ウェブテキストや書籍など大規模コーパスで言語の汎用的な知識・知能を獲得する。 2. 中間学習（Mid-training）: 事前学習後のモデルに対し、特定の能力（長文脈理解、コード生成、数学的推論など）を強化するために、より質の高い学習データを追加的に学習させる。 3. 事後学習（Post-training）: SFTやRLを通じて、タスクを成功させる確率の高い思考方法・推論プロセス・ツールの利用方法を獲得する。ここでしばしば指摘される重要な考え方がある。LLMの本質的な能力の上限は、事前学習・中間学習で獲得した知識と知能によって決まるという点である。事後学習はその上限を引き上げるものではなく、モデルが既に持つ能力を引き出すための「推論プロセスの洗練」に相当する。この考え方に基づき、過去のモデルの能力を次世代モデルの学習データに還流させるサイクルが確立されつつある。具体的には、実運用に近い多様なタスク——指示追従、学術系推論、エージェンティックコーディングなど——のデータを、過去にリリースされたLLMを用いて大量に合成し、それらを次世代モデルの事前学習や中間学習のコーパスに混入する。この手法は、The Bitter Lessonの実践例として2つの意味で興味深い。第一に、個別のタスクに対する人手のルール設計ではなく、汎用モデルの訓練データそのものを充実させることで能力の底上げを図る点で、「Computeとデータのスケーリングに賭ける」という原則に忠実である。第二に、実際のユースケースに即した合成データを汎用コーパスに混入することは、訓練データの分布を実運用上の要求分布へ近づける効果を持ち、単にデータ量 D を増やすだけでなく、同じ D から得られる性能の改善率を高める工夫と解釈できる。 6

KARAKURI Inc．All rights reserved．変換効率の改善以上を総合すると、LLM開発の成否は「理論上の計算量 C を、限られたリソースの中でいかに最大化し、それをいかに効率的に性能向上へ変換するか」という問いに集約される。The Bitter
Lessonが「計算に賭けよ」という原則を与え、スケーリング則がその定量的な根拠を提供し、データフライホイールが訓練データの質と計算の好循環を生む。しかし、これらの枠組みがいかに優れていても、その実現は最終的に物理的な計算インフラの効率に制約される。以降のセクションでは、この「変換効率」を多層的に改善する技術体系を整理する。まず、最適化の対象であるTransformerアーキテクチャの構成を概観する。次に単一GPU上で演算パイプラインの効率を極限まで引き出すカーネル最適化を扱い、さらに数万台のアクセラレータを協調させる分散学習・分散推論へと議論を拡張する。最後に、「計算構造そのものの再設計」——すなわち、最適化の対象であったアーキテクチャ自体を作り替える潮流を扱う。 7

Transformer Recap

KARAKURI Inc．All rights reserved． RMSNorm LayerNormから平均の減算を除去し、スケーリングのみを行う簡略化された正規化手法である。 LayerNormと比較して、平均計算とバイアス減算が不要となるため計算コストが低い。さらに重要なことに、RMSNormはベクトルの「方向」のみを正規化し「大きさ」をスケーリングで制御するという、幾何学的に直感的な操作であり、実験的にもLayerNormと同等以上の性能が確認されている。 RMSNormは要素ごとの演算であり、典型的なメモリバウンド（Memory-Bound）カーネルである。計算
量に比してHBMアクセスが支配的であるため、前後の演算（バイアス加算やActivation）と融合（Fuse）するか、あるいはQKV射影と融合するのが標準的な最適化手法である。 10

KARAKURI Inc．All rights reserved． Softmax Attention（Scaled Dot-Product Attention）入力の隠れ状態 H
から、線形射影によりクエリ・キー・バリューを生成する。 RoPEをQ, Kに適用した後、Scaled Dot-Product Attentionを計算する。ここで d_k はヘッドあたりの次元数、 M は因果マスク（causal mask）で、未来のトークンへのアテンションを -∞ で遮断する。 d 次元の隠れ状態を n_h 個のヘッドに分割し、各ヘッドが d_k = d / n_h 次元で独立にAttentionを計算する。各ヘッドの出力を結合し、出力射影を適用する。 11

KARAKURI Inc．All rights reserved． FFN/MLP 各Attentionブロックの後に配置されるフィードフォワードネットワークである。 W_gate, W_up は入力を中間次元へ拡張し、 W_down
は元の次元へ射影する。 FFNの重み行列は列方向・行方向に分割可能であり、Tensor Parallelismにおける自然な分割対象である。 W_gate と W_up は列方向に分割し、 W_down は行方向に分割するのが標準的なパターンである。 12

KARAKURI Inc．All rights reserved． Mixture of Experts (MoE) MixtralやQwen-MoE、DeepSeek-MoEなどが採用するアーキテクチャで、各層のFFNを複数のExpert （個別のFFN）に置き換え、トークンごとにルーターが一部のExpertのみを選択的に活性化する。
N 個のExpert FFN {E_1, E_2, …, E_N} と、各トークンから上位 K 個のExpertを選択するルーターから構成される。ここで W_r はルーターの重み行列であり、 g_i(x) はExpert i に対するルーティング重みである。TopK選択により、各トークンは N 個中 K 個のExpertのみを通過する。 MoEのルーティングにより、各Expertに割り当てられるトークン数が動的に変化するため、標準的なバッチ行列乗算は非効率となる。MegaBlocksはこの問題をブロックスパース行列乗算として再定式化し、 GPU上での効率的な計算を実現する。 13

カーネル最適化

KARAKURI Inc．All rights reserved． GPUメモリ階層とボトルネック Transformerの各コンポーネントは、PyTorchなどのフレームワーク上では個別の演算として実装されるのが自然である。しかしナイーブな実装では、各演算の中間結果が逐一GPUのメインメモリ（HBM）に書き戻され、次の演算で再び読み込まれるため、ハードウェアのピーク
性能の一部しか活用できない。カーネル最適化とは、こうしたメモリ転送のオーバーヘッドを排除し、GPUの演算能力を極限まで引き出すための低レベル最適化技術である。カーネル最適化を理解するためには、まずGPUのメモリ階層構造と、演算がどこでボトルネックになるかを把握する必要がある。重要な点は、SRAMとHBMの帯域幅に約10倍の差がある一方で、容量はHBMがSRAMの数千倍であることだ。この非対称性が、カーネル最適化の根幹をなす。ナイーブな実装では中間結果がHBMに書き戻されるため、高速なSRAMの帯域幅ではなく低速なHBMの帯域幅が実効スループットを支配してしまう。 15

KARAKURI Inc．All rights reserved． Rooﬂine Model 演算がCompute-Bound（計算律速）なのか Memory-Bound（メモリ帯域律速）なのかを判断するための分析フレームワークがRooﬂine Modelである。
演算のArithmetic Intensity（演算密度） I を以下のように定義する。 16 GEMM（XW, 大バッチ） Compute-Bound 演算量 O(n^2 p) に対しデータ量 O(np) で演算密度が高い RMSNorm Memory-Bound 要素ごとの演算で、各要素に対し O(1) 回の演算しか行わない Softmax Memory-Bound 行方向のreduction + 要素ごとの除算で演算密度が低い Activation Memory-Bound 2つのベクトルの要素積で演算密度が低い Attention（Decode時, B=1） Memory-Bound KVキャッシュの読み込みが支配的

KARAKURI Inc．All rights reserved． Kernel Fusion Kernel Fusionとは、本来複数のGPUカーネル（独立に起動されるGPU関数）として逐次実行される演算を、単一のカーネルに統合することで、中間結果のHBMへの書き
戻し（store）と再読み込み（load）を排除する手法である。 17

KARAKURI Inc．All rights reserved．具体例：RMSNorm + QKV射影の融合各Attentionブロックの入力にはRMSNormが適用され、その出力がQ, K, Vの線形射影に渡される。
融合により、中間結果 h_hat のHBMへの書き戻しと再読み込みが完全に排除される。Memory-Bound演算であるRMSNormにとって、このメモリ転送量の削減は実行時間の直接的な短縮に繋がる。 18

KARAKURI Inc．All rights reserved． RMSNorm Fusion RMSNormの融合カーネルの内部では、以下の演算がSRAM上で完結する。入力ベクトル x に対し：
Pass 1: RMS計算（Reduction）これはスレッドブロック内の並列リダクション（parallel reduction）で実装される。各スレッドが担当する要素の二乗和をShared Memoryに書き込み、ツリー状にリダクションすることで O(log d) ステップで完了する。 Pass 2: 正規化 + スケーリング（Element-wise）この結果をHBMに書き戻さず、そのまま後続の線形射影の入力として使用する。 19

KARAKURI Inc．All rights reserved． FlashAttention Softmax Attentionは下記で計算される。ナイーブな実装では、以下のステップが逐次実行される。 1. S
= QK^T / √d_k を計算し、HBMに書き出す 2. HBMから S を読み込み、 P = softmax(S) を計算し、HBMに書き出す 3. HBMから P を読み込み、 O = PV を計算する系列長 T が大きい場合（例：128k）、 S, P はそれぞれ T^2 要素を持ち、BF16で 2T^2 bytes = 32 GB ものHBM容量を消費する。これは明らかに非現実的である。 FlashAttention（Dao et al., 2022; Dao, 2023）は、この T^2 の中間行列を一切HBMに書き出さず、 SRAM上でタイル単位にAttentionを計算することで、メモリ使用量を O(T^2) から O(T) に削減する。重要なのは、これは近似ではなく数学的に厳密に等価な計算である。 20

KARAKURI Inc．All rights reserved． Online Softmax FlashAttentionを可能にする鍵がOnline Softmax（Milakov & Gimelshein,
2018）である。標準的なSoftmaxは、ベクトル x に対し以下のように定義される。 m の減算は数値安定化のためであり、数学的には等価である。この計算には全要素の最大値 m と指数の総和 l が必要であるため、一見するとタイル分割と矛盾する。 Online Softmaxはこの問題を、統計量 (m, l) をインクリメンタルに更新することで解決する。ベクトルをブロック B_1, B_2, … に分割し、各ブロックを処理するたびに以下の更新を行う。ブロック B_k を処理した後の統計量 (m^(k), l^(k)) から、新しいブロック B_(k+1) を処理して (m^(k+1), l^(k+1)) を得る更新規則：ここで e^(m^(k) - m^(k+1)) は、最大値が更新された場合に過去の統計量をリスケールする補正項である。m^(k+1) >= m^(k) であるため、この指数は <= 1 となり数値的に安定である。 21

KARAKURI Inc．All rights reserved． FlashAttentionのタイリングアルゴリズム FlashAttentionは、Online Softmaxの原理をAttention計算全体に拡張する。 Q, K,
V をブロックに分割し、ブロック単位で Attentionを計算しながら、出力をインクリメンタルに更新する。入力: Q, K, V（HBM上）出力: O（HBM上） Q を T_r 行のブロック Q_1, …, Q_(T_c) に、K, V を T_c 行のブロックに分割する。ブロックサイズは、Q_i, K_j, V_j および中間結果がすべてSRAMに収まるように選択する。 22 FlashAttention Forward Pass（簡易版） ───────────────────────────── for each Q-block Qᵢ (i = 1, ..., ⌈T/Bᵣ⌉): HBMからQᵢをSRAMにロード初期化: Oᵢ ← 0, mᵢ ← -∞, ℓᵢ ← 0 for each KV-block Kⱼ, Vⱼ (j = 1, ..., ⌈T/Bᶜ⌉): HBMからKⱼ, VⱼをSRAMにロード ① SRAM上で Sᵢⱼ = Qᵢ Kⱼᵀ / √dⱼ を計算 ② (必要に応じてcausal maskを適用) ③ ブロック内統計量を計算: m ̃ ᵢⱼ = rowmax(Sᵢⱼ) P̃ᵢⱼ = exp(Sᵢⱼ - m ̃ ᵢⱼ) (ブロック内softmax) ℓ̃ᵢⱼ = rowsum(P̃ᵢⱼ) ④ グローバル統計量を更新: mᵢ_new = max(mᵢ, m ̃ ᵢⱼ) ℓᵢ_new = ℓᵢ · exp(mᵢ - mᵢ_new) + ℓ̃ᵢⱼ · exp(m ̃ ᵢⱼ - mᵢ_new) ⑤ 出力をリスケール + 更新: Oᵢ ← Oᵢ · (ℓᵢ · exp(mᵢ - mᵢ_new) / ℓᵢ_new) + P̃ᵢⱼ · exp(m ̃ ᵢⱼ - mᵢ_new) / ℓᵢ_new · Vⱼ ⑥ mᵢ ← mᵢ_new, ℓᵢ ← ℓᵢ_new OᵢをHBMに書き出す

KARAKURI Inc．All rights reserved．計算量とメモリの比較ここで M はSRAMのサイズである。FlashAttentionは計算量を増やさずに（実際にはリスケーリングの追加FLOPsがあるが無視できる）、メモリ転送量を大幅に削減する。M が十分大きければ
HBM 転送量は O(T^2 d^2 / M) と見積もられ、標準実装の O(Td + T^2) に比べて大幅に少ない。 GPUにおいてはFLOPsの計算速度がメモリ帯域幅を大きく上回るため（A100: 312 TFLOPS vs 2 TB/s）、計算量が同一であってもメモリ転送削減が実行時間の2–4倍の高速化をもたらす。 23 標準 Attention FlashAttention HBMメモリ使用量 O(T^2) O(T) HBM読み書き量 O(Td + T^2) O(T^2 d / M) FLOPs O(T^2 d) O(T^2 d)

KARAKURI Inc．All rights reserved．逆伝播：再計算（Recomputation）学習時の逆伝播では、通常、順伝播時の中間結果（S, P）を保存しておき勾配計算に使用する。 FlashAttentionでは S, P
をHBMに保存しないため、逆伝播時に Q, K, V（および順伝播時に保存した統計量 m, l）から再計算する。この再計算は追加のFLOPsを発生させるが、現代のGPUではHBMアクセスのコストが計算コストを大幅に上回るため、再計算の方が高速である（メモリアクセス量の削減による高速化が、再計算の追加FLOPsによる遅延を上回る）。これは典型的なcompute-memory tradeoﬀの実例であり、Memory-Bound演算においてはFLOPsの追加よりもメモリ転送の削減が有利であることを示している。 24

KARAKURI Inc．All rights reserved． FlashAttention-2 の改良点 FlashAttention-2（Dao, 2023）は、初代FlashAttentionに対して以下の最適化を加え、約2倍の高速化を実現した。 1.
非行列乗算FLOPsの削減: リスケーリングの計算を簡略化し、Tensor Coreで実行できない非GEMM 演算を最小化 2. Qブロック並列化: 初代がKVブロック軸をワープ間で分割していたのに対し、FlashAttention-2はQ ブロック軸で分割。これによりワープ間の通信（Shared Memoryの読み書き + synchronization）を削減 3. 系列長方向の並列化: バッチ・ヘッド次元に加え、系列長方向にも並列化することで、長系列・小バッチ時のGPU利用率を改善 25

KARAKURI Inc．All rights reserved． MoEカーネルの課題 MoEでは各トークンがルーターにより異なるExpertに割り当てられる。この動的なルーティングは、GPU 上の効率的な計算に以下の問題を引き起こす。 1. 不均等なバッチサイズ: 各Expertに割り当てられるトークン数は動的に変化し、Expert間で異なる
ため、GPUが得意とする固定サイズのバッチ行列乗算が適用できない 2. Token Dropping: 従来の実装（Switch Transformer等）は、各Expertの capacity factor を設定し、超過分のトークンをドロップ（廃棄）することで固定サイズのバッチを実現していた。これはモデルの品質を劣化させる 3. Padding: ドロップを回避するために各Expertのバッチサイズを最大Expert容量に合わせてパディングする方法もあるが、大量のゼロ要素に対する無駄な計算が発生する 26

KARAKURI Inc．All rights reserved． MegaBlocks：ブロックスパース行列乗算 MegaBlocks（Gale et al., 2023）は、この問題をブロックスパース行列乗算として再定式化することで、Token DroppingもPaddingも
不要な効率的なMoE計算を実現する。基本的なアイデアは、全Expertの重み行列を1つの大きなブロック対角行列として表現し、入力トークンの割り当てをスパース行列で表現することで、MoE全体の計算を単一のブロックスパース行列乗算に変換することである。 N 個のExpert重み行列 W_1, …, W_N をブロック対角行列 W_MoE として構成する。同時に、ルーティング結果に基づき、各トークンを対応するExpertの入力位置にマッピングする置換行列（permutation matrix）A を構成する。すると、MoE全体の計算は以下のように書ける。ここで A はスパースであり、W_MoE はブロック対角（=ブロックスパース）であるため、全体がブロックスパース行列乗算として効率的に計算できる。 27

KARAKURI Inc．All rights reserved． Dropless MoE MegaBlocksの最も重要な実用的帰結は、Token Droppingなしで効率的なMoE学習が可能になることである。 MegaBlocksはこのアプローチにより、Token
DroppingありのMoE実装（Tutelライブラリ等）に対して最大40%の学習速度向上を達成し、かつ密なDNNに対しても2.4倍の高速化を実現した。 28 手法 Token Drop Padding 計算効率モデル品質 Switch Transformer（Token Drop）ありなし高い（固定バッチ）劣化 Padding方式なしあり低い（無駄な計算）維持 MegaBlocks（Block-Sparse）なしなし高い維持

分散学習

KARAKURI Inc．All rights reserved．分散学習単一GPU上で成立する学習系は、モデルサイズ N、系列長 T、グローバルバッチサイズ B が十分に小さい
範囲でしか動作しない。フロンティアLLMの学習では、パラメータ、活性、勾配、オプティマイザ状態のいずれも単一デバイスのHBMに収まらないため、どのテンソルをどの次元で分割し、どのタイミングで通信するかが中核設計になる。分散学習の全体像は、どの次元でシャードするかという軸で次のように整理できる。 • Data Parallelism: バッチ次元 B • Tensor Parallelism: 隠れ次元 d, FFN次元, attention head 次元 • Pipeline Parallelism: 層次元 L • Context Parallelism: 系列長 T • Expert Parallelism: Expert 次元 E 各手法は排他的ではなく、実運用では DP × TP × PP × CP × EP のように多次元に組み合わせられる。 30

KARAKURI Inc．All rights reserved． Data Parallelism 最も基本的な分散方式はData Parallelism（DP）である。各デバイスがモデル全体を複製し、異なるミニバッチを処理した後、勾配を集約して同一の重み更新を適用する。デバイス数を
D、各デバイスのローカルバッチを b とすると、グローバルバッチサイズは Db である。損失をデバイス間平均で計算するなら、全体勾配はとなる。ここで L_r はランク r が担当するローカルバッチ上の損失である。実装上は backward 後に All-Reduce を実行し、全ランクで同一の勾配を得る。通信量の支配項は勾配サイズであり、計算量は各GPUでほぼ独立にスケールする一方、通信量はモデルサイズに比例して増える。したがってDPは、計算密度が高く通信を十分に隠蔽できる場面では非常に効率的だが、モデル複製が必要であるためメモリ効率は悪い。 31

KARAKURI Inc．All rights reserved． Tensor Parallelism Tensor Parallelism（TP）は、単一レイヤー内部の大きな行列演算を複数GPUで分割する手法である。主に隠れ次元やFFN中間次元、Attention head
次元を分割対象とする。 32

KARAKURI Inc．All rights reserved． Column Parallel 出力次元方向に重みを分割する。各ランクはを計算する。出力を次段でそのまま分割表現として使えるなら通信は不要で、必要なときのみ
All-Gather で結合する。 33

KARAKURI Inc．All rights reserved． Row Parallel 入力次元方向に重みを分割する。各ランクは部分和を計算し、最終出力はであるため、All-Reduce
あるいは Reduce-Scatter + 必要時All-Gather が必要になる。 34

KARAKURI Inc．All rights reserved． Transformerブロックでの使い方 Transformerでは典型的に次のように使う。 • QKV射影: head 次元または出力次元で
Column Parallel • Attention出力射影: Row Parallel • FFNの第1線形層: Column Parallel • FFNの第2線形層: Row Parallel これにより大きなGEMMを各GPUに分散でき、単体GPUでは収まらないサイズの隠れ次元を学習可能にする。 TPの利点は、各GPUが保持する重み量を 1/P に削減しつつ、単一レイヤーの計算を並列化できることである。一方で、ほぼすべてのTransformer層で通信が発生するため、GPU間は高速相互接続（NVLink/NVSwitch等）であることが前提になりやすい。 35

KARAKURI Inc．All rights reserved． Activation Checkpointing 巨大モデルのメモリ支配項は、重みだけでなく活性（activation）でもある。逆伝播では forward 中間値を再利用するため、通常は各層の出力を保存する。しかし長系列・大バッチではこれが支配的になる。
Activation Checkpointingは、一部の中間活性を保存せず、backward 時に forward を再計算してメモリを節約する手法である。層数を L、各層活性メモリを A とすると、単純保存では O(LA) 必要だが、チェックポイント間隔を粗くすると常駐メモリを大幅に削減できる。極端には全層再計算でメモリを最小化できるが、計算時間は増える。この手法は通信ではなく計算とメモリのトレードオフであり、他のあらゆる並列化方式と併用される。 36

KARAKURI Inc．All rights reserved． Sequence Parallelism Sequence Parallelism（SP）は、主に Tensor Parallelism
と併用され、活性を系列長方向に分割してメモリを削減する。入力活性 H を、系列長方向に P 分割してのように各ランクへ配置する。 LayerNorm/RMSNorm/Dropout のようなトークンごとの演算は、この分割表現のままローカルに計算できる。Attention や TP 線形層の前後では All-Gather / Reduce-Scatter を用いて必要なレイアウトへ変換する。 SPの核心は、TPが重みを分割するのに対し、SPは活性を分割する点にある。特に長文脈学習では、活性メモリを T に比例して削減できるため効果が大きい。 37

KARAKURI Inc．All rights reserved． Pipeline Parallelism Pipeline Parallelism（PP）は、大規模なニューラルネットワークを複数のデバイス（GPU）に分割して学習する手法である。モデルを「ステージ」に分割し、各ステージを異なるデバイスに配置する。データはパイプラインのようにステージ間を流れていく。
最大の課題はパイプラインバブル（各デバイスの待ち時間）をいかに小さくするかである。 38

KARAKURI Inc．All rights reserved． Naive Pipeline 4つのGPUにモデルを4ステージに分割し、1つのミニバッチをそのまま流す場合を考える。各GPUは、前のステージの計算が終わるまでただ待つしかない。GPU数 d のうち、各タイムステップでアクティブなの
は1台だけで、バブル率は (d-1)/d にもなり、4GPUなら約75%の計算資源が無駄になる。これを解決するのがマイクロバッチングである。 39

KARAKURI Inc．All rights reserved． GPipe GPipe（Huang et al., 2019）は、1つのミニバッチを m
個のマイクロバッチに分割する。全マイクロバッチのForwardを先にすべて実行してから、全Backwardを逆順で実行する。ミニバッチを m 個のマイクロバッチに分割することで、各GPUが連続的にForwardを処理できるようになり、バブル率は (d-1)/(m+d-1) に改善される。ただし、全マイクロバッチのForwardが終わるまでBackwardに入れないため、全マイクロバッチの中間活性値（activations）をメモリに保持し続ける必要がある。 40

KARAKURI Inc．All rights reserved． 1F1B 1F1B（PipeDream-Flush / Narayanan et al.,
2021）は、GPipeのメモリ問題を解決するスケジューリング手法である。基本的な考え方は、 ForwardとBackwardを交互に実行することで、メモリに同時に保持する活性値の数を最小限に抑えることである。F1の直後にB1を実行するため、 F1の活性値はすぐに解放できる。GPipeではすべてのForwardが終わるまで全活性値（m 個分）を保持する必要があったが、1F1Bでは各GPUが同時に保持する活性値は最大 d 個に抑えられる。 41

KARAKURI Inc．All rights reserved．発展的な手法上記を基礎として、さらに発展した手法がいくつかある。 Interleaved 1F1B（Narayanan et al.,
2021）は、各GPUに連続したステージではなく複数の非連続なステージを割り当てる。例えば8ステージ・4GPUの場合、GPU 0 はステージ0と4を担当する。これにより各ステージが小さくなり、パイプラインバブルがさらに縮小する（バブル率が 1/v 倍に、v は1GPUあたりのステージ数）。ただし通信回数は増加する。 Zero Bubble Pipeline Parallelism（Qi et al., 2024）は、Backward計算を「入力に対する勾配計算（B）」と「パラメータに対する勾配計算（W）」に分離し、Wの計算をバブルの隙間に配置することで、理論上バブルをゼロに近づける。 DualPipe（DeepSeek-AI, 2024）は、Zero BubbleのBackward分割を土台にしつつ、双方向実行と通信隠蔽まで取り入れる方式である。クロスノードExpert ParallelismのAll-to-All通信コストに対処するため、 Forward/Backward計算と通信のフェーズを完全にオーバーラップさせることを主目的として設計されている。各チャンクをAttention、All-to-All dispatch、MLP、All-to-All combineの4コンポーネントに分解し、Forward側の通信をBackward側の計算で隠蔽する（逆も然り）という形で、計算と通信を同時に走らせ、パイプラインの両端からマイクロバッチを逆方向に同時に流す。これにより中間ステージでは常にForward/Backwardのペアが存在し、オーバーラップの機会が最大化される。 42

KARAKURI Inc．All rights reserved． Context Parallelism 系列長 T が極端に大きい場合、Attention の活性やKVがボトルネックになる。Context
Parallelism（CP）は、系列長方向にトークンを分割し、各 GPUがコンテキストの一部だけを保持する方式である。単純なFFNやRMSNormは各トークン独立なのでローカルに処理できるが、Self-Attentionでは各クエリが全キーへアクセスする必要がある。ここで使われる代表的手法がRing Attentionである。各デバイスはローカルなクエリ Q_r を持ち、キー・バリュー (K_r, V_r) をリング状に隣へ回しながら、順次部分Attentionを蓄積する。各ステップで局所的にを計算し、FlashAttention の Online Softmax と同様の方法で全コンテキストに対する softmax を逐次マージする。あるランク r のクエリについて、全体Attentionはだが、これを一度に物理配置する代わりに、リング通信で逐次評価する。 CPでは、各GPUが保持するKV活性を T/P に削減できる。 43

KARAKURI Inc．All rights reserved． Expert Parallelism MoEモデルでは、全トークンが全Expertを通るわけではなく、ルータが少数のExpertのみを選ぶ。Expert Parallelism（EP）は、この Expert
群をデバイス間に分散配置する方式である。 Expert 数を E、各トークンあたり選択 Expert 数を k とすると、トークン x_t に対するMoE 出力は概念的にである。ここで p_(t,e) は router が与えるゲート重みである。 EPでは、各Expertを異なるGPUへ配置し、トークンを担当ExpertのGPUへ配送する必要がある。このため典型的には All-to-All 通信が発生する。 GPU r が保持するExpert集合を E_r とすると、GPU r 上で実行される計算はである。ここで T_e は Expert e にルーティングされたトークン集合である。 44

KARAKURI Inc．All rights reserved．実運用での組み合わせ実際の大規模学習では、単独方式ではなく複数の並列化を積み重ねる。ここで重要なのは、CP と EP は独立した次元として単純に掛け合わされ
るのではなく、同じ GPU プール（DP 次元）を、レイヤーの種類に応じて異なる形に分割するという点である。CP は Attention 層で系列長方向に、EP は MoE 層で Expert 方向に GPU を分割する。同一の GPU が、 Attention 計算時には CP グループとして、MoE 計算時には EP グループとして協調する。このとき各次元の役割は次のように分かれる。 • DP: 学習状態の複製削減とグローバルバッチ拡大 • TP: 単一レイヤーの幅方向分割 • PP: 層方向分割 • CP: Attention 層において、DP の一部を系列長方向の分割に充てる • EP: MoE 層において、DP の一部を Expert 方向の分割に充てるしたがって、分散学習の設計とは、単に「GPUを増やすこと」ではなく、モデル・データ・系列・学習状態・条件付き計算の各軸を、ハードウェアトポロジと通信コストに合わせて写像することに他ならない。 45 TP × PP を除いた残りの GPU プールサイズを D とすると: Attention/Dense 層: world_size = TP × PP × DP × CP (D = DP × CP) MoE 層: world_size = TP × PP × EDP × EP (D = EDP × EP) DP × CP = EDP × EP = D Example (Total GPUs = 1024, TP = 4, PP = 8): D = 1024 / (4 × 8) = 32 Attention層: DP = 16, CP = 2 → 16 × 2 = 32 ✓ MoE層: EDP = 4, EP = 8 → 4 × 8 = 32 ✓ Total GPUs = 4 × 8 × 32 = 1024

分散推論

KARAKURI Inc．All rights reserved． Preﬁll/Decode 系列長を T、隠れ次元を d、ヘッド数を n_h、KVヘッド数を n_kv、生成長を
L_gen とする。単純化のため、1層あたりの主要な計算量を比較すると以下のようになる。 Preﬁllでは、長さ T の系列全体に対してAttentionを一括計算する。 O(Td^2) はQKV射影やFFNのGEMMに、O(T^2 d) はAttentionのスコア計算に対応する。十分に大きいバッチではGEMM効率が高く、Tensor Coreによる高い演算利用率を得やすい。一方Decodeでは、ステップ t において新しい1トークン分のQueryに対し、過去 t-1 個のKVキャッシュを読む。 Decodeの主要なボトルネックはFLOPsそのものではなく、各層で長さ t に比例して増大するKVキャッシュの読み出しである。GQAを仮定すると、1層あたりのKV キャッシュサイズは概ねであり、b は1要素あたりのバイト数（BF16なら2 bytes）である。全層で見るととなり、長文脈・大バッチではモデル重み以上にKVキャッシュが支配的になる。 47

KARAKURI Inc．All rights reserved．なぜ分離が必要か同一GPUでPrefillとDecodeを混在させると、Compute-Boundな大規模GEMMとMemory-BoundなKV参照が互いに干渉し、どちらの効率も下がる。この問題を議論するために、2つの重要な指標を導入する。 TTFT =
Time To First Token（最初のトークンが生成されるまでの時間） TBT = Time Between Tokens（トークン間の生成間隔） TTFTは主にPrefill時間に、TBTは主にDecodeの反復時間に支配される。混在実行では、典型的に以下の問題が起きる。 • Prefillは大きな行列積を連続で実行するため、SMを長時間占有する • Decodeは小さいバッチで頻繁にスケジュールされ、トークン単位の低レイテンシが求められる • Prefillが長時間GPUを握ると、進行中セッションのDecodeが待たされ、TTFTとTBTがともに悪化するサービス設計では、この2つの指標を別々に最適化する必要がある。 48

KARAKURI Inc．All rights reserved． FlashDecoding FlashAttentionが訓練やPreﬁllで有効なのは、巨大な T × T のAttention行列をHBMに書き出さず、タイ
ルごとにSRAMで処理するからであった。しかしDecodeフェーズではクエリ長が1であるため、問題の構造が根本的に異なる。各ステップで必要な計算はのみであり、求められるのは行列全体の処理ではなく、「1本のQueryと長いKV列」の積をいかに高速に計算するかである。この状況に特化して設計されたのがFlashDecodingである。 49

KARAKURI Inc．All rights reserved． FlashDecodingのアルゴリズム 1ヘッドについて、時刻 t のAttention出力はである。ナイーブ実装には2つの問題がある。全スコア s_j
をHBMに書き出す方式ではメモリ帯域がボトルネックになり、長い系列を単一カーネルで直列処理する方式ではSMの並列性が活かせない。FlashDecodingはこの問題を、KV列を複数チャンクに分割し、各チャンクの部分結果をオンラインに統合することで解決する。具体的には、チャンク c に対して局所最大値 m_c、局所分母 l_c、局所出力和 u_c を以下のように計算する。複数チャンクの統合には、FlashAttentionと同様のOnline Softmaxを用いる。これにより、長いKV列を複数SMや複数CTAへ並列に分配できる。 50

KARAKURI Inc．All rights reserved． Chunked Prefill 非常に長いプロンプトを持つリクエストが来た場合、Prefillを一括で処理するとGPUが長時間占有され、既存セッションのDecodeが停滞する。このGPU占有を避けるため、Prefill対象の系列を複数チャンクに分割し、チャンクごとに処理を区切る手法がChunked Prefillである。
長さ T の入力を、 C トークンずつのチャンク P_1, P_2, ... に分割する。まず P_1 を処理して、その範囲のKVキャッシュを作る。次に P_2 を処理するときは、 P_2 のトークンが P_1 のKVキャッシュと、 P_2 内の過去トークンに注意を向けて計算する。終わったらKVを追記する。P_3, P_4 も同様である。自己回帰Attentionの場合は、Chunked PrefillはFull Prefillと数学的に等価になる。 51

KARAKURI Inc．All rights reserved． Chunked Preﬁllの仕組み各チャンクの処理が終わるたびに、スケジューラは他のリクエストのDecodeを差し挟むことができる。これにより、長プロンプト1件がGPUを独占する head-of-line blocking
を緩和できる。ただし代償もある。チャンクを小さくしすぎると、1回あたりのPreﬁllが小さすぎてGPU利用率が落ち、効率が下がる。また、後続チャンクは先行チャンクのKVを読み返す必要があり、追加のオーバーヘッドも発生する。 52

KARAKURI Inc．All rights reserved． Continuous Batching 従来の推論システムでは、一定時間リクエストを集めて固定バッチを作り、そのバッチ全体が終了するまで次のバッチを開始しないStatic Batchingが使われていた。しかしLLM生成では、各リクエストの生成長が異なるため、固定バッチは著しく非効率になる。
たとえば3件のリクエストの残り生成長が [128, 12, 7] だった場合、短い2件が終わっても長い1件が完了するまでバッチ全体が解放されず、GPUのスロットが遊んでしまう。 Continuous Batchingはこの問題を解決する。各Decodeステップのたびにスケジューラが実行キューを更新し、完了したリクエストのスロットへ待機中の新規リクエストを即座に挿入する。 Continuous Batchingが成立するには、各リクエストのKVキャッシュを可変長で独立に管理できなければならない。もし各セッションのKVキャッシュを巨大な連続配列として静的に確保すると、リクエストの完了や新規挿入のたびにメモリ再配置が必要となり、現実的でない。この問題を解決するのが、後述する PagedAttentionである。 53

KARAKURI Inc．All rights reserved． PagedAttention PagedAttention（Kwon et al., 2023）は、LLM推論時のKVキャッシュのメモリ管理を根本的に効率化する技術である。OSの仮想メモリにおけるページング機構を、GPU上のKVキャッシュ管理に応用したもの
であり、Continuous Batchingを実用的に成立させる基盤技術でもある。従来方式の問題: 従来のKVキャッシュ管理では、各リクエストに最大シーケンス長分の連続GPUメモリを事前確保する必要があった。これにより2つの問題が生じる。第一に、生成が最大長に達しない場合のメモリ浪費（内部フラグメンテーション）。第二に、サイズの異なる連続ブロックの確保・解放に伴う外部フラグメンテーション。実測でGPUメモリの60〜80%が無駄になるとの報告がある。核心アイデア: KVキャッシュを固定サイズの「ブロック」に分割する。各ブロックは一定数のトークン（典型的には16トークン）分のKey/Valueベクトルを格納する。ブロックは物理GPUメモリ上で連続している必要がなく散在して構わない。各シーケンスは「ブロックテーブル」を持ち、論理ブロック番号から物理ブロック番号への対応を管理する。 55

KARAKURI Inc．All rights reserved．ブロックテーブルによるアドレス変換各シーケンスは「ブロックテーブル」を保持する。これはOSのページテーブルと同じ役割を果たし、論理ブロック番号（シーケンス内で0, 1, 2,
...）を物理ブロック番号（GPUメモリ上の実際の位置）に対応付ける。Attention計算時には、このテーブルを参照して散在するKVキャッシュブロックを正しい順序で読み出す。右図の例では、Seq Aの論理ブロック0, 1, 2, 3が物理ブロック7, 1, 3, 10にマッピングされている。物理メモリ上ではバラバラだが、ブロックテーブルを通じて論理的に連続したKVキャッシュとしてアクセスできる。異なるシーケンスのブロックが混在しても問題ない。 57

KARAKURI Inc．All rights reserved． PagedAttention カーネルの動作 PagedAttentionでは、Attention計算のGPUカーネルが従来と異なる。通常のAttentionは softmax(QKᵀ / √d)
V を連続メモリ上で計算するが、PagedAttentionカーネルはブロックテーブルを参照しながらブロック単位で計算する。ブロック単位の計算: 各クエリトークンに対して、まず各ブロック内でクエリとKeyの内積を計算し、ブロック内のローカルsoftmaxと重み付き和を求める。次に、全ブロックの結果を統合する際にsoftmaxの正規化を補正する。 Online Softmaxによる統合: ブロック b に対して局所的な最大値 m_b と指数和 l_b を計算し、新ブロック処理のたびに m = max(m_old, m_new) で全体最大値を更新、以前の結果を exp(m_old − m_new) でリスケーリングする。FlashAttentionのOnline Softmaxと同等の手法であり、数学的に厳密な結果を保証する。この設計によりKVキャッシュが物理メモリ上で非連続でもAttention計算の正確性と効率性が維持される。ブロックサイズはSRAMとの親和性を考慮し、典型的には16トークン程度が用いられる。 58

KARAKURI Inc．All rights reserved． Copy-on-Write によるKVキャッシュ共有 PagedAttentionの大きな利点の一つが、KVキャッシュブロックのメモリ共有である。ビームサーチやパラレルサンプリングでは、同じプロンプトから複数の生成パスが分岐する。従来方式ではプロンプト
部分のKVキャッシュを各パスに丸ごとコピーする必要があったが、PagedAttentionではブロックテーブルの参照を共有するだけで済む。各物理ブロックは参照カウント（ref count）を持つ。共有中のブロックに新トークンを書き込む場合にのみコピーを作成する（Copy-on-Write）。ビームサーチではメモリ使用量が最大55%削減される。 59

KARAKURI Inc．All rights reserved．動的メモリ管理と性能への影響動的ブロック割り当て: トークン生成の進行に合わせ、ブロックをオンデマンドで割り当てる。最終ブロックに空きがあれば追記し、なければフリープールから取得する。シーケンス完了時にはプールへ返却する。メモリ逼迫時にはプリエンプションも可能で、優先度の低いシーケンスのブロックをCPUへスワップアウトし、再スケジュール時にスワップインできる。
性能への影響: メモリ効率の劇的改善: 内部フラグメンテーションは最終ブロック内に限定（平均でブロックサイズの半分以下）、外部フラグメンテーションはゼロ。効率は従来の20〜40%から96%以上に向上。スループットの向上: 同じGPUメモリ量でより多くのリクエストを同時処理でき、2〜4倍向上。 Continuous Batchingとの組み合わせで特に顕著。高度なデコーディング手法との親和性: Copy-on-WriteによるKVキャッシュ共有でビームサーチ等のメモリ効率が大幅改善。 60

KARAKURI Inc．All rights reserved． Disaggregated Inference 従来の共存型のサービングでは、PreﬁllとDecode が同一デバイス上で実行されるため、最小公倍数的な構成を強いられ、不要なワークロードのために高価なアクセラレータを過剰にプロビジョニングする
ことになる。 Disaggregated Inferenceは、この問題をフェーズごとの物理的分離によって解決する。 61

KARAKURI Inc．All rights reserved． Disaggregated Inferenceのメカニズム 1. KV-Awareルーティング: ルーターは各推論ワークロードのランタイムメトリクスを活用して、インテリジェントなエンドポイ
ントルーティングを実行する。共通プレフィックスを持つリクエストは、すでにキャッシュが構築されているワーカーに振り分けられ、再計算を回避できる。 2. Prefillフェーズの実行: 選択されたPrefillワーカーがプロンプト全体を処理し、KVキャッシュを構築して最初のトークンを生成する。Prefillステージは計算集約型で、Decodeステージはメモリ集約型であり、その特性の違いから推論プロセスにおいて相互に制約を及ぼし合う。 3. KVキャッシュ転送: PrefillノードからDecodeノードへのKV キャッシュデータの移動には、RDMAが活用されます。RDMAによりGPUがOSをバイパスしてピアデバイスのメモリを直接読み取ることが可能になり、転送オーバーヘッドが最小限に抑えられる。 4. Decodeフェーズの実行: 専用のDecodeワーカーがKVキャッシュを参照しながら、トークンを1つずつ自己回帰的に生成する。 62

KARAKURI Inc．All rights reserved． Speculative Decoding LLMのテキスト生成は自己回帰的（autoregressive）である。つまり、1トークンずつ順番に生成し、各ステップで前のすべてのトークンを入力として次のトークンを予測する。巨大なモデルでは、1トークン生成するのにかなりの計算コストがかかる。10トー
クン生成するには、その重い計算を10回繰り返す必要がある。ここでの重要なボトルネックは「逐次性」である。トークン n を生成するまでトークン n+1 の生成を開始できない。しかし、 Transformerには面白い性質がある。複数トークンの検証は、1 トークンの生成とほぼ同じコストで行える。 Speculative Decodingは、以下の2つのモデルを組み合わせる： • Draft model（ドラフトモデル）: 小さくて高速なモデル。精度は低いが、推論がとても速い • Target model（ターゲットモデル）: 大きくて高品質なモデル。最終的な出力品質を保証する小さいモデルで「生成」し、大きいモデルで「検証」するというのが基本戦略である。ターゲットモデルの1回のforward passで、ドラフトモデルが生成した複数トークンすべてを同時に検証できる。 63

アーキテクチャの改良

KARAKURI Inc．All rights reserved． Vanilla Linear Attentionとその限界 Softmax Attention は全トークン対の類似度行列
S = QK^T を計算するため、計算量・メモリともに O(T^2) である。FlashAttention はメモリ使用量を O(T) に削減したが、計算量そのものは O(T^2 d) のままである。系列長が数十万〜百万トークンに達するエージェント的ワークロードやCoT推論では、この計算量が依然としてボトルネックになる。 Linear Attention（Katharopoulos et al., 2020）は、Softmax をカーネル関数で置き換え、Attentionを再帰的な状態更新として表現する。ここで状態 S_t と正規化ベクトル z_t は以下の再帰で更新される。正規化項は数値的不安定性を引き起こすため、近年の研究では正規化を省略し、カーネル関数も恒等写像とするのが一般的である。この定式化では、状態 S_t は固定サイズ d_k × d_v の行列であり、系列長 T に依存しない。したがって推論時のメモリは O(d_k d_v) = O(1)（T に対して）となり、各ステップの計算量も O(d_k d_v) に収まる。しかし、Vanilla Linear Attentionには本質的な限界がある。状態 S_t はキー・バリュー連想記憶として機能するが、新しい連想を追加することしかできず、古い情報を消去する機構がない。系列が長くなるにつれて、状態行列に過去の全情報が蓄積され、記憶の過負荷が発生する。これが、Vanilla Linear Attentionが言語モデリングにおいてSoftmax Attentionに大差をつけられてきた主要因である。 66

KARAKURI Inc．All rights reserved． DeltaNet DeltaNet（Yang et al., NeurIPS 2024）は、Delta
Rule（Widrow-Hoﬀ規則）をLinear Attentionの状態更新に導入することで、記憶の選択的上書きを可能にした。この更新規則の直観は以下の通りである。 • ：現在のキー k_t で状態を参照し、記憶されている値を予測する • ：新しい値 v_t と予測の差分（Delta）を計算する • ：差分に基づいて状態を修正するこれを整理すると以下の形になる。 (I - β_t k_t k_t^T) はHouseholder変換に類似した構造であり、キー k_t 方向の古い記憶を消去してから新しい連想を書き込む操作として解釈できる。Vanilla Linear Attentionの「加算のみ」に対し、 DeltaNetは「消去＋書き込み」を行うことで、連想記憶としての精度が大幅に向上する。 67

KARAKURI Inc．All rights reserved． Gated DeltaNet Gated DeltaNet（Yang et al.,
ICLR 2025）は、DeltaNetのDelta Rule更新に、Mamba2から着想を得たスカラーゲーティング（忘却ゲート）を統合する。ここで α_t はスカラーの減衰ゲート（decay gate）であり、β_t は更新ゲートである。この2つのゲーティング機構は相補的に機能する。 • α_t（減衰ゲート）: 状態全体に対するグローバルな忘却を制御する。α_t が小さいほど過去の記憶が急速に減衰する • β_t（更新ゲート）+ Delta Rule: キー方向に対する選択的な記憶の消去と書き込みを制御する Mamba2との比較では、グローバルな減衰ゲート α_t を持つ点は共通するが、新しい情報の書き込み方式が決定的に異なる。Mamba2は新しいキー・バリュー対を既存の状態に加算するため、同じキーに対する古い連想と新しい連想が混在しうる。Gated DeltaNetはDelta Ruleにより、まずキー k_t 方向の古い記憶を消去してから新しい値を上書きするため、同一の状態サイズでより正確な連想記憶が実現される。 68

KARAKURI Inc．All rights reserved． Kimi Delta Attention Kimi Linear（Kimi Team,
2025）は、Gated DeltaNetの設計をさらに洗練させたKimi Delta Attention （KDA）を提案した。最大の改良点は、Gated DeltaNetのスカラーゲートをチャネルワイズ（次元ごと）のベクトルゲートに拡張したことである。チャネルワイズゲーティングにより、意味的に重要な次元（構文情報、トピック情報など）は長く保持し、ノイズ的な次元は急速に減衰させるといった、次元ごとの選択的記憶制御が可能になる。有限サイズの再帰状態をより効率的に活用できるため、同一の状態サイズでGated DeltaNetを上回る性能が得られる。 KDAの状態遷移行列は、Diagonal-Plus-Low-Rank（DPLR）形式に分解でき、効率的に計算できる。 71

KARAKURI Inc．All rights reserved． Hybrid Linear Attention Linear Attention系モデル（Gated DeltaNet,
KDA, Mamba等）は、固定サイズの再帰状態に情報を圧縮するため、情報の損失が不可避である。具体的には以下の限界がある。 • 精密な検索タスク: 長い系列の中から特定のトークンを正確にコピーする能力が、状態圧縮により劣化する • 長距離の正確な参照: Full Attentionが任意のトークン対に直接アクセスできるのに対し、Linear Attentionは圧縮された状態を介した間接的なアクセスのみ • Multi-Query Associative Recall（MQAR）: 複数のキーバリュー対を記憶し正確に検索するタスクで、状態サイズの制約が性能のボトルネックになる一方でFull Attentionは、全トークン対への直接アクセスにより精密な情報検索が可能だが、O(T^2) の計算/メモリコストを払う。 Qwen3-Next, Qwen3.5, Kimi Linear が共通して採用する 3:1 ハイブリッドアーキテクチャは、この相補性を活かした設計である。 3層のLinear Attentionが効率的な局所的処理と逐次的な状態伝搬を行い、4層目のFull Attentionがグローバルな情報同期を提供する。Full Attention層は全体の25%にすぎないため、計算/メモリの大部分は Linear Attentionの O(T) コストで済む。 72

KARAKURI Inc．All rights reserved．残差接続の再設計ここまでの議論はAttention機構——すなわち系列方向（トークン間）の情報集約の改良であった。ここからは視点を変え、 Transformerの深さ方向（層間）の情報伝搬を再設計する一連の研究を扱う。標準的な残差接続は深さ方向の情報を「固定的な等重み加算」で蓄積するが、この制約が深いネットワークの表現力を制限していることが近年明らかになっている。 73

KARAKURI Inc．All rights reserved． Hyper-Connections Transformerの標準的な残差接続には「シーソー効果」と呼ばれる根本的な問題がある。Pre-Normは勾配消失を防ぐ一方で表現崩壊を引き起こし、Post-Normは表現の多様性を維持する一方で深い層で勾配消失を引き起こす。つまり、片方を解決するともう片方が悪化するという構造的なジレンマである。 Hyper-Connections（Zhu et
al., ByteDance, ICLR 2025）の中核は、学習可能な「深さ接続（depth-connections）」と「幅接続（width-connections）」を導入することである。標準の残差接続が x_(l+1) = x_l + F(x_l) という1本のストリームであるのに対し、HCは残差ストリームを n 本（論文では n=4 が推奨）に拡張する。 74

KARAKURI Inc．All rights reserved． HCの構造各層 l において、3つの学習可能な行列が導入される。 H_pre（n×1行列）: n本のストリームを重み付き混合して、層へ
の単一入力を生成する。これが「幅接続」の前半。 H_post（1×n行列）: 層の出力を再びn本のストリームに分配する。幅接続の後半。 H_res（n×n行列）: 前の層からの n 本のストリームをどのように次の層の n 本のストリームに接続するかを制御する「深さ接続」。これらは「静的成分（Static）」と「動的成分（Dynamic）」に分解できる。静的HCは固定の学習パラメータであるのに対し、動的 HC（DHC）は入力に依存してゲーティングの強度を変化させる。実験では拡張率4のDHCが最も優れた結果を示している。 HCの重要な理論的貢献の一つは、Pre-NormとPost-Normが、HC の特殊ケースとして表現できることを示した点である。Pre-Norm の接続パターンは対角要素を除いた下三角行列であり、 Post-Normは隣接層間のみの接続に対応する。HCはこれらを含む、より一般的な接続空間を学習できる。 75

KARAKURI Inc．All rights reserved． mHC: Manifold-Constrained Hyper-Connections HCは小〜中規模では優れた結果を示すが、HCの多様な接続パターンが残差接続に本来備わる恒等写像（identity mapping）の性質を根本的に損なうことが判明し
た。これにより深刻な訓練不安定性、スケーラビリティの制限、そして顕著なメモリアクセスオーバーヘッドが生じる。具体的には、HCをそのままスケールアップすると、12kステップ付近で予期せぬ損失の急上昇が発生し、これは勾配ノルムの不安定性と高い相関を示した。 mHC（Xie et al., DeepSeek-AI, 2025）はSinkhorn-Knoppアルゴリズムを用いて、HCの残差接続行列を二重確率行列（doubly stochastic matrix）の多様体上に射影する。二重確率行列とは、すべての要素が非負で、各行の合計が1、各列の合計が1になる行列である。この制約は3つの重要な性質を持つ。まず、スペクトルノルムが1以下のため信号を増幅できない。次に、二重確率行列同士の積もまた二重確率行列であるため、何層積み重ねても合成写像が有界に保たれる。そして、これら行列の集合はBirkhoﬀ多面体を構成し、その頂点は置換行列である。 Sinkhorn-Knoppアルゴリズムは、行と列の正規化を交互に繰り返すことで任意の非負行列を二重確率行列に射影する。論文では20回の反復がデフォルトとして使用され、十分な近似精度が得られることが示されている。 mHCではH_preとH_postの射影行列にsigmoid関数を適用して非負性を強制している。正と負の係数が混在すると信号の相殺が起き、大規模訓練での不安定化を招くためである。 76

KARAKURI Inc．All rights reserved． mHCのインフラストラクチャ最適化 mHCで特に重要な点は、アルゴリズムのみならず、カーネル融合、再計算戦略などのインフラ最適化を含む点である。 mHCの論文ではカーネル融合と再計算の2つの具体的なシステム最適化が詳述されている。カーネル融
合は、Sinkhorn-Knoppの反復正規化と行列演算を1 つのGPUカーネルにまとめることで、HBM（高帯域メモリ）へのアクセス回数を大幅に削減する。再計算戦略は、Backward時に中間活性化を保存せず必要時に再計算することで、拡張された残差ストリームによる追加メモリを抑制する。これらの最適化の結果、mHCは約6.7%の訓練オーバーヘッドで、HCの性能向上を27Bパラメータモデルまで安定的にスケーリングできることを実験で確認している。 77

KARAKURI Inc．All rights reserved． Attention Residuals Attention Residuals（Kimi Team, 2026）のアプローチは、HC
や mHC とは異なる哲学に基づいている。HC/mHC が残差ストリームを「幅方向」に拡張したのに対し、AttnRes は「深さ方向」にattentionを適用する。最も興味深い概念的転換は「時間−深さの双対性」である。残差接続は深さ方向で情報を圧縮し、再帰ネットワークは時間方向で情報を圧縮する。系列モデリングでは、attention が再帰を置き換えることで各位置が過去の位置に選択的にアクセスできるようになった。AttnRes はこの同じ遷移をネットワークの深さ方向に適用する。 Full AttnRes：各層 l には学習可能な擬似クエリベクトル w_l ∈ R^d が割り当てられる。このクエリが、過去の全層の出力（RMSNorm 適用後）に対してドット積を計算し、softmax で正規化された重みを生成する。この重みに従って過去の層の出力を加重平均したものが、次の層への入力となる。初期化時にはクエリベクトルをすべてゼロにすることで、均等重み（= 標準残差の近似）からスタートする。 Block AttnRes：Full AttnRes は全層に対して attention を計算するため、O(Ld) のメモリが必要になる。Block AttnRes では、層をN個のブロックに分割し（実験では約8ブロック）、ブロック内では従来通りの加算残差を使用しつつ、ブロック間では attention を適用する。これにより、メモリと通信のオーバーヘッドが O(Ld) から O(Nd) に削減される。 78

LLM Compute Infrastructure Overview

LLM Compute Infrastructure Overview

More Decks by KARAKURI Inc.

Other Decks in Research

Featured

Transcript