Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ITインフラにおける深層強化学習の応用事例

 ITインフラにおける深層強化学習の応用事例

深層強化学習の応用範囲は、ゲームAIなどのシミュレーション環境に留まらず、実環境にも広まりつつあります。本スライドでは、その中でも IT インフラ領域における応用事例をいくつか紹介します。

Avatar for Tsuboya Akane

Tsuboya Akane

March 23, 2026
Tweet

More Decks by Tsuboya Akane

Other Decks in Research

Transcript

  1. なぜITインフラの領域でRLを使うのか? 基本的に相性が良い • 逐次的な意思決定 & 長期的な利得の最大化が求められる ◦ 複数 step にわたって設計・制御を行い、その結果が将来的な性能やコスト

    に影響する ▪ 例:冷却機器のオン・オフを繰り返すより、一定温度での安定運転の方 が長期的にはコストを抑えられる • 状態/行動空間が広大 ◦ 課題の大規模化・複雑化に伴い、古典的な探索手法(焼きなまし)やルール ベースでは対応しきれない ◦ 深層強化学習であれば高次元の状態/行動も扱える • 報酬設計が比較的容易 ◦ 消費電力/温度/遅延/面積など (3/16)
  2. 事例1 NVIDIA の事例 - Designing Arithmetic Circuits with Deep Reinforcement

    Learning | NVIDIA Technical Blog - PrefixRL: Optimization of Parallel Prefix Circuits using Deep RL - Rajarshi Roy et al. (2022) DAC2021 半導体チップにおける 加算器の設計
  3. 半導体チップにおける加算器 加算器:最も基本的な算術 演算の役割 加算器の設計はチップの 演算性能や消費電力に直結 積まれている電子回路 演算ユニット 制御ユニット レジスタ/キャッシュメモリ データパス/バス回路

    入出力制御 半導体チップ (ICチップ) 従来:EDA(Electronic Design Automation) ツールを用いて人が設計 → 強化学習を用いることで性能や効率を改善できるかも (5/16)
  4. PrefixRL (NVIDIA) PrefixRL: Optimization of Parallel Prefix Circuits using Deep

    RL Rajarshi Roy et al. (2022) DAC2021 プレフィックス加算器※の構造設計を強化学習で自動最適化 ※ 繰り上がり計算を累積論理演算(=プレフィックス演算)で行う回路を用いた並列高速加算器 64bit加算器回路 PrefixRLは速度と機能を維持しつつ、 従来の設計(EDA)よりも最大 25%小型化 NVIDIA の Hopper GPU(2022)に 約13,000個搭載 入力 A(64bit) B(64bit) 出力 S(64bit) 加算器 ここの設計 (6/16)
  5. オンライン学習でも使えるのか? おそらく回路設計のようなケースでは、オンライン学習でも使い物になる • 頻繁に実行するわけではないので、一からの学習でも(今は)問題ない ◦ 5分おきに実行する、みたいな課題ではない ◦ 同一条件の回路を設計するのであれば、モデルの再利用可能 ▪ 少しでも違うと厳しいが

    • モデルの学習中、人間は別の作業をできる ◦ 課題ごとに一からモデルを学習し直す必要があるため、設計時間の削減に はならないことに注意 • シミュレーション環境なので失敗しても問題なし 実環境で まめに実行する ケースでは?? 次の事例へ (8/16)
  6. 事例2 DeepMindの事例 - DeepMind AI Reduces Google Data Centre Cooling

    Bill by 40% - Safety-first AI for autonomous data centre cooling and industrial control — Google DeepMind - https://arxiv.org/abs/22 11.07357 データセンターの冷却制御
  7. データセンターの冷却 データセンター全体の電力消費のうち20-50%は冷却に使用→PUEの増加 PUE(Power Usage Effectiveness:電力使用効率) = データセンター全体の消費電力/ICT機器の消費電力 従来:ルールに則ってオペレータが制御 • 内的/外的要素に起因→最適制御が難しい

    ◦ 過剰冷却や冷却不足 【冷却システムに求められること】 • 安定性:24h体制で一時的な停止も許されない • 効率性:電力コストや環境負荷の抑制 Google 配管で給排水を行なう (10/16)
  8. 第1フェーズ:教師あり学習 2016:教師あり学習を用いた制御操作のレコメンド データセンター内外の センサー情報 PUE 【訓練時】過去数年分のデータを利用して学習 PUE 【運用時】複数の設定を評価し、PUEが低い設定を推薦 データセンター内外の センサー情報

    (設定変更済) 設定A 設定B PUE 65℉ 70% 1.14 67℉ 80% 1.12 オペレータ 推薦 冷却に使用する エネルギー量(kW/ton)を 40%削減! 非推奨な設定の場合は オペレータが承認しない →運用時のリスク低 ※簡略化したイメージ図 (11/16)
  9. 実機による運用の注意点 いくつかのセーフティーネットを準備することが重要 DeepMind の例でいうと: • オペレータの常駐 & 人手での制御にいつでも切り替え可能 • オフライン

    RL で事前学習 • 運用時は制約違反の行動を省く ◦ 制約自体もオペレータが監修のもと作成 ◦ モデルの選択が制約に違反していないかをオペレータがダブルチェック 安全第一!!! (14/16)