ITインフラにおける深層強化学習の応用事例

ITインフラにおける強化学習の応用事例 2025/7/28 先端科学技術研究科情報学専攻3年坪谷朱音(ツボヤアカネ)

概要 ITインフラにおける強化学習(RL)の応用研究の紹介 ITインフラ：ITにまつわるものの基盤（インフラストラクチャー）となる設備や構造物 [【初心者向け】ITインフラの役割とは？] 【今回は2つの事例を紹介】 (1) 半導体チップにおける回路設計 (NVIDIA) (2) データセンターの冷却制御
(DeepMind) (2/16)

なぜITインフラの領域でRLを使うのか？基本的に相性が良い • 逐次的な意思決定 & 長期的な利得の最大化が求められる ◦ 複数 step にわたって設計・制御を行い、その結果が将来的な性能やコスト
に影響する ▪ 例：冷却機器のオン・オフを繰り返すより、一定温度での安定運転の方が長期的にはコストを抑えられる • 状態/行動空間が広大 ◦ 課題の大規模化・複雑化に伴い、古典的な探索手法(焼きなまし)やルールベースでは対応しきれない ◦ 深層強化学習であれば高次元の状態/行動も扱える • 報酬設計が比較的容易 ◦ 消費電力/温度/遅延/面積など (3/16)

事例1 NVIDIA の事例 - Designing Arithmetic Circuits with Deep Reinforcement
Learning | NVIDIA Technical Blog - PrefixRL: Optimization of Parallel Prefix Circuits using Deep RL - Rajarshi Roy et al. (2022) DAC2021 半導体チップにおける加算器の設計

半導体チップにおける加算器加算器：最も基本的な算術演算の役割加算器の設計はチップの演算性能や消費電力に直結積まれている電子回路演算ユニット制御ユニットレジスタ/キャッシュメモリデータパス/バス回路
入出力制御半導体チップ (ICチップ) 従来：EDA(Electronic Design Automation) ツールを用いて人が設計 → 強化学習を用いることで性能や効率を改善できるかも (5/16)

PrefixRL (NVIDIA) PrefixRL: Optimization of Parallel Prefix Circuits using Deep
RL Rajarshi Roy et al. (2022) DAC2021 プレフィックス加算器※の構造設計を強化学習で自動最適化 ※ 繰り上がり計算を累積論理演算(=プレフィックス演算)で行う回路を用いた並列高速加算器 64bit加算器回路 PrefixRLは速度と機能を維持しつつ、従来の設計(EDA)よりも最大 25%小型化 NVIDIA の Hopper GPU(2022)に約13,000個搭載入力 A(64bit) B(64bit) 出力 S(64bit) 加算器ここの設計 (6/16)

PrefixRL の中身論理構造(トポロジー)の設計【状態】2次元のグリッドで回路を表現入力ノード：対角線上(赤) 出力ノード：0列め(青) 未使用：黒選択可能な(prefix演算)ノード：白【行動】演算ノードをadd/delete 【報酬】状態遷移前後での面積(area)
・遅延(delay)の差をそれぞれ計算【手法】DDQN ※ 物理的な配置の設計ではないことに注意トレードオフの関係多目的強化学習で学習 (7/16)

オンライン学習でも使えるのか？おそらく回路設計のようなケースでは、オンライン学習でも使い物になる • 頻繁に実行するわけではないので、一からの学習でも(今は)問題ない ◦ 5分おきに実行する、みたいな課題ではない ◦ 同一条件の回路を設計するのであれば、モデルの再利用可能 ▪ 少しでも違うと厳しいが
• モデルの学習中、人間は別の作業をできる ◦ 課題ごとに一からモデルを学習し直す必要があるため、設計時間の削減にはならないことに注意 • シミュレーション環境なので失敗しても問題なし実環境でまめに実行するケースでは？？次の事例へ (8/16)

事例2 DeepMindの事例 - DeepMind AI Reduces Google Data Centre Cooling
Bill by 40% - Safety-first AI for autonomous data centre cooling and industrial control — Google DeepMind - https://arxiv.org/abs/22 11.07357 データセンターの冷却制御

データセンターの冷却データセンター全体の電力消費のうち20-50%は冷却に使用→PUEの増加 PUE(Power Usage Effectiveness：電力使用効率) = データセンター全体の消費電力/ICT機器の消費電力従来：ルールに則ってオペレータが制御 • 内的/外的要素に起因→最適制御が難しい
◦ 過剰冷却や冷却不足【冷却システムに求められること】 • 安定性：24h体制で一時的な停止も許されない • 効率性：電力コストや環境負荷の抑制 Google 配管で給排水を行なう (10/16)

第1フェーズ：教師あり学習 2016：教師あり学習を用いた制御操作のレコメンドデータセンター内外のセンサー情報 PUE 【訓練時】過去数年分のデータを利用して学習 PUE 【運用時】複数の設定を評価し、PUEが低い設定を推薦データセンター内外のセンサー情報
(設定変更済) 設定A 設定B PUE 65℉ 70% 1.14 67℉ 80% 1.12 オペレータ推薦冷却に使用するエネルギー量(kW/ton)を 40%削減！非推奨な設定の場合はオペレータが承認しない →運用時のリスク低 ※簡略化したイメージ図 (11/16)

第2フェーズ：強化学習 2018：強化学習を用いた自動制御【状態】温度/水流量/機器の稼働状態などのセンサー情報(d=50) 【行動】各装置の設定値(d=12の連続値ベクトル)と機器のオンオフ(離散) 【報酬】その時刻における冷却装置全体のエネルギー消費量(の負値) 【制約】行動制約と状態制約 • 行動制約：その行動を選択しなければ良い→意思決定前にマスクをかける • 状態制約：各行動の結果、状態制約に違反するか不明。予測する必要がある
Q値状態制約違反センサー情報制約違反の行動は排除オペレータが常駐し、介入可能な状況【運用時】オフラインデータで学習(オフラインRL) 冷却に使用するエネルギー量を30%削減！ (12/16)

第3フェーズ：実証実験 2022：データセンター以外での実証実験空調システムメーカーTrane社と共同研究【場所】大学と商業ビルの2箇所【手法】基本は第2フェーズと同じ • 複数の機器の制御をおこなうため、行動空間と制約の総数が大幅に増加 • また商業ビルでは冷却需要が頻繁に変化 •
上記の課題に対してドメイン知識に基づく工夫(特徴量エンジニアリングなど)を追加【成果】大学では約9%、商業ビルでは13%のエネルギー削減 (13/16)

実機による運用の注意点いくつかのセーフティーネットを準備することが重要 DeepMind の例でいうと： • オペレータの常駐 & 人手での制御にいつでも切り替え可能 • オフライン
RL で事前学習 • 運用時は制約違反の行動を省く ◦ 制約自体もオペレータが監修のもと作成 ◦ モデルの選択が制約に違反していないかをオペレータがダブルチェック安全第一！！！ (14/16)

その他の応用事例 IT関連に限らずインフラ領域での強化学習の応用は推進されている • 中国 DiDi：タクシーの配車 • 米国 SURTRAC：市街地(Pittsburgh市の一部)の信号機の自動調整 • 日本
ENEOSマテリアル&横河電機：化学プラントにおけるバルブの制御 (15/16)

まとめ【紹介事例】半導体チップにおける加算器の設計/データセンターの冷却制御 • 情報化社会の発展により IT インフラにおける自動化・最適化の需要は増大傾向 ◦ ITインフラは、逐次的意思決定/遅延報酬/報酬定義の容易さなどの点で、強化学習が比較的使いやすい領域 •
シミュレーション環境と実環境の両面で強化学習の応用は発展中 ◦ 実環境での応用が増えていく中で、安全性や信頼性の研究はより注目されていくだろう (16/16)

ITインフラにおける深層強化学習の応用事例

ITインフラにおける深層強化学習の応用事例

Tsuboya Akane

More Decks by Tsuboya Akane

Other Decks in Research

Featured

Transcript

ITインフラにおける強化学習の応用事例 2025/7/28 先端科学技術研究科情報学専攻3年坪谷朱音(ツボヤアカネ)

なぜITインフラの領域でRLを使うのか？基本的に相性が良い • 逐次的な意思決定 & 長期的な利得の最大化が求められる ◦ 複数 step にわたって設計・制御を行い、その結果が将来的な性能やコスト

事例1 NVIDIA の事例 - Designing Arithmetic Circuits with Deep Reinforcement

半導体チップにおける加算器加算器：最も基本的な算術演算の役割加算器の設計はチップの演算性能や消費電力に直結積まれている電子回路演算ユニット制御ユニットレジスタ/キャッシュメモリデータパス/バス回路

PrefixRL (NVIDIA) PrefixRL: Optimization of Parallel Prefix Circuits using Deep

事例2 DeepMindの事例 - DeepMind AI Reduces Google Data Centre Cooling

実機による運用の注意点いくつかのセーフティーネットを準備することが重要 DeepMind の例でいうと： • オペレータの常駐 & 人手での制御にいつでも切り替え可能 • オフライン

その他の応用事例 IT関連に限らずインフラ領域での強化学習の応用は推進されている • 中国 DiDi：タクシーの配車 • 米国 SURTRAC：市街地(Pittsburgh市の一部)の信号機の自動調整 • 日本