Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
リクルートの オンプレ環境の未来を語る
Search
Recruit
PRO
March 06, 2025
Technology
2
35
リクルートの オンプレ環境の未来を語る
2025/2/19に開催したRecruit Tech Conference 2025の関の資料です
Recruit
PRO
March 06, 2025
Tweet
Share
More Decks by Recruit
See All by Recruit
Curiosity & Persistence
recruitengineers
PRO
2
32
結果的にこうなった。から見える メカニズムのようなもの。
recruitengineers
PRO
1
92
成長実感と伸び悩みからふりかえる キャリアグラフ
recruitengineers
PRO
1
35
LLMのプロダクト装着と独自モデル開発
recruitengineers
PRO
0
38
新規検索基盤でマッチング精度向上に挑む! ~『ホットペッパーグルメ』の開発事例 ビジネス編
recruitengineers
PRO
1
24
新規検索基盤でマッチング精度向上に挑む! ~『ホットペッパーグルメ』の開発事例 技術編
recruitengineers
PRO
0
24
大規模プロダクトにおける フロントエンドモダナイズの取り組み紹介
recruitengineers
PRO
4
64
技術的ミスと深堀り
recruitengineers
PRO
3
50
『ホットペッパーグルメ』における マルチプラットフォーム化の歩み
recruitengineers
PRO
2
31
Other Decks in Technology
See All in Technology
AIエージェント時代のエンジニアになろう #jawsug #jawsdays2025 / 20250301 Agentic AI Engineering
yoshidashingo
9
4.1k
MIMEと文字コードの闇
hirachan
2
1.5k
フォーイット_エンジニア向け会社紹介資料_Forit_Company_Profile.pdf
forit_tech
1
1.7k
アジリティを高めるテストマネジメント #QiitaQualityForward
makky_tyuyan
1
340
データベースの負荷を紐解く/untangle-the-database-load
emiki
2
550
DevinでAI AWSエンジニア製造計画 序章 〜CDKを添えて〜/devin-load-to-aws-engineer
tomoki10
0
210
ディスプレイ広告(Yahoo!広告・LINE広告)におけるバックエンド開発
lycorptech_jp
PRO
0
590
RayでPHPのデバッグをちょっと快適にする
muno92
PRO
0
200
目標と時間軸 〜ベイビーステップでケイパビリティを高めよう〜
kakehashi
PRO
8
1k
Qiita Organizationを導入したら、アウトプッターが爆増して会社がちょっと有名になった件
minorun365
PRO
1
320
x86-64 Assembly Essentials
latte72
3
420
LINEギフトにおけるバックエンド開発
lycorptech_jp
PRO
0
430
Featured
See All Featured
Documentation Writing (for coders)
carmenintech
68
4.6k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
120k
A Philosophy of Restraint
colly
203
16k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
45
9.4k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
29
1.1k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
Building Your Own Lightsaber
phodgson
104
6.2k
Visualization
eitanlees
146
15k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
How to Think Like a Performance Engineer
csswizardry
22
1.4k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
49k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.3k
Transcript
リクルートの オンプレ環境の未来を語る RECRUIT TECH CONFERENCE 2025 止められない!リクルートのオンプレ基盤 パブリッククラウドという選択肢もある中、 リクルートはオンプレミスでどのようなことを検討していくか 関 竜輔
株式会社リクルート プロダクトディベロップメント室
今日話すこと リクルートのプライベートクラウド「RAFTEL」上で将来やりたいこと • RAFTELの規模と消費電力の話 (1min) • GPU基盤をオンプレミスへ持ってくる話 (3min) ◦ データ推進室と我々インフラ組織の共同検証である
◦ 今日はインフラ側の視点でのみ話す • サーバーの冷却の話 (7min) ◦ 液冷・液浸の検証環境を作ろうとしている話 • まとめ (1min) 注意事項 • RAFTELの話というよりは上記の技術検証・導入検討の話に終始する予定です • 現在進行中のプロジェクトのため、結論はありません • 現時点で検討中の内容のため、明日には言っていることが変わる可能性もあります
Agenda 1. リクルートの持つプライベートクラウド「RAFTEL」 2. オンプレミスGPU基盤の検討 3. サーバーの冷却技術 4. まとめ
Agenda 1. リクルートの持つプライベートクラウド「RAFTEL」 2. オンプレミスGPU基盤の検討 3. サーバーの冷却技術 4. まとめ
リクルートのプライベートクラウドであるRAFTELは下表のような規模で運営されている。 リクルートホールディングス全体の約5.5%がIT機器/DC関連のCO 2 排出 (≒電力使用) である。 RAFTELの規模 物理サーバー台数 約1,000台 ラック数
約150ラック ストレージ総容量 1.5PB以上 ドメイン数 4,000ドメイン以上 仮想マシン数 約4,000VMs 利用サイト数 約100サイト ネットワーク機器台数 約360台 年間使用電力量 約280万kWh
Agenda 1. リクルートの持つプライベートクラウド「RAFTEL」 2. オンプレミスGPU基盤の検討 3. サーバーの冷却技術 4. まとめ
リクルートのインフラ利用状況 プロダクト系 (エンジニア組織) はオンプレミスとパブリッククラウドを共に利用しているが、 データ系は100%をパブリッククラウドに依存している状況がある。 プロダクト系 データ分析/AI系 オンプレミス (プライベートクラウド) ⚪
(RAFTEL) × 現状、存在していない パブリッククラウド ⚪ (AWS/GCPなど) ⚪ (AWS/GCP/OCI) プロダクト系では用途ごとに オンプレミス/パブリッククラウドの 使い分けができる構造にある。 データ分析/AI系では オンプレミスの環境が存在せず、 パブリッククラウド一択の現状。
リクルートのインフラ利用状況 プロダクト系 (エンジニア組織) はオンプレミスとパブリッククラウドを共に利用しているが、 データ系は100%をパブリッククラウドに依存している状況がある。 プロダクト系 データ分析/AI系 オンプレミス (プライベートクラウド) ⚪
(RAFTEL) × 現状、存在していない パブリッククラウド ⚪ (AWS/GCPなど) ⚪ (AWS/GCP/OCI) プロダクト系では用途ごとに オンプレミス/パブリッククラウドの 使い分けができる構造にある。 データ分析/AI系では オンプレミスの環境が存在せず、 パブリッククラウド一択の現状。 オンプレミスにGPU環境を持ち、ワークロードによって オンプレミス/パブリッククラウドを選択できるようにすることにより、 • コスト的なメリット • パブリッククラウドのGPUインスタンス不足への対応 • 仮にクラウドが駄目となってしまった場合の 行き先(技術者・環境)作り などの点でメリットがあると考えている。
データテクノロジーUとプロダクトインフラU プロダクト開発室 データ推進室 プロダクト ディベロップメント室 データテクノロジーU プロダクトインフラU ・・・ ・・・ 開発ディレクション部
組織はこのくらい離れている プロダクトディベロップメント室はエンジニア組織としてプロダクトを開発しており、 一方、データ推進室ではサービスで取得したデータの分析やサービスへの活用を行っている。 中でも、プロダクトインフラUはプロダクトを動かすための共通インフラを維持・管理しており、 データテクノロジーUは各サービスへの技術支援や全社横断の技術検証などを行っている。
我々の取り組み状況 データ室がパブリッククラウドに持っているGPU基盤の一部をオンプレミスへ持ってきてみて、 オンプレミスを利用することに意味があるか効果測定を行いたい • データ推進室データテクノロジーUと我々(プロダクトインフラU)の共同で検討中 ◦ プロダクトインフラUがRAFTELの端にGPUサーバーを用意し、 データテクノロジーUに検証いただく構図を予定。 • 現在はパブリッククラウドで動いているGPU基盤の一部をオンプレミスへ持ってきて、
小規模なPoC環境で様々な効果測定を行うことを目論んでいる。
GPUサーバーの導入検討 プロダクト系 (エンジニア組織) はオンプレミスとパブリッククラウドを共に利用しているが、 データ系は100%をパブリッククラウドに依存している状況がある。 現在見えている点として以下のような項目がある。 1. オンプレミスへ持ってくるとして、どのような用途のサーバーで旨味があるか? → 推論用の規模でオンプレミスのメリットが大きそうという結論
2. HW構成はどうするか? → GPUはNVIDIA一択なのか?など広く検討中 3. サーバー以外の構成 (ネットワーク・ストレージなど) はどのようにするか? → 未検討、GPUサーバー特有のお作法があるため それとRAFTELの現行構成との間に折り合いをつける必要がありそう 4. OSや仮想化レイヤについてどのようにするのが最適か? → 未検討 この後のサーバー冷却の話なども密接に絡んでおり、 現在複合的に検討を進めている最中である。
Agenda 1. リクルートの持つプライベートクラウド「RAFTEL」 2. オンプレミスGPU基盤の検討 3. サーバーの冷却技術 4. まとめ
RAFTEL標準サーバー Server 1 Server 2 Server 3 Server 4 搭載CPU
(TDP) Intel Xeon E5-2667v4 (135W) Intel Xeon Gold 6146 (165W) Intel Xeon Gold 6342 (230W) Intel Xeon Gold 6438M (205W) コア数 [Cores/2Sockets] 16 24 48 64 メモリ搭載量 [GB] 256 384 768 1024 入力電力/実効消費電力 515W/270W 490W/306W 670W/455W 670W/455W 搭載数 [Nodes/Rack] 24 24 16 16 RAFTELのサーバーは4世代が混在しており、それぞれ以下のような諸元となる
RAFTEL標準サーバー Server 1 Server 2 Server 3 Server 4 搭載CPU
(TDP) Intel Xeon E5-2667v4 (135W) Intel Xeon Gold 6146 (165W) Intel Xeon Gold 6342 (230W) Intel Xeon Gold 6438M (205W) コア数 [Cores/2Sockets] 16 24 48 64 メモリ搭載量 [GB] 256 384 768 1024 入力電力/実効消費電力 515W/270W 490W/306W 670W/455W 670W/455W 搭載数 [Nodes/Rack] 24 24 16 16 RAFTELのサーバーは4世代が混在しており、それぞれ以下のような諸元となる CPUの高性能化によってコア数は4倍になったが、 必要な電力量も倍近くにまで増加
RAFTEL標準サーバー Server 1 Server 2 Server 3 Server 4 搭載CPU
(TDP) Intel Xeon E5-2667v4 (135W) Intel Xeon Gold 6146 (165W) Intel Xeon Gold 6342 (230W) Intel Xeon Gold 6438M (205W) コア数 [Cores/2Sockets] 16 24 48 64 メモリ搭載量 [GB] 256 384 768 1024 入力電力/実効消費電力 515W/270W 490W/306W 670W/455W 670W/455W 搭載数 [Nodes/Rack] 24 24 16 16 RAFTELのサーバーは4世代が混在しており、それぞれ以下のような諸元となる TDPの上昇によって消費電力は今後も増加する見込み (次期サーバーにおいてはTDP500WのCPUまで検討中)
RAFTEL標準サーバー Server 1 Server 2 Server 3 Server 4 搭載CPU
(TDP) Intel Xeon E5-2667v4 (135W) Intel Xeon Gold 6146 (165W) Intel Xeon Gold 6342 (230W) Intel Xeon Gold 6438M (205W) コア数 [Cores/2Sockets] 16 24 48 64 メモリ搭載量 [GB] 256 384 768 1024 入力電力/実効消費電力 515W/270W 490W/306W 670W/455W 670W/455W 搭載数 [Nodes/Rack] 24 24 16 16 RAFTELのサーバーは4世代が混在しており、それぞれ以下のような諸元となる 電力と冷却をボトルネックとして、 1ラックに積めるサーバー台数が徐々に減っている
RAFTEL標準サーバー Server 1 Server 2 Server 3 Server 4 搭載CPU
(TDP) Intel Xeon E5-2667v4 (135W) Intel Xeon Gold 6146 (165W) Intel Xeon Gold 6342 (230W) Intel Xeon Gold 6438M (205W) コア数 [Cores/2Sockets] 16 24 48 64 メモリ搭載量 [GB] 256 384 768 1024 入力電力/実効消費電力 515W/270W 490W/306W 670W/455W 670W/455W 搭載数 [Nodes/Rack] 24 24 16 16 RAFTELのサーバーは4世代が混在しており、それぞれ以下のような諸元となる 電力と冷却をボトルネックとして、 1ラックに積めるサーバ台数が徐々に減っていく つまり... サーバーの高性能化に伴ってサーバー台数を減らすことはできたが、 サーバーラック台数を減らすことはほとんどできていない
Power Usage Effectiveness (PUE) リクルートには2030年までにカーボンニュートラルを実現という目標があるが、 これに向けてサーバー冷却に利用する電力を減らすことが重要 以下に示す式により算出されるPUEという値がある。 これが1に近いほど、系の電力効率が優れることを示している。 サーバーが利用する電力は「計算に利用する電力」「冷却に利用する電力」の2種類があり、 PUEの良化には「冷却に利用する電力」を減らすことが重要である。
マシンルーム全体を空気により冷やしている サーバー冷却手法 ~空冷と液冷~ 日本における現在の冷却手法の主流は空冷であるが、 これを液冷とすることにより効率が向上する。 液体 空気 空気 液体 液体
発熱部品を直接液体冷却するため部屋の冷却は不要 チラー チラー 空冷 液冷 CPU/GPU CPU/GPU エアコン 熱交換機 サーバーのファン
マシンルーム全体を空気により冷やしている サーバー冷却手法 ~空冷と液冷~ 日本における現在の冷却手法の主流は空冷であるが、 これを液冷とすることにより効率が向上する。 液体 空気 空気 液体 液体
発熱部品を直接液体冷却するため部屋の冷却は不要 チラー チラー 空冷 液冷 CPU/GPU CPU/GPU サーバーのファン エアコン ロス ロス 熱交換機
マシンルーム全体を空気により冷やしている サーバー冷却手法 ~空冷と液冷~ 日本における現在の冷却手法の主流は空冷であるが、 これを液冷とすることにより効率が向上する。 液体 空気 空気 液体 液体
発熱部品を直接液体冷却するため部屋の冷却は不要 チラー チラー 空冷 液冷 熱交換機 CPU/GPU CPU/GPU エアコン ロス ロス ロス サーバーのファン
マシンルーム全体を空気により冷やしている サーバー冷却手法 ~空冷と液冷~ 日本における現在の冷却手法の主流は空冷であるが、 これを液冷とすることにより効率が向上する。 液体 空気 空気 液体 液体
発熱部品を直接液体冷却するため部屋の冷却は不要 チラー チラー 空冷 液冷 CPU/GPU CPU/GPU エアコン ロス ロス ロス ロス 熱交換機 サーバーのファン
液体冷却手法 ~リアドア冷却~ 冷気 暖気 冷気 冷気 通常の空冷ラックにおいては、 室温の空気を吸気し、 サーバーの熱とともに大気排出する。 リアドア冷却の場合、マシンルームへ排気する前に
ラックの後部で気体の冷却を行う。(上図破線部分) リアドア冷却は一般的に液体によって行うため、 マシンルームには水冷配管を要するが、 サーバー本体は空冷用のものを利用可能 チラーとの冷却水の交換
液体冷却手法 ~直接液体冷却~ CPUのみ液体冷却 (残りの熱は空冷) CPU・GPU・RAM・NI Cを液体冷却 (100%をDLC) Coolant Distribution Unit
(CDU) サーバーへ クーラントを送る管 直接液体冷却 (Direct Liquid Cooling: DLC) はベンダー各社によって対応状況が異なり、 CPUのみ液体冷却が可能・100%をDLCにて熱除去可能などさまざまである。 チラーとの 冷却水の交換
液体冷却手法 ~液浸冷却~ 液槽 熱交換器 (CDU) 1. 加熱された冷却液は サーバーラックから排出され、 熱交換器 (CDU)
へと向かう。 2. 熱交換器はチラーから送られてきた 冷却水と熱交換を行う。 液槽から送られてきたクーラントは 冷やされ、再度液槽へ向かう チラー
液体冷却手法 ~液浸冷却~ 液槽 熱交換器 1. 加熱された冷却液は サーバーラックから排出され、 熱交換器 (CDU) へと向かう。
2. 熱交換器はチラーから送られてきた 冷却水と熱交換を行う。 液槽から送られてきたクーラントは 冷やされ、再度液槽へ向かう チラー
液体冷却手法 ~各手法比較~ 冷却タイプ 想定PUE 対応可能熱量 導入コスト ランニング コスト 設置難易度 部品故障率
発揮できる性能 空冷 1.6 ~ 2.2 ~15kVA 低 中 低 高 低 リアドア 1.2 ~ 1.6 ~50kVA 中 中 中 高 中 直接液冷 (DLC) 1.01 ~ 1.4 50kVA ~無制限 中 低 中 中 中〜最高 液浸 1.02 ~ 1.1 無制限 高 中 高 低 高 前ページまでの内容をまとめると、各手法は相対的に以下のように言える。
液体冷却手法 ~各手法比較~ 冷却タイプ 想定PUE 対応可能熱量 導入コスト ランニング コスト 設置難易度 部品故障率
発揮できる性能 空冷 1.6 ~ 2.2 ~15kVA 低 中 低 高 低 リアドア 1.2 ~ 1.6 ~50kVA 中 中 中 高 中 直接液冷 (DLC) 1.01 ~ 1.4 50kVA ~無制限 中 低 中 中 中〜最高 液浸 1.02 ~ 1.1 無制限 高 中 高 低 高 前ページまでの内容をまとめると、各手法は相対的に以下のように言える。 これらの手法を現在検討中
液冷サーバーの検討状況 RAFTELで液冷サーバーを導入すると以下のようなメリットが考えられるため、 導入する冷却手法などについて鋭意検討中 • サーバーラック台数の減少による不動産コストの大幅削減ができそう • サーバーラックの減少によるエッジスイッチの大幅削減が可能になる • 電力使用の効率化による電気代の削減ができる •
電力使用の低減によるリクルートホールディングスのカーボンニュートラル目標への寄与 • 冷却能力の向上により、CPU (GPU) の性能向上 (サーマルスロットリングを回避) 現在、データセンター側で液冷用の部屋を増築中のため、 液冷用の部屋の提供スケジュールが決まり次第、本検討を加速していく予定である。
Agenda 1. リクルートの持つプライベートクラウド「RAFTEL」 2. オンプレミスGPU基盤の検討 3. サーバーの冷却技術 4. まとめ
まとめ • RAFTELは一大変革期にあり、その中で通常のEoSL対応以外にも将来に向けたあり方を模 索している。 • 新たな取り組みとして、「GPUインスタンスの導入検討」「サーバーラックの高集約化に よるコスト削減(= サーバー冷却技術検討)」などに取り組んでいる。 • 検討中の内容であるため、プロジェクトが完遂した暁にはどこかで改めて報告したい。