ビッグデータ分析システムにおける分散分析基盤のリソース割当最適化

© Hitachi, Ltd. FY2023. All rights reserved. ビッグデータ分析システムにおける分散分析基盤のリソース割当最適化 2023/6/2-3
サービスコンピューティング研究会㈱日立製作所研究開発グループ〇上野里奈、藪崎仁史

© Hitachi, Ltd. FY2023. All rights reserved. クラウド上での分散分析の課題 ▪ ビッグデータ処理は処理コストが高く「実行時間が長い」
▪ 処理を高速化するため、分散分析基盤で処理を並列化 ◇ Hadoop, Spark, Ray 1

© Hitachi, Ltd. FY2023. All rights reserved. Ray framework Ray
AI Runtime ▪ MLエンジニア、データサイエンティスト、研究者向け ▪ MLアプリケーションのためのスケーラブルで統一的なツールキット ▪ オープンソース、Python、ドメイン固有のライブラリセットで提供 Ray Core ▪ MLエンジニア、Python開発者向け ▪ オープンソースで、Pythonで、汎用的な、分散コンピューティングのライブラリ ▪ PythonアプリケーションでMLワークロードを拡張する作業を速くできる Ray Cluster ▪ Head NodeとWorker Nodeのセット ▪ クラスタのサイズは固定でも、ジョブが必要とするリソースサイズにオートスケールすることもできる ▪ ローカルマシン、Kubernetes Pod、AWSやGCPのインスタンスなどでも構成可能 2 head worker worker Scale out/in … Ray Cluster

© Hitachi, Ltd. FY2023. All rights reserved. クラウド上での分散分析の課題 ▪ ビッグデータ処理は処理コストが高く「実行時間が長い」
▪ 処理を高速化するため、分散分析基盤で処理を並列化 ◇ Hadoop, Spark, Ray ▪ クラウド上でビッグデータを分散処理すると利用コストが高くなる ▪ 実行時間の最小化をしつつ、リソースの利用コストを抑えることが重要 3

© Hitachi, Ltd. FY2023. All rights reserved. 分散分析基盤のスケジューリングの色々 ▪ ベストエフォート方式
◇ リクエスト順にでデプロイ済みのリソースのうち使用可能なものを割り当てる ◇ 使用可能なリソースがなく待機時間が長くなる場合は、分散分析基盤のリソースポリシーの範囲内でリソースをスケールする ▪ スケジュール方式 ◇ リソースの事前予約と実行完了期限の設定によって、優先的にリソースを割り当てる ▪ 優先度方式 ◇ ジョブに優先度を付与し、優先度の高い順にリソースを割り当てる ◇ 使用可能なリソースがない場合は、低優先度のジョブを一時停止して使用可能なリソースをつくって譲る 4

© Hitachi, Ltd. FY2023. All rights reserved. リソース使用量と実行時間のバランスの最適化ワークロードごとにリソース割当量と実行時間との関係を表すパラメータを定義 ◇
リソースの使用効率が高く、実行時間が短くなるリソース量を推定 5 ピーク使用量かつ顕著な性能低下がない点リソース量ジョブ実行時間 (s) リソース量とジョブ実行時間は指数関数的に減少するリソース割当量とジョブ実行時間はトレードオフの関係

© Hitachi, Ltd. FY2023. All rights reserved. 課題 ▪ データの分散に伴う転送遅延などのオーバーヘッドがある
オーバーヘッドは分析対象のデータの量に依存する ▪ 既存手法は、与えるジョブは単一、分析対象のデータの量は一定、を前提としてる。リソース割当量は、デフォルト値や事前定義した値通り。 ▪ 分析対象のデータ量が可変なアプリケーションへは適用できない ▪ 何回もいろんな処理に対して分散分析基盤を用いたいアプリケーションへの適用ができない ◇ 処理の中でデータ量が変わっていくから ▪ オーバーヘッド、分析対象データの量を考慮して、リソース使用量の最小化と実行時間の最小化の両立 6

© Hitachi, Ltd. FY2023. All rights reserved. 1. 2. 分散分析基盤のリソース割当最適化の提案の概要
1. ワークロードごとにリソース割当量と実行時間とデータ量の関係を表すパラメーターを定義 2. アプリケーション内のタスクを認識・識別、各タスクの最適なリソース量を瞬時に決定・スケーリングする方法 7 データ量実行時間リソース割当量タスクの処理内容データ量最適なリソース量？ import math def dsin(x): return math.sin(math.radians(x)) def dcos(x): return math.cos(math.radians(x)) def dtan(x): return math.tan(math.radians(x)) print("sin60°: {}".format(dsin(60))) print("cos60°: {}".format(dcos(60))) print("tan60°: {}".format(dtan(60))) TaskX 最適なリソース量 TaskX アプリケーション実行

© Hitachi, Ltd. FY2023. All rights reserved. ソースコードの記述リソース最適化を適用する関数には、「リソース最適化適用の関数アノテーション」を
付与リソース最適化処理をする際に必要な機能のライブラリを取り込む 1 import ray 2 import ray[resource_optimizer] 3 4 5 def func1(): 6 print(‘func1’) 7 with … 8 9 @ray.remote() 10 def func2(): 11 print(‘func2’) 12 with … 13 14 @ray.remote(optimize_resource=True) 15 def func3(): 16 print(‘func3’) 17 with … 18 19 @ray.remote(optimize_resource=True) 20 def func4(): 21 print(‘func4’) 22 with … 23 … 最適リソース推定ライブラリの読込分散分析基盤のリソース最適化を適用するタスクT1 分散分析基盤のリソース最適化を適用するタスクT2 リソース最適化適用の関数アノテーション 8

© Hitachi, Ltd. FY2023. All rights reserved. リソース量予測モデルの生成 import ray
import ray[resource_optimizer] @ray.remote (optimize_resource=True) def func1(): print(‘hello world’) … モデルの生成対象タスクの抽出対象タスクの実行分析のサンプルデータモデル生成コンテナ分散分析基盤トレーシング情報保存学習データリソース量予測モデルアプリケーションコード実行命令/結果読込保存読込 9 実行時間に対する割当リソースデータ量の相関実行時間T ・・・タスクごとに存在するタスクごとに存在するソースコードからリソース最適化の対象となるタスクを発見してタスクを実際に実行することで「リソース量」「データ量」「実行時間」で1セットの学習データをたくさん収集する表上の点はリソースの使用効率がX％となる点

© Hitachi, Ltd. FY2023. All rights reserved. 最適リソース量の逐次推定実行命令/ 結果
アプリケーションリソース最適化コンテナ分析データ処理をホールド処理のホールド解除分散処理処理の開始・継続リソース動的最適化処理対象タスクの検出データの受取モデルの選出/ データ量の計量リソースの最適量の決定リソースのスケールの要求スケール完了分散分析基盤スケール確認命令処理の完了分析データリソース最適化ライブラリ 10 関数名からモデルを選出モデルに利用可能なリソース量/入力データ量を与えて、リソース量を決定

© Hitachi, Ltd. FY2023. All rights reserved. まとめ • クラウド上でビッグデータの分散処理をする際、
実行時間の最小化をしつつ、リソースの利用コストを抑えることが重要 • 課題：リソースを効率的に使える範囲で処理時間を可能な限り短くするリソース量を推定 • 分散フレームワークRayをご紹介 • AIやPythonアプリを高速・シンプルに分散並列化するための計算レイヤーを提供 • 複数ノードでクラスタを構成 • アプリケーションコードへの関数アノテーションとライブラリを付与データ量・リソース量・実行時間からリソース量予測モデルを生成アプリ実行中にタスクを検出・識別し、データ量とモデルから最適なリソース量を決定しスケール • アプリケーション実行時間の短縮、リソースの動的割当、リソースの利用効率の向上が可能 11

© Hitachi, Ltd. FY2023. All rights reserved. 商標 • Python、Pythonのロゴは、米国Python
Software Foundationの登録商標です。 • Apache Hadoop、Hadoop、Apache、Apache、Apache Featherのロゴ、Apache Hadoop プロジェクトのロゴは、米国およびその他の国におけるApache Software Foundationの登録商標または商標です。 12

ビッグデータ分析システムにおける分散分析基盤のリソース割当最適化

ビッグデータ分析システムにおける分散分析基盤のリソース割当最適化

Rina Ueno

More Decks by Rina Ueno

Other Decks in Technology

Featured

Transcript

© Hitachi, Ltd. FY2023. All rights reserved. ビッグデータ分析システムにおける分散分析基盤のリソース割当最適化 2023/6/2-3

© Hitachi, Ltd. FY2023. All rights reserved. クラウド上での分散分析の課題 ▪ ビッグデータ処理は処理コストが高く「実行時間が長い」

© Hitachi, Ltd. FY2023. All rights reserved. Ray framework Ray

© Hitachi, Ltd. FY2023. All rights reserved. クラウド上での分散分析の課題 ▪ ビッグデータ処理は処理コストが高く「実行時間が長い」

© Hitachi, Ltd. FY2023. All rights reserved. 分散分析基盤のスケジューリングの色々 ▪ ベストエフォート方式

© Hitachi, Ltd. FY2023. All rights reserved. リソース使用量と実行時間のバランスの最適化ワークロードごとにリソース割当量と実行時間との関係を表すパラメータを定義 ◇

© Hitachi, Ltd. FY2023. All rights reserved. 課題 ▪ データの分散に伴う転送遅延などのオーバーヘッドがある

© Hitachi, Ltd. FY2023. All rights reserved. 1. 2. 分散分析基盤のリソース割当最適化の提案の概要

© Hitachi, Ltd. FY2023. All rights reserved. ソースコードの記述リソース最適化を適用する関数には、「リソース最適化適用の関数アノテーション」を

© Hitachi, Ltd. FY2023. All rights reserved. リソース量予測モデルの生成 import ray

© Hitachi, Ltd. FY2023. All rights reserved. 最適リソース量の逐次推定実行命令/ 結果

© Hitachi, Ltd. FY2023. All rights reserved. まとめ • クラウド上でビッグデータの分散処理をする際、

© Hitachi, Ltd. FY2023. All rights reserved. 商標 • Python、Pythonのロゴは、米国Python

ビッグデータ分析システムにおける 分散分析基盤のリソース割当最適化

ビッグデータ分析システムにおける 分散分析基盤のリソース割当最適化

More Decks by Rina Ueno

Other Decks in Technology

Featured

Transcript

ビッグデータ分析システムにおける分散分析基盤のリソース割当最適化

ビッグデータ分析システムにおける分散分析基盤のリソース割当最適化