Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
FargateとAthenaで作る、機械学習システム
Search
Nayuta S.
August 05, 2022
Programming
1
1.2k
FargateとAthenaで作る、機械学習システム
AKIBA.AWS ONLINE #09 – AWSを活用した機械学習 編- の発表資料です。
https://dev.classmethod.jp/news/akiba-aws-220804/
Nayuta S.
August 05, 2022
Tweet
Share
More Decks by Nayuta S.
See All by Nayuta S.
FastMCPでSQLをチェックしてくれるMCPサーバーを自作してCursorから動かしてみた
nayuts
1
360
Amazon Athenaから利用時のGlueのIcebergテーブルのメンテナンスについて
nayuts
0
360
目玉アップデート!のSageMaker LakehouseとUnified Studioは何たるかを見てみよう!
nayuts
0
980
Amazon Rekognitionのカスタムモデルで独自のモデレーションモデルをトレーニングする
nayuts
0
250
Google CloudのLLM活用の選択肢を広げるVertex AIのパートナーモデル
nayuts
0
460
データ品質管理の第一歩
nayuts
1
960
簡単に始めるSnowflakeの機械学習
nayuts
1
1.4k
AthenaとStep Functionsで簡単ETLオーケストレーション #midosuji_tech
nayuts
1
1.2k
Vertex AIとBigQueryでつくる簡単ベクトル検索&テキスト分析システム
nayuts
0
1.2k
Other Decks in Programming
See All in Programming
ペアプロ × 生成AI 現場での実践と課題について / generative-ai-in-pair-programming
codmoninc
2
18k
Claude Code + Container Use と Cursor で作る ローカル並列開発環境のススメ / ccc local dev
kaelaela
10
5.7k
ソフトウェア品質を数字で捉える技術。事業成長を支えるシステム品質の マネジメント
takuya542
2
13k
AIと”コードの評価関数”を共有する / Share the "code evaluation function" with AI
euglena1215
1
170
AI時代のソフトウェア開発を考える(2025/07版) / Agentic Software Engineering Findy 2025-07 Edition
twada
PRO
91
30k
코딩 에이전트 체크리스트: Claude Code ver.
nacyot
0
550
生成AI時代のコンポーネントライブラリの作り方
touyou
1
230
PicoRuby on Rails
makicamel
2
130
Goで作る、開発・CI環境
sin392
0
240
Advanced Micro Frontends: Multi Version/ Framework Scenarios @WAD 2025, Berlin
manfredsteyer
PRO
0
180
プロダクト志向なエンジニアがもう一歩先の価値を目指すために意識したこと
nealle
0
130
Webの外へ飛び出せ NativePHPが切り拓くPHPの未来
takuyakatsusa
2
560
Featured
See All Featured
Making Projects Easy
brettharned
116
6.3k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
What’s in a name? Adding method to the madness
productmarketing
PRO
23
3.5k
Testing 201, or: Great Expectations
jmmastey
43
7.6k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
126
53k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
161
15k
How STYLIGHT went responsive
nonsquared
100
5.6k
Statistics for Hackers
jakevdp
799
220k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
281
13k
Mobile First: as difficult as doing things right
swwweet
223
9.7k
Writing Fast Ruby
sferik
628
62k
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
Transcript
FargateとAthenaで作る、 機械学習システム 2022/8/4(⽊) AKIBA.AWS Online #9 データアナリティクス事業部 鈴⽊ 那由太 1
2 ⾃⼰紹介 鈴⽊ 那由太 - nayuts クラスメソッド 株式会社 データアナリティクス事業本部 ⼊社:
2021/05 好きなサービス: Amazon Athena 担当業務:データ分析基盤の構築・運⽤、機械学習システムの検証 ほか: kaggleにノート公開したりしていた。 2022 APN AWS Top Engineers(Analytics)
3 本⽇お話ししたいこと
4 本⽇お話ししたいこと 内容 • S3・Athena・Fargateでの機械学習システムの構成例 (CPUで動くモデル⽤、バッチ処理、初期段階のイメージ) 課題意識 • 機械学習モデルを作るところまではできたけど、システム化すると き、どの部分にどういう役割を持たせるか難しかった。
• Fargateタスクで動かしてみたかったが、ネットワーク・権限の要件 が多く感じた。
5 本⽇お話ししたいこと 想定視聴者 • FargateタスクとS3で機械学習システムを構成してみたい⽅ LTの技術的な要点 • プライベートサブネットでFargateタスクを動かすために必要な要 件 •
データを蓄えるところはデータ分析基盤の3層構成にすると当ては めやすい
6 LTのテーマ ご紹介する構成・考え⽅
7 紹介する構成 前処理・結合 データマート層 データを貯める部分 + 機械学習機能 で構成する。 データレイク層 学習・推論
ワークフロー エンジン データを貯める部分 機械学習部分
8 構成の根拠
9 構成の根拠 ①データレイク層 ②データウェアハウス層 ③データマート層 No 名前 役割 ① データレイク層
⽣データを格納しておく。後続のロジック修正時に 再計算できるようにしておく。 ② データウェアハウス層 クレンジングや共通化したいデータを格納する。基 盤が成熟していない場合、無いこともある。 ③ データマート層 ユースケース⽤のデータを格納しておく。 データ分析基盤部分は3層で考えるのが、今は⼀般的です。 ˞ʰ࣮ફతσʔλج൫ͷॲํᝦʙ ϏδωεՁग़ͷͨΊͷσʔλɾγεςϜɾώτͷϊϋʱΛࢀߟʹ͠·ͨ͠ɻ IUUQTHJIZPKQCPPL
10 紹介する構成(再掲) 前処理・結合 データマート層 データを貯める部分 + 機械学習機能 で構成する。 データレイク層 学習・推論
ワークフロー エンジン データを貯める部分 機械学習部分
11 難しかったところ
12 プライベートサブネットで実⾏する場合 エンドポイント・IAMロールは要件が多めです。 ※NATがないケース
13 ワークフローエンジンで実⾏する場合 別のリソースから起動する場合は、追加で必要なものがあります。 ※NATがないケース
14 パフォーマンスチューニング CPUの値とメモリの値に許容される組み合わせがある。 ▪以下のドキュメントより2022/07/23に抜粋 https://docs.aws.amazon.com/ja_jp/AmazonECS/latest/userguide/task_definition_parameters.html
15 実験管理 ▪以下ブログより20220730に抜粋 https://aws.amazon.com/jp/blogs/news/machine-learning-managing-your-machine- learning-lifecycle-with-mlflow-and-amazon-sagemaker/ ▪以下ブログより20220730に抜粋 https://aws.amazon.com/jp/blogs/machine- learning/visualizing-tensorflow-training-jobs-with- tensorboard/ ⾃分で構築するなら以下の2つの選択肢がありそう。
① MLFlow ② TensorBoard ① MLFlowの利⽤例 ② TensorBoardの利⽤例
16 そのたポイント
17 処理単位の分け⽅ 前処理・結合 データマート層 データレイク層 学習実行 学習済みモデル ワークフロー エンジン 学習済みモデル
データマート層 推論実行 データマート層 データマート層 実行 処理1:データの作成 処理2:学習 処理3:推論 ⽇毎・⽉毎 に出⼒ 処理内容と周期で分けると整理しやすかったです。
18 起動設定やデータの渡し⽅ ワークフロー エンジン 学習または推論 実行 ①スケジュール実⾏ ワークフロー定義内でスケジューリングする。 ②学習・推論に利⽤するデータの指定 タスク定義の環境変数でS3上のどのオブジェクトを使うか指定する。
ワークフローからSDKでFargateタスクを呼び出し、環境変数を 上書きすると使いやすい。 Boto3 documentationより20220730に抜粋
19 メリット・デメリット • メリット • RedshiftなどDWH製品に詳しくなくても、とりあえずS3とAthenaを覚えれ ばサーバーレスで実現できる⼿軽さ。 • S3を起点としてFargateからデータを読み出しやすい。 •
デメリット • DWH製品とは異なり、ストレージに保存する際に型などのチェックがしにく く、利⽤する際まで異常に気づかないことがある。 • このあたりを使うと良いかも? • Redshift Serverless
20 ブログ • 以下のブログにも記載しました。
21