Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ分析基盤のためにS3を深堀りする~アーキテクチャ設計の考え方のヒントに~
Search
NRI Netcom
PRO
October 14, 2024
Technology
3.3k
6
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
データ分析基盤のためにS3を深堀りする~アーキテクチャ設計の考え方のヒントに~
NRI Netcom
PRO
October 14, 2024
More Decks by NRI Netcom
See All by NRI Netcom
AWSマンスリーアップデートピックアップ 2026年5月分
nrinetcom
PRO
0
70
Keynoteから考える、AIエージェント時代で何が変わるのか?
nrinetcom
PRO
0
77
「Google Cloud Next '26」で発表された、BigQueryの最新機能を使ってみよう
nrinetcom
PRO
0
74
Gemini Code AssistとGeminiCLIの活用例
nrinetcom
PRO
0
68
AI時代に求められる思考のパラダイムシフト
nrinetcom
PRO
1
190
ジュニアエンジニアはSREとどう向き合うべきか
nrinetcom
PRO
1
160
AWS認定資格は本当に意味があるのか?
nrinetcom
PRO
7
5.7k
AWSマンスリーアップデートピックアップ 2026年3月分
nrinetcom
PRO
0
99
昔話で振り返るAWSの歩み ~S3誕生から20年、クラウドはどう進化したのか~
nrinetcom
PRO
0
260
Other Decks in Technology
See All in Technology
AIソロプレナー時代に2ヶ月で20人増員した事業創造会社の開発組織の話
miyatakoji
0
670
「エンジニア進化論」2028年の開発完全自動化、エンジニアはどう進化するか
cyberagentdevelopers
PRO
6
5.3k
GitHub Copilot 最新アップデート – 「一歩先」の実践活用術
moulongzhang
4
1k
RSA暗号を手計算したくなること、ありますよね?? (20260615_orestudy6_rsa)
thousanda
0
450
自律型AIエージェントは何を破壊するのか
kojira
0
160
2026TECHFRESH畢業分享會 - 原生還是跨平台? App 開發踩坑實錄
line_developers_tw
PRO
0
1.1k
SONiCのLinuxベースを活かしたZabbix監視
sonic
0
180
アジャイルな経理と Claude Code と経営の未来
kawaguti
PRO
3
120
2026年6月23日 Syncable Tech + Start Python Club にて
hamukazu
0
120
連合学習と機密コンピューティング
lycorptech_jp
PRO
0
120
非エンジニアがClaudeと挑んだ「1ヶ月間プロダクト30本ノック」
askokc
0
560
2026TECHFRESH畢業分享會 - AI 時代的人生存檔點
line_developers_tw
PRO
0
1.1k
Featured
See All Featured
Claude Code のすすめ
schroneko
67
230k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
200
Darren the Foodie - Storyboard
khoart
PRO
3
3.4k
Optimising Largest Contentful Paint
csswizardry
37
3.7k
We Have a Design System, Now What?
morganepeng
55
8.2k
Git: the NoSQL Database
bkeepers
PRO
432
67k
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
170
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
590
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
A designer walks into a library…
pauljervisheath
211
24k
The Mindset for Success: Future Career Progression
greggifford
PRO
0
360
A better future with KSS
kneath
240
18k
Transcript
データ分析基盤のためにS3を深堀りする ~ アーキテクチャ設計の考え方のヒントに ~ JAWS FESTA 2024 広島 2024年10月12日 NRIネットコム株式会社
執行役員 デジタルソリューション事業本部長 クラウドテクニカルセンター センター長 佐々木拓郎
1 Copyright(C) NRI Netcom, Ltd. All rights reserved. 自己紹介 ◼
2000年 4月 NRIネットコム株式会社入社 ◼ 現在 執行役員 デジタルソリューション事業本部 本部長 クラウドテクニカルセンター センター長 ◼執筆 佐々木拓郎
2 Copyright(C) NRI Netcom, Ltd. All rights reserved. NRIネットコムのAWSへの取り組み APNアドバンスド
コンサルティングパートナー 複数のAWS Award受賞者と 多数のAWS認定者資格 書籍&ブログ執筆
3 Copyright(C) NRI Netcom, Ltd. All rights reserved. データ分析処理とデータレイクをサラッと解説 01
アーキテクチャの検討をする 02 計測が大事 03
4 Copyright(C) NRI Netcom, Ltd. All rights reserved. 1. データ分析処理とデータレイクをサラッと解説
5 Copyright(C) NRI Netcom, Ltd. All rights reserved. データ分析処理の一例 目的に合わせて加工したデータをデータウェアハウスに格納して分析する
リアルの世界での 活動履歴 オフラインデータ 用途に応じて データを編集 ETL 構造化した データを 保存する場所 データ ウェアハウス Web等のオンライン上 の活動履歴 オンラインデータ 生データ クエリー 分析・可視化 機械学習 加工済 データ 構造化の過程で、不要な情 報が切り捨てられる POINT 生データを構造化する段階で、不要な情報が切り捨てられる 別の切り口で分析する際には、元データの再連携が必要 そのためには、データレイクが必要 データレイク できるだけ元のままの データを格納 本日の主テーマ
6 Copyright(C) NRI Netcom, Ltd. All rights reserved. AWSのサービスに当てはめてアーキテクチャを考えていく それぞれの構成要素に対応した、複数のサービスがある。
オフラインデータ オンラインデータ データレイク データ ウェアハウス データマート 分析・可視化 機械学習 ETL データ分析基盤 リアルの世界 での活動履歴 Web等の オンライン上の 活動履歴 Amazon S3 Amazon EMR AWS Glue Amazon Athena Amazon Redshift Amazon Aurora Amazon Kinesis Amazon SageMaker Amazon QuickSight POINT データレイクとしてはS3を利用する。 それ以外は、規模・用途に応じて使い分ける 蓄積系 収集系 処理・分析系 データを そのまま保存 構造化した データを保存 用途に適した データを抽出 用途に応じて データを編集 整形された データで分析 転送 取得 AWS Lambda
7 Copyright(C) NRI Netcom, Ltd. All rights reserved. アーキテクチャ選定の基準、もっていますか? 用途に応じて使い分けるって、
その基準は? えーっと!? (知らんがな) なんとなくを脱却して 自信をもって答えられるようになろう
8 Copyright(C) NRI Netcom, Ltd. All rights reserved. 2.アーキテクチャの検討をする
9 Copyright(C) NRI Netcom, Ltd. All rights reserved. こんな発表があった時、どう捉えますか? S3
Express One Zone S3のアクセスをより高速に、より低コストに
10 Copyright(C) NRI Netcom, Ltd. All rights reserved. アーキテクチャの検討の出発点 機能要件・非機能要件を元に考える
必要な機能を 持っているか? 要件に対して 十分な性能を 発揮できるか? コストは ビジネス上の 制約内に収まるか? その他の非機能要件を 満たしているか? (セキュリティetc.) こういった観点から考えてみます
11 Copyright(C) NRI Netcom, Ltd. All rights reserved. S3 Express
One Zoneのスペック S3 標準ストレージとカタログスペックを比較してみる S3 標準ストレージ S3 Express One Zone 主な用途 アクセス頻度の高いデータ向けの汎 用ストレージ 最もアクセス頻度が高いデータ向け の高性能ストレージ SLA 99.9% 99.9% 可用性 99.99% 99.95% 料金体系 (東京リー ジョン) PUT、COPY、POST、LIST リクエス ト (1,000 リクエストあたり) USD 0.0047 USD 0.0024 GET、SELECT、他のすべてのリクエ スト (1,000 リクエストあたり) USD 0.00037 USD 0.00019 データ保存料 最初の 50 TB/月 USD 0.025/GB USD 0.18/GB 標準ストレージに比べ半値 Express One Zoneに比べて1桁安い 可用性は、標準ストレージの方が高い
12 Copyright(C) NRI Netcom, Ltd. All rights reserved. データレイク データレイクに求められる要件
⚫ スケーラビリティ ⚫ コスト効率 ⚫ データの多量性 ⚫ データセキュリティとガバナンス ⚫ 耐障害性と高可用性 ⚫ メタデータ管理 大量のデータを保存する場合は、 S3 Express OneZoneはコスト効率が悪い
13 Copyright(C) NRI Netcom, Ltd. All rights reserved. では、 何に使うの?
14 Copyright(C) NRI Netcom, Ltd. All rights reserved. データレイクを階層化して利用するとすると? RAWデータレイク・中間データレイク・構造化データレイク
RAWデータレイク DBデータなど 構造化データ アクセスログなど 半構造化データ データレイク SNS投稿テキストなど 非構造化データ ETL(整形処理) データの形式を統一 フォーマット処理 重複や欠損値の除去 クレンジング処理 個人情報などの除去 マスク処理 DBデータなど 構造化データ アクセスログなど 半構造化データ 構造化されたテキスト 半構造化データ ETL(ビジネス加工) データ置換など ビジネスロジック処理 不要なカラムの除去など フィルタ処理 データソースの属性結合 エンリッチメント処理 構造化データレイク 顧客ごとのSNS反応履歴 構造化データ Eコマースの購買履歴 構造化データ 実店舗の購買履歴 構造化データ ETL(用途別加工) アプリ向けのデータ集約 アプリ用処理 古い情報のアーカイブ アーカイブ用処理 集計などの加工 分析用処理 DWH データの フォーマット はバラバラで OK! データの意味そのものを 変えるような加工はし ない 目的に応じて意味の改変も含めて加工したデータ
15 Copyright(C) NRI Netcom, Ltd. All rights reserved. 階層化するとデータレイクに直接クエリーを発行できる
16 Copyright(C) NRI Netcom, Ltd. All rights reserved. Express One
Zoneの活用 RAWデータレイク・中間データレイク・構造化データレイク RAWデータレイク DBデータなど 構造化データ アクセスログなど 半構造化データ データレイク SNS投稿テキストなど 非構造化データ ETL(整形処理) データの形式を統一 フォーマット処理 重複や欠損値の除去 クレンジング処理 個人情報などの除去 マスク処理 中間データレイク DBデータなど 構造化データ アクセスログなど 半構造化データ 構造化されたテキスト 半構造化データ ETL(ビジネス加工) データ置換など ビジネスロジック処理 不要なカラムの除去など フィルタ処理 データソースの属性結合 エンリッチメント処理 構造化データレイク 顧客ごとのSNS反応履歴 構造化データ Eコマースの購買履歴 構造化データ 実店舗の購買履歴 構造化データ ETL(用途別加工) アプリ向けのデータ集約 アプリ用処理 古い情報のアーカイブ アーカイブ用処理 集計などの加工 分析用処理 DWH データの フォーマット はバラバラで OK! データの意味そのものを 変えるような加工はし ない 目的に応じて意味の改変も含めて加工したデータ 大量のデータを保存する場合は、 標準ストレージが適している 中間処理で一時保存のみであれば、 Express One Zoneが適している 運用設計次第。少量かつ高頻度の利用で あれば、Express One Zoneが適している
17 Copyright(C) NRI Netcom, Ltd. All rights reserved. 一方で性能の把握も必要 カタログスペックだけでなく、実際の性能を把握しておくことも重要
高速って言われても、どんなものなの? データ量が同じなら、同じ速度なの? えーっと!? (知らんがな) 定量的に説明できると説得力が増す 計測してみないとわからない
18 Copyright(C) NRI Netcom, Ltd. All rights reserved. 3.計測が大事
19 Copyright(C) NRI Netcom, Ltd. All rights reserved. 性能測定① 小サイズの大量データでの測定結果
⚫ EC2からデータアップロードとダウンロードの速さ ⚫ Athenaからクエリー実行した際のレスポンス時間 ⚫ APIリクエストのコスト比較(机上評価) ⚫ データは、10KBのファイルを70万個 標準ストレージ Express One Zone 標準との比較 アップロード時間 849.47秒 197.89秒 429% ダウンロード時間 1411.23秒 382.24秒 369% クエリー時間 75.91秒 52.30秒 145% API料金 $13.79 $2.74 500%
20 Copyright(C) NRI Netcom, Ltd. All rights reserved. S3 Express
OneZoneが圧倒的と思った方はご注意を カタログスペックだけでなく、実際の性能を把握しておくことも重要 小さなサイズの大量のデータを扱っているのが悪いのでは? 例えば、ファイルを適度なサイズにまとめて比較すると どうなるの?
21 Copyright(C) NRI Netcom, Ltd. All rights reserved. 性能測定② 通常サイズのデータでの測定結果
⚫ EC2からデータアップロードとダウンロードの速さ ⚫ Athenaからクエリー実行した際のレスポンス時間 ⚫ APIリクエストのコスト比較(机上評価) ⚫ データは、100MBのファイルを100個 標準ストレージ Express One Zone 標準との比較 アップロード時間 84.88秒 67.89秒 125% ダウンロード時間 79.77秒 79.81秒 100% クエリー時間 2.59秒 2.24秒 116% API料金 $0.001 $0.0002 500%
22 Copyright(C) NRI Netcom, Ltd. All rights reserved. 考察 ストレージクラスの性能差より、まずはS3の特性を知ることが大事
⚫S3は、オンラインストレージという特性上、オブジェクト1つの取得ごとに通信が発生する ⚫小さなサイズの大量のデータがある場合は、通信のオーバーヘッドに占める割合が高い ⚫小さなサイズのデータは、ファイルをまとめて圧縮すると格段に効率がよくなる ⚫設計の優先度としては、扱うデータの特性 > ストレージクラス カタログスペックを理解した上で、 実際の性能を測定すると理解が深まる
23 Copyright(C) NRI Netcom, Ltd. All rights reserved. 性能測定の観点(おまけ) 性能測定をする上では、次のような観点が重要
測定の目的 測定環境の 平準化 実際の環境に 近づける 複数回の 測定 メトリクスの 取得 外部影響を 最小限に 変更との 比較 分析する
24 Copyright(C) NRI Netcom, Ltd. All rights reserved. 性能測定の参照データ(おまけ) S3の性能測定の詳細については、こちらを参照
NRIネットコムのクラウドソリューション: 検証レポート.:Athenaにおけるファイルサイズ https://cloud.nri-net.com/reports/aws-athena-performance-analysis-2310/
25 Copyright(C) NRI Netcom, Ltd. All rights reserved. まとめ アーキテクチャを検討する上でのポイント
⚫AWSのサービスを、しっかりと把握する ⚫新サービスが出てきた時は、どのようなユースケースに適するのかを検討する ⚫実際に評価してみることも大事
26 Copyright(C) NRI Netcom, Ltd. All rights reserved. エンジニア向け勉強会も定期的に開催しています。ご気軽にご参加ください NRIネットコム株式会社
- connpass: https://nrinetcom.connpass.com/
27 Copyright(C) NRI Netcom, Ltd. All rights reserved.
None