データファイルをAWSのDWHサービスに格納する / 20251115jawsug-tochigi

データファイルをAWSのDWHサービスに格納する JAWS-UG栃木オフライン #5 2025/11/15 笠原宏

笠原宏 (@kasacchiful) クラスメソッド株式会社データ事業本部ビジネスソリューション部ソリューションアーキテクト新潟県新潟市在住 JAWS-UG新潟
/ Python機械学習勉強会 in 新潟 / JaSST Niigata / ASTER / SWANII / Cloudflare Meetup Niigata / AI CRAFT Hacks Niigata / KomeKaigi AWS Community Builder (Serverless) 2025 Japan AWS Top Engineer / 2025 Japan All AWS Certifications Engineer 自己紹介 2

日時: 2025/11/01 (土) 開催会場: 開志専門職大学米山キャンパス参加費: 無料参加率:
94% (92名 / 98名) KomeKaigi 2025 無事開催 3

今回のテーマ決め 4

今回は以下の内容を想定データファイル: CSV なんだかんだ、いろんなシステムが出力するデータファイル AWSの各種サービスでよく対応しているデータファイル区切り文字: , / クォート文字: "
の標準的な書式を想定 DWHサービス: DynamoDBからエクスポートしたデータファイルを、以下2つにインポートする想定 Redshift S3 Tables RDSやAurora周りは、みなさんよく使っているだろうし、DBMSに依存する部分も多いので、今回は省略。おさらいの部分もあるかと思いますが、今改めてデータ連携方法をまとめてみました。データファイルをAWSのDWHサービスに格納する 5

DynamoDB: 分析用途にデータを出力したい Redshift / S3 Tables: 分析用途に出力されたデータを格納してSQL実行したい想定する構成 6

KomeKaigi等で利用した、ランチ情報をWeb で掲載したアプリ元は「PHPカンファレンス新潟2025」前夜祭のLTのネタ向けに、Amazon Q Developer for CLI使って作成したものそのため、PHPで書かれたバックエンドコードをLambdaコンテナ
(Lambda Web Adapter利用)で動かしてるバックエンドのデータベースにDynamoDBを使っていたので、このデータを検証に利用元データ: 新潟グルメマップ (自作) 7

新潟グルメマップ (自作) https://ngt-gourmet.kasacchiful.net 8

1. DynamoDBからのCSVエクスポート 2. RedshiftへのCSVインポート 3. S3 TablesへのCSVインポート 4. データの加工

1. DynamoDBからのCSVエクスポート

DynamoDBエクスポートは基本的にJSON 11

ページ毎の出力になるので、データ件数が多い場合は都度出力しなければならないクエリ結果に対してCSV出力は可能 12

aws dynamodb scan --table-name niigata_gourmet_spots | \ jq -r '.Items[]
| [.id.S, .address.S, .business_hour.S, .image_url.S, .latitude.N, .longitude.N, .name.S, .website_url.S] | @csv' \ > spots.csv ちょっと工夫して、タグも文字列連結して出力 aws dynamodb scan --table-name niigata_gourmet_spots | \ jq -r '.Items[] | [.id.S, .address.S, .business_hour.S, .image_url.S, .latitude.N, .longitude.N, .name.S, ([.tags.L[].S] | join(",")), .website_url.S] | @csv' \ > spots.csv ヘッダ行が必要な場合は、ヘッダ用の配列を追加しておく。 aws dynamodb scan --table-name niigata_gourmet_spots | \ jq -r '["id","address","business_hour","image_url","latitude","longitude","name","tags","website_url"], (.Items[] | [.id.S, .address.S, .business_hour.S, .image_url.S, .latitude.N, .longitude.N, .name.S, ([.tags.L[].S] | join(",")), .website_url.S]) | @csv' \ > spots.csv jqで応用は効くが、面倒ではある AWS CLIでCSV出力 13

Rust製のCLIツール Import / Export可能 # import dy import --table spots
--format csv --input-file spots-input.csv # export dy export --table spots --format csv --output-file spots-output.csv awslabs/dynein の利用 https://github.com/awslabs/dynein 14

データソースにDynamoDBを設定して、UNLOADクエリでS3バケットにCSV出力 (gzip圧縮済) UNLOAD ( select id, address, business_hours, image_url, CAST(latitude
AS VARCHAR) AS latitude, CAST(longitude AS VARCHAR) AS longitude, name, ARRAY_JOIN(tags, ',') AS tags, website_url from niigata_gourmet_spots ) TO 's3://test-datastore-kas/spots/' WITH (format = 'CSV') 出力対象のパスが空でないと出力できない Athena Federated Query の利用 https://dev.classmethod.jp/articles/connecting-from-amazon-athena-to-dynamodb/ 15

2. RedshiftへのCSVインポート

DynamoDB → Redshiftへのデータ連携最小レイテンシ15分毎に増分更新 DynamoDBのパフォーマンスや可用性にほとんど影響を与えず、Read Capacity Unitも消費しない Redshiftが持つ高性能SQL、機械学習、Spark
統合、マテリアライズドビュー等の機能を活用できる Zero-ETLの追加費用なし連携分のストレージとデータ転送量のみ DynamoDBからなら Zero-ETL統合がオススメ https://dev.classmethod.jp/articles/amazon-dynamodb-amazon-redshift-zero-etl/ 17

Redshift側の考慮事項の例: ターゲットとなるRedshiftは、次の前提条件を満たす必要がある Redshift Serverless または RA3ノードタイプ暗号化されている (プロビジョニングされたクラスターの場合) 大文字と小文字の区別が有効になっている DynamoDB
Zero-ETL統合の場合の考慮事項の例 127文字を超えるテーブル名・パーティションキー列名・ソートキー列名はサポートされない DynamoDBからのZero-ETL統合は、1つのRedshiftデータベースのみマッピングできる DynamoDB項目内の個々の属性(名前と値で構成)が64KBを超えることはできない Zero-ETL統合が使えない場合は、データインポートの手段を検討 https://docs.aws.amazon.com/ja_jp/redshift/latest/mgmt/zero-etl.reqs-lims.html 18

DWHの場合は、COPY文で一気に反映する方が効率が良い COPY spots FROM 's3://test-datastore-kas/niigata_gourmet_spots/niigata_gourmet_spots.csv' IAM_ROLE 'arn:aws:iam::<AWS_ACCOUNT_ID>:role/<ROLE_NAME>' REGION 'ap-northeast-1' FORMAT
AS CSV DELIMITER ',' IGNOREHEADER 1 Athena UNLOAD時のファイルをインポートする場合は、 GZIP も指定。ヘッダなしのため IGNOREHEADER は不要。 COPY spots FROM 's3://test-datastore-kas/spots/' IAM_ROLE 'arn:aws:iam::<AWS_ACCOUNT_ID>:role/<ROLE_NAME>' REGION 'ap-northeast-1' FORMAT AS CSV GZIP DELIMITER ',' 基本はCOPY 19

DynamoDBテーブルから取得された項目の属性名と既存のRedshiftテーブル列名を照合してデータロードを行う COPY spots FROM 'dynamodb://niigata_gourmet_spots' IAM_ROLE 'arn:aws:iam::<AWS_ACCOUNT_ID>:role/<ROLE_NAME>' READRATIO 50;
データ型がスカラーSTRINGとNUMBERのみサポート実はDynamoDBから直接COPYできる https://docs.aws.amazon.com/ja_jp/redshift/latest/dg/t_Loading-data-from-dynamodb.html 20

-- Glue Databaseを外部スキーマとして登録 CREATE EXTERNAL SCHEMA glue_datastore_schema FROM DATA CATALOG
DATABASE 'test-datastore-db' IAM_ROLE 'arn:aws:iam::<AWS_ACCOUNT_ID>:role/<ROLE_NAME>' CREATE EXTERNAL DATABASE IF NOT EXISTS; -- 外部スキーマを経由して外部テーブル (Glueテーブル) の作成 CREATE EXTERNAL TABLE glue_datastore_schema.niigata_gourmet_spots ( ... ) --- 内部のテーブルに格納したい場合は、INSERT INTO SELECTで INSERT INTO spots ( SELECT id, address, business_hours, image_url, CAST(latitude AS FLOAT8) AS latitude, CAST(longitude AS FLOAT8) AS longitude, name, tags, website_url FROM glue_datastore_schema.niigata_gourmet_spots ) 外部テーブルを使う方法 (Redshift Spectrum) 21

3. S3 TablesへのCSVインポート

CSVもGlueカタログに登録しておけば、クエリで登録できる INSERT INTO "s3tablescatalog/test-datastore-tb-kas".datastore.spots (id, address, business_hours, ...) SELECT id,
address, business_hours, ... FROM test-datastore-db.niigata_gourmet_spots Athenaを利用するのがお手軽 23

SparkやPyIcebergを使ってデータ登録 https://dev.classmethod.jp/articles/amazon-s3-tables-using-aws-glue/ https://dev.classmethod.jp/articles/tried-to-write-to-iceberg-tables-in-s3-tables-from-lambda- using-pyiceberg/ 24

4. データの加工

ETL Extract・Transfer・Load データ転送の際にデータを加工して、DWHに保存少ないリソースでも実施できるデータの流れの中で処理をするので、やり直し・試行錯誤が面倒 ELT Extract・Load・Transfer 一旦DWHにそのままデータを登録してから、DWH上でデータを加工・保存加工前のデータがDWHにあるので、やり直し・試行錯誤が比較的やりやすい DWHのリソースを多く使う
プロジェクトやチームによって、最適な方法で実施するとよいデータの加工をどこでやる？ 26

コンピューティングリソースを使ってデータを加工する加工の前後でS3バケットを挟むと、処理の範囲がわかりやすいコンピューティングリソースは、軽いものであればLambda、重い処理が伴う場合はECS、 Glue、EMRなどに置き換え処理フローの制御はStep Functionsのステートマシンで制御すると良い ECSもステートマシンでタスク実行時に起動するようにすると費用を抑えられる ETLの例 27

一旦DWHにデータを取り込んだあと、データの加工を行うデータの加工はSQLやストアドプロシージャで 2025/11/1より、RedshiftでPython UDFの新規作成ができなくなった ELTの例 28

用途毎に分けてもよい必要なデータがあるDB/Namespaceがわかりやすいアクセス制御管理しやすいクエリ実行制御もStep Functionsのステートマシンでやってもよい Athenaの start query execution アクションは同時実行数がそこまで多くできないので注
意 Burst multiplier quota for StartQueryExecution API : ap-northeast-1 で 5 ビューを使う方法も検討する ELTの例 29

DynamoDBエクスポート→DWHインポートとは違うけど、参考までに。 1. OracleDBのデータをS3にCSV出力 2. Snowflakeのクエリ実行でCSVデータをSnowflakeへ取り込みこの際に一部加工あり取り込みには、Snowpipeを使うケースが多い 3. dbtを用いて、SQLで分析用途のデータマートのテーブル・ビューを構築応用例
30

とりあえず、シンプルに考えてみた 1. Athena Federated Queryを使って、DynamoDBテーブルのデータをS3 Tablesへ 2. 1.のデータを元に、分析用マートテーブルをAthenaで作成今回のシステムの分析の仕組みはどうする？ 31

まとめ

CSVのデータファイル連携をDynamoDB / Redshift / S3 Tablesでまとめてみました。意外と知らない機能も見えたかと思います。「データを連携する経路」と「データを処理する場所」を適宜検討するとよい入力元データ／出力先DBの違いあれど、基本的な考え方は変わらない組み合わせは色々あるので、試行錯誤しやすい仕組みを整えるのも必要
まとめ 33

宣伝

日時: 2025/12/27 (土) 14:00開始 (予定) 会場: <TBD> (調整中) JR新潟駅周辺での開催予定オンライン参加可能
(Zoom) 特別ゲスト: <TBD> (調整中) re:Inventでほぼ間違いなくアップデートがあるであろうAI周りのことや、サーバーレス周りのことを中心にお話しいただく予定です。他、参加者LTが中心の会なので、みなさま奮ってご参加 & 発表をお待ちしております！会場内で情報交換会 (お酒あり) も予定してます今年も主催(笠原)から「ふるまい寿司」を提供する予定です JAWS-UG 新潟支部 AWS re:Invent re:Cap & 2025年ふりかえり 35

おわり

データファイルをAWSのDWHサービスに格納する / 20251115jawsug-tochigi

データファイルをAWSのDWHサービスに格納する / 20251115jawsug-tochigi

kasacchiful PRO

More Decks by kasacchiful

Other Decks in Programming

Featured

Transcript

データファイルをAWSのDWHサービスに格納する JAWS-UG栃木オフライン #5 2025/11/15 笠原宏

笠原宏 (@kasacchiful) クラスメソッド株式会社データ事業本部ビジネスソリューション部ソリューションアーキテクト新潟県新潟市在住 JAWS-UG新潟

日時: 2025/11/01 (土) 開催会場: 開志専門職大学米山キャンパス参加費: 無料参加率:

今回のテーマ決め 4

今回は以下の内容を想定データファイル: CSV なんだかんだ、いろんなシステムが出力するデータファイル AWSの各種サービスでよく対応しているデータファイル区切り文字: , / クォート文字: "

DynamoDB: 分析用途にデータを出力したい Redshift / S3 Tables: 分析用途に出力されたデータを格納してSQL実行したい想定する構成 6

KomeKaigi等で利用した、ランチ情報をWeb で掲載したアプリ元は「PHPカンファレンス新潟2025」前夜祭のLTのネタ向けに、Amazon Q Developer for CLI使って作成したものそのため、PHPで書かれたバックエンドコードをLambdaコンテナ

新潟グルメマップ (自作) https://ngt-gourmet.kasacchiful.net 8

1. DynamoDBからのCSVエクスポート 2. RedshiftへのCSVインポート 3. S3 TablesへのCSVインポート 4. データの加工

1. DynamoDBからのCSVエクスポート

DynamoDBエクスポートは基本的にJSON 11

ページ毎の出力になるので、データ件数が多い場合は都度出力しなければならないクエリ結果に対してCSV出力は可能 12

aws dynamodb scan --table-name niigata_gourmet_spots | \ jq -r '.Items[]

Rust製のCLIツール Import / Export可能 # import dy import --table spots

データソースにDynamoDBを設定して、UNLOADクエリでS3バケットにCSV出力 (gzip圧縮済) UNLOAD ( select id, address, business_hours, image_url, CAST(latitude

2. RedshiftへのCSVインポート

DynamoDB → Redshiftへのデータ連携最小レイテンシ15分毎に増分更新 DynamoDBのパフォーマンスや可用性にほとんど影響を与えず、Read Capacity Unitも消費しない Redshiftが持つ高性能SQL、機械学習、Spark

DWHの場合は、COPY文で一気に反映する方が効率が良い COPY spots FROM 's3://test-datastore-kas/niigata_gourmet_spots/niigata_gourmet_spots.csv' IAM_ROLE 'arn:aws:iam::<AWS_ACCOUNT_ID>:role/<ROLE_NAME>' REGION 'ap-northeast-1' FORMAT

DynamoDBテーブルから取得された項目の属性名と既存のRedshiftテーブル列名を照合してデータロードを行う COPY spots FROM 'dynamodb://niigata_gourmet_spots' IAM_ROLE 'arn:aws:iam::<AWS_ACCOUNT_ID>:role/<ROLE_NAME>' READRATIO 50;

-- Glue Databaseを外部スキーマとして登録 CREATE EXTERNAL SCHEMA glue_datastore_schema FROM DATA CATALOG

3. S3 TablesへのCSVインポート

CSVもGlueカタログに登録しておけば、クエリで登録できる INSERT INTO "s3tablescatalog/test-datastore-tb-kas".datastore.spots (id, address, business_hours, ...) SELECT id,

SparkやPyIcebergを使ってデータ登録 https://dev.classmethod.jp/articles/amazon-s3-tables-using-aws-glue/ https://dev.classmethod.jp/articles/tried-to-write-to-iceberg-tables-in-s3-tables-from-lambda- using-pyiceberg/ 24

4. データの加工

一旦DWHにデータを取り込んだあと、データの加工を行うデータの加工はSQLやストアドプロシージャで 2025/11/1より、RedshiftでPython UDFの新規作成ができなくなった ELTの例 28

とりあえず、シンプルに考えてみた 1. Athena Federated Queryを使って、DynamoDBテーブルのデータをS3 Tablesへ 2. 1.のデータを元に、分析用マートテーブルをAthenaで作成今回のシステムの分析の仕組みはどうする？ 31

まとめ

宣伝

日時: 2025/12/27 (土) 14:00開始 (予定) 会場: <TBD> (調整中) JR新潟駅周辺での開催予定オンライン参加可能

おわり