Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Glue Studio Visual ETL実装時にハマったこと
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
KOKI TAMURA
April 12, 2025
Programming
450
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Glue Studio Visual ETL実装時にハマったこと
KOKI TAMURA
April 12, 2025
More Decks by KOKI TAMURA
See All by KOKI TAMURA
DLTをふんわり理解しよう
kokitamura
0
100
RCPと宣言型ポリシーについてのお話し
kokitamura
1
340
Amazon Nova のトークナイザについて調べてみた
kokitamura
0
140
Other Decks in Programming
See All in Programming
スマートグラスで並列バイブコーディング
hyshu
0
150
Creating Composable Callables in Contemporary C++
rollbear
0
150
A2UI という光を覗いてみる
satohjohn
1
140
Make SRE Operations Easier with Azure SRE Agent
kkamegawa
0
6.7k
フロントエンドとバックエンドで「1文字」を揃えよう
youkidearitai
PRO
0
710
CSC307 Lecture 17
javiergs
PRO
0
320
Spring Security 実践 ─ GraphQL APIで実務に役立つ 認証・認可 を学ぶ
wagyu
0
240
軽量Java基盤の設計 DIコンテナに頼らない、長期保守と1秒起動の実現 JJUG CCC 2026 Spring
macha64
0
540
コンテキストの使い捨てをやめる — ビジネスルール駆動開発と miko —
ioki
0
210
さぁV100、メモリをお食べ・・・
nilpe
0
140
Datadog × OpenTelemetry 入門と実践のあいだ
kn_to_maxpno
1
160
Mujeres en SEO Summit 2026 - Greatest Disaster Hits en Web Performance
guaca
0
180
Featured
See All Featured
The AI Search Optimization Roadmap by Aleyda Solis
aleyda
1
5.9k
Building an army of robots
kneath
306
46k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
1
330
We Have a Design System, Now What?
morganepeng
55
8.2k
Deep Space Network (abreviated)
tonyrice
0
210
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
HDC tutorial
michielstock
2
720
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.3k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
28
3.5k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
310
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
460
Marketing to machines
jonoalderson
1
5.5k
Transcript
Glue Studio Visual ETL実装時にハマったこと K.Tamura
自己紹介 田村 晃輝 虎ノ門のどこかのSIer企業ででエンジニアしています JAWS-UG 富山 / SRE支部メンバー @koki46926199 元
富山県民 エンジニア歴 2年 AWS歴は1年ほど 最近までAWSマルチアカウント管理の設計、構築業務を担当 今日のトピック: JAWS-UG 富山のTシャツ着忘れました
はじめに 普段ETL処理をスクリプトで実装している人が、GUIで実装することができる AWS Glue Visual Editor を触ってみたら大ハマりしたよってお話です…
質問 みなさん AWS Glue って使ったことありますか?? AWS Glue
AWS Glue ざっくり概要 ・ データの変換・統合(Jobs) ・ データの品質管理(Data Quality) ・ オーケストレーション(Workflow)
・ メタデータ管理(Data Catalog, Connections) https://docs.aws.amazon.com/ja_jp/glue/latest/dg/components-key-concepts.html
AWS Glue ざっくり概要 ・ データの変換・統合(Jobs) ・ データの品質管理(Data Quality) ・ オーケストレーション(Workflow)
・ メタデータ管理(Data Catalog, Connections) https://docs.aws.amazon.com/ja_jp/glue/latest/dg/components-key-concepts.html
データの変換・統合(Jobs)の種類 ・ Script Editor(Python Shell, Spark, Ray) ・ Notebook ・
Visual ETL(Spark)
用語解説 各処理を表すボックスのことを ノード と呼びます
ハマったこと一覧 ・ Visual作成時はScriptタブで編集しない ・ 列の型推測について ・ Decimal型の取り扱い ・ Unionするときのテーブルの列順について ・
カスタムコードの実装 ・ (おまけ)DynamicFrame で発生するエラーの追い方
Visual作成時はScriptタブで編集しない スクリプトを編集してジョブを保存するとGUIでの編集が出来なくなります(Visualタブも消失) よって、Visualを編集する場合は、Visual上のみで編集を行いましょう。 https://docs.aws.amazon.com/ja_jp/glue/latest/dg/edit-nodes-script.html Edit scriptクリックすると注意書きを表示してくれます
列の型推測について Visual EditorでDBなどのソースからデータ取り込み時、推測して型変換してくれます 検証時、Unionしたタイミングで型推測して勝手にすべてStringに変換される事象が発生 これに気付かずに集計後テーブルにマージしてしまったので、型の不整合でエラーになりました…
データ型の修正 各ノードのOutput Schemaでも修正は可能ですが、次ノードで再度型推測される場合があります なので、DBに登録行う直前か結合後に Change Schemaで明示的に型変換するのが確実
Decimal型の取り扱い Change Schemaでも桁数指定ができないので SQLで明示的に型変換(CAST)する形で修正していました decimal(15,0)で定義しているデータが、なぜか小数点2桁で表示されてしまう データ型を確認したところdecimal(10,2)に自動的に型変換されていました
Unionするときのテーブルの列順について 列順を完璧に合わせてからUnionしましょう 列が各テーブルで合ってない(列数、命名)はエラーになってはくれますが 列順違ってもそのまま実行されて、データにNullが入ってきます さらにデータも想定した列に入っていないことから、使い物にならなくなるので注意しましょう
カスタムコードの実装 データフレームを使って変換するときに使う Custom Transform は 実施後にそのまま後続のノードを設定すると 変換したデータが反映されていません
カスタムコードを実装した場合に必要になること Custom Transform 後に Select From Collection を挟みましょう この中の 0
にCustom Transformで変換したデータが入ってます
(おまけ)エラーの追い方 「o404.py WriteDynamicFrameの呼び出し中にエラー」 といった、読んでも分からないエラーが出てきます この場合Cloudwatch logs を確認してみると詳細が書いてありますので、見てみましょう
(おまけ)エラーの追い方 ここまで追っていくことで、ようやくエラーの詳細が判明しました 今回は、factory_cd カラムに対して NULL を挿入しようと したことが原因で、エラーが発生しているようです
まとめ ・ Visual作成時はScriptタブで編集しない ・ データ型を各ノードで確認しながら実装しよう ・ カスタムコードの実装後は、 Select From Collection
ノードでデータを取得しよう ・ DynamicFrame で発生するエラーは、 Cloudwatch logs を確認しよう
最後に JAWS-UG 富山 の宣伝 2025/05/10(土) Amazon Bedrock ハンズオン2本立てでやります! お時間ある方は、ぜひ一緒にハンズオンやりましょう タイムテーブル