Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
システム/データ品質保証のための Airflow 活用法
Search
Hank Ehly
October 20, 2022
Technology
0
580
システム/データ品質保証のための Airflow 活用法
Hank Ehly
October 20, 2022
Tweet
Share
More Decks by Hank Ehly
See All by Hank Ehly
Fivetranでデータ移動を自動化する
hankehly
0
560
Celeryの紹介と本番運用のTips
hankehly
0
790
ChatGPTを活用した 便利ツールの紹介
hankehly
1
1.2k
Efficient Energy Analytics with Airflow, Spark, and MLFlow
hankehly
0
300
Deferrable Operators入門
hankehly
0
600
【初心者/ハンズオン】Dockerコンテナの基礎知識
hankehly
0
490
Compositeパターン: オブジェクトの階層関係をエレガントに表現する方法
hankehly
0
300
10/29 Airflowの基礎を学ぶハンズオンワークショップ
hankehly
0
240
海外の記事からコードレビューのBest Practiceを集めてみました
hankehly
0
950
Other Decks in Technology
See All in Technology
dipにおけるSRE変革の軌跡
dip_tech
PRO
1
230
JAWS AI/ML #30 AI コーディング IDE "Kiro" を触ってみよう
inariku
3
290
Nx × AI によるモノレポ活用 〜コードジェネレーター編〜
puku0x
0
350
大規模イベントに向けた ABEMA アーキテクチャの遍歴 ~ Platform Strategy 詳細解説 ~
nagapad
0
190
データ基盤の管理者からGoogle Cloud全体の管理者になっていた話
zozotech
PRO
0
350
AI によるドキュメント処理を加速するためのOCR 結果の永続化と再利用戦略
tomoaki25
0
420
みんなのSRE 〜チーム全員でのSRE活動にするための4つの取り組み〜
kakehashi
PRO
2
140
KubeCon + CloudNativeCon Japan 2025 Recap
donkomura
0
170
LLMで構造化出力の成功率をグンと上げる方法
keisuketakiguchi
0
480
Vision Language Modelと自動運転AIの最前線_20250730
yuyamaguchi
3
1.2k
ビジネス文書に特化した基盤モデル開発 / SaaSxML_Session_2
sansan_randd
0
260
GMOペパボのデータ基盤とデータ活用の現在地 / Current State of GMO Pepabo's Data Infrastructure and Data Utilization
zaimy
3
200
Featured
See All Featured
Raft: Consensus for Rubyists
vanstee
140
7k
How GitHub (no longer) Works
holman
314
140k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
3.1k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.5k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
161
15k
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
Optimising Largest Contentful Paint
csswizardry
37
3.4k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
8
430
Measuring & Analyzing Core Web Vitals
bluesmoon
7
540
Building an army of robots
kneath
306
45k
Navigating Team Friction
lara
188
15k
Building Applications with DynamoDB
mza
95
6.5k
Transcript
システム/データ品質保証のための Airflow 活用法 2022/10/20 hankehly
自己紹介 • Hank Ehly(名:ハンク 姓:イーリー) • ENECHANGE株式会社 • qiita.com/hankehly •
github.com/hankehly • connpass.com/user/hankehly
アジェンダ 1. Airflowとは 2. QAにどう役立てる
• ワークフロー管理システム(作成・実行・監視) • Airbnb、メルカリ、楽天、Tesla、Twitter、等々 Airflowとは • Python
ワークフロー名 実行頻度 成功/失敗回数
None
None
AirflowをQAにどう役立てるか 1. データパイプラインにおけるデータの品質担保 ② 結果の形式 は問題ないか? ① SQL実行 ③ 必要なデータは
入っているか? ./01_run_sql.sh ./02_check_data.sh ./03_send_email.sh … 品質保証しにくいパイプライン
AirflowをQAにどう役立てるか 2. 継続的な End-To-End (E2E) テストの実行 • 既存テストスクリプトそのまま利用できる(コンテナ/Python/Bash) • パラレル実行
• REST APIから実行可 • 通知機能(Slack、Eメール等) • 途中から再実行 • QAチームに実行権限を付与できる 開始 Seleniumで 画面操作 成功/失敗判定 Slack エラー通知 スクリーンショットを Google Driveに転送 Asanaチケット起票 NG OK Slack 成功通知
AirflowをQAにどう役立てるか 3. システムモニタリング • 定期的にシステムの “正確さ” およびデータの精度/鮮度を確認する • 結果を通知する /ping
は[200 OK]を 返している? 例)5分ごとに、サービス X,Y,Z にHTTPリクエスト送信 データ更新 されている? 例)毎週月曜日8時にデータの最終更新日を確認する
ワークショップ 10/29(土)にAirflowのハンズオンワークショップを開催予定 << Airflowのことが分かる記事