Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
システム/データ品質保証のための Airflow 活用法
Search
Hank Ehly
October 20, 2022
Technology
0
510
システム/データ品質保証のための Airflow 活用法
Hank Ehly
October 20, 2022
Tweet
Share
More Decks by Hank Ehly
See All by Hank Ehly
Fivetranでデータ移動を自動化する
hankehly
0
480
Celeryの紹介と本番運用のTips
hankehly
0
590
ChatGPTを活用した 便利ツールの紹介
hankehly
1
1.2k
Efficient Energy Analytics with Airflow, Spark, and MLFlow
hankehly
0
240
Deferrable Operators入門
hankehly
0
440
【初心者/ハンズオン】Dockerコンテナの基礎知識
hankehly
0
410
Compositeパターン: オブジェクトの階層関係をエレガントに表現する方法
hankehly
0
270
10/29 Airflowの基礎を学ぶハンズオンワークショップ
hankehly
0
210
海外の記事からコードレビューのBest Practiceを集めてみました
hankehly
0
860
Other Decks in Technology
See All in Technology
トラブルシュートを楽しもう (wakamonog meeting 15)
recuraki
5
1.1k
論文紹介 ”Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG” @GDG Tokyo
shukob
0
240
TypeScriptでモジュラーモノリスやってみた
diggymo
0
110
サーバレスの未来〜The Key to Simplifying Everything〜
kawaji_scratch
2
330
製造業とソフトウェアは本当に共存できていたのか?品質とスピードを問い直す
takabow
12
3.7k
第27回クラウド女子会 ~re:Invent 振り返りLT会~ 宣言型ポリシー、使ってみたらこうだった!
itkr2305
0
270
あなたの興味は信頼性?それとも生産性? SREとしてのキャリアに悩むみなさまに伝えたい選択肢
jacopen
5
2.1k
生成AIを活用した機能を、顧客に提供するまでに乗り越えた『4つの壁』
toshiblues
1
170
GraphRAG: What I Thought I Knew (But Didn’t)
sashimimochi
0
120
TSのコードをRustで書き直した話
askua
4
980
サーバーレス環境における生成AI活用の可能性
mikanbox
1
160
20250122_FinJAWS
takuyay0ne
2
350
Featured
See All Featured
Building a Scalable Design System with Sketch
lauravandoore
460
33k
Writing Fast Ruby
sferik
628
61k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
How GitHub (no longer) Works
holman
312
140k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
29
980
Java REST API Framework Comparison - PWX 2021
mraible
28
8.3k
The World Runs on Bad Software
bkeepers
PRO
66
11k
Automating Front-end Workflow
addyosmani
1367
200k
For a Future-Friendly Web
brad_frost
176
9.5k
Music & Morning Musume
bryan
46
6.3k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Why You Should Never Use an ORM
jnunemaker
PRO
55
9.2k
Transcript
システム/データ品質保証のための Airflow 活用法 2022/10/20 hankehly
自己紹介 • Hank Ehly(名:ハンク 姓:イーリー) • ENECHANGE株式会社 • qiita.com/hankehly •
github.com/hankehly • connpass.com/user/hankehly
アジェンダ 1. Airflowとは 2. QAにどう役立てる
• ワークフロー管理システム(作成・実行・監視) • Airbnb、メルカリ、楽天、Tesla、Twitter、等々 Airflowとは • Python
ワークフロー名 実行頻度 成功/失敗回数
None
None
AirflowをQAにどう役立てるか 1. データパイプラインにおけるデータの品質担保 ② 結果の形式 は問題ないか? ① SQL実行 ③ 必要なデータは
入っているか? ./01_run_sql.sh ./02_check_data.sh ./03_send_email.sh … 品質保証しにくいパイプライン
AirflowをQAにどう役立てるか 2. 継続的な End-To-End (E2E) テストの実行 • 既存テストスクリプトそのまま利用できる(コンテナ/Python/Bash) • パラレル実行
• REST APIから実行可 • 通知機能(Slack、Eメール等) • 途中から再実行 • QAチームに実行権限を付与できる 開始 Seleniumで 画面操作 成功/失敗判定 Slack エラー通知 スクリーンショットを Google Driveに転送 Asanaチケット起票 NG OK Slack 成功通知
AirflowをQAにどう役立てるか 3. システムモニタリング • 定期的にシステムの “正確さ” およびデータの精度/鮮度を確認する • 結果を通知する /ping
は[200 OK]を 返している? 例)5分ごとに、サービス X,Y,Z にHTTPリクエスト送信 データ更新 されている? 例)毎週月曜日8時にデータの最終更新日を確認する
ワークショップ 10/29(土)にAirflowのハンズオンワークショップを開催予定 << Airflowのことが分かる記事