Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
いかにして不足・不整合なくデータ移行したか
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
momochi29
October 15, 2024
Programming
1.6k
1
Share
いかにして不足・不整合なくデータ移行したか
Hatena Engineer Seminar #31 「少年ジャンプ+」 サーバーサイド編
https://hatena.connpass.com/event/331414/
momochi29
October 15, 2024
More Decks by momochi29
See All by momochi29
データのマスタが変わっても継続的に分析したい!
tjmtmmnk
1
400
初めてのデータ移行プロジェクトから得た学び
tjmtmmnk
0
1.2k
Other Decks in Programming
See All in Programming
ReactとSvelteのその先、Ripple-TS / Beyond React and Svelte: Ripple-TS
ssssota
3
2k
TypeScript+Orvalで実現する型安全かつ堅牢でスケーラブルなマルチチャネル通知基盤 / TSKaigi Night talks ~after conference~
d0riven
0
150
New "Type" system on PicoRuby
pocke
1
430
Why Laravel apps break—Mastering the fundamentals to keep them maintainable
kentaroutakeda
1
330
権限チェックの一貫性を型で守る TypeScript による多層防御
mnch
4
1.1k
「AIで開発し、AIを届ける」をEvalでつなぐ 〜AIネイティブに始めるプロダクト開発の実践〜 / Connecting "Develop with AI, deliver AI" with Eval
rkaga
4
1.8k
Oxcを導入して開発体験が向上した話
yug1224
4
280
The Arts and Crafts of Work in the AI Era — Toward Mastery in Software Development
kuranuki
1
710
jQueryをバージョンアップする前に使いたいjQuery Migrate
matsuo_atsushi
0
170
密結合なバックエンドから TypeScript のコードを生成する
kemuridama
1
690
運用エージェントは "作る" から "育てる" へ - 記憶と自己進化の3層設計パターン / self-evolving-agents-three-layer-agent-design
gawa
12
3.4k
正しくソフトウェアを作る、前提を疑うための認知の視点 / doubt-premise
minodriven
17
5.6k
Featured
See All Featured
Making the Leap to Tech Lead
cromwellryan
135
9.9k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.6k
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
380
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
300
How GitHub (no longer) Works
holman
316
150k
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
260
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
260
First, design no harm
axbom
PRO
2
1.2k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
860
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
590
Practical Orchestrator
shlominoach
191
11k
Transcript
いかにして不足・不整合 なくデータ移行したか 発表者: momochi29 1
自己紹介 id:momochi29 • データ移行の検証など • マンガメディア開発の チーム歴は5年程度 • 「ワールドトリガー」 が好き
2
ゴール ユーザから見て移管前後でデータが変わって いない 3
そのためには? 本番移行までに 移行時の直すべきエラー・原因不明のエラー をすべて洗い出し、解消する 4
全体像 5
サイクルの全体像 移行 検証 エラー 修正 完了! エラーがない エラーがある 6
サイクルの全体像 移行 検証 エラー 修正 完了! エラーがない エラーがある 7
サイクルの全体像 移行 検証 エラー 修正 完了! エラーがない エラーがある ここを話します 8
検証 9
検証が必要な背景 期間1 エラーなし 期間2 エラーなし ・・・ データ移行(分割移行) 10
検証が必要な背景 期間1 エラーなし 期間2 エラーなし ・・・ 期間ごとにエラーがないので おそらく不整合はないだろう データ移行(分割移行) 11
検証が必要な背景 期間1 エラーなし 期間2 エラーなし ・・・ 期間ごとにエラーがないので おそらく不整合はないだろう データ移行(分割移行) ユーザ単位ですべてのデータに不整合
がないことは保証できていない 12
検証が必要な背景 期間1 エラーなし 期間2 エラーなし ・・・ 期間ごとにエラーがないので おそらく不整合はないだろう データ移行(分割移行) そもそも…
移行処理にバグがあってデグレしてい るかもしれない 13
検証が必要な背景 1. ユーザ単位ですべてのデータに不整合がない ことを保証できていない 2. 移行処理にバグがあってデグレしているかも しれない 14
何を検証するのか 1. ユーザに対する検証 2. 移行自体に対する検証 15
ユーザに対する検証 • ユーザが持っているデータが移行前後で変化 していないことをユーザごとに検証する 16
ユーザに対する検証 • ズレるとユーザに不利益がある箇所を重点的 に検証する ◦ 例) レンタル期限が一致するか ▪ ズレるとレンタルしていたはずの話が読めなくなったり… 17
移行自体に対する検証 • 移行が仕様通りに実装されているかを検証す る 18
仕様通りに実装されているかの検証 移行元テーブル 移行先テーブル 移行先テーブル ︙ 変換ルールに則って移行 19
移行元テーブル 移行先テーブル 移行先テーブル ︙ 変換ルールに則って移行 単体テストによって ルールに従っている か検証している 仕様通りに実装されているかの検証 20
移行元テーブル 移行先テーブル 移行先テーブル ︙ 変換ルールに則って移行 単体テストによって ルールに従っている か検証している 仕様通りに実装されているかの検証 これで充分?
21
仕様通りに実装されているかの検証 • No • 移行処理に実装漏れがあると、テストが存在 しないので仕様に従っているか確認されない ◦ 移行先観点でのテストになるので漏れやすい 22
仕様通りに実装されているかの検証 移行元テーブル 移行先テーブル 変換ルールに則って移行 移行先テーブルから 移行元テーブルを再現できる か検証する 23
テーブルの再現による検証 • 移行先のテーブルからデータを集めて変換 ルールを適用して移行元のテーブルを作る • これによって移行元との差分がわかり、移行 漏れを無くせる 24
検証失敗時には? • エラーを記録する • 分類しやすいようにフォーマットを統一 25
直す価値のあるエラーを得る • 直す価値のあるエラーとは、直さないと本番 環境でも発生するエラー • 移行元の本番環境のスナップショットを使っ て、移行→検証することで価値のあるエラー を得る 26
検証を動かす • データ移行を動かしているStep Functions + AWS Batchに検証ジョブを追加した ◦ 数百の検証ジョブを並行で動かすことで十分高速に検 証できた
• ただ、リソース上の問題があったのでチュー ニングした 27
検証のチューニング • 移行に利用しているDBのCPU使用率が張り付 いている ◦ → 検証は読み込み専用DBを使う • 検証のタスクがOOM ◦
→ メモリ使用量の上限を引き上げ ◦ → あえてN+1にする 28
エラー修正 29
エラー修正 • エラー数を0にするのがゴール • 多種多様なエラーをうまくハンドリングする には? 30
エラーフォーマットの統一 • ジョブの種類 • エラーメッセージ • エラーコード ◦ レコードが存在しない、一致しないの2種類 •
デバッグのために必要な情報 ◦ エラーになった場所、レコードのID 31
CloudWatch Logs Insights • ジョブの種類、エラーごとに first_seen, last_seen, エラー総数を出す 32
CloudWatch ダッシュボード • Logs Insightsで作ったクエリの実行結果を集 約できる • ここだけ見ればオッケーにできる ◦ 移行・検証のエラーに対するクエリ結果と、その他に
必要な情報をウィジェットとして追加した 33
CloudWatch ダッシュボード 34
ゴールが数値で見える嬉しさ • 移行作業は長いトンネルを歩く感覚がある • エラー数が減るとゴールに近付いていること を実感できてよかった 35
修正サイクルを回す エラー 修正 移行 ダッシュ ボード 確認 エラーがある 完了! エラーがない
36
修正サイクルを回す エラー 修正 移行 ダッシュ ボード 確認 新規のエラー: first_seenから判断 既存のエラーが直っていない:
last_seenから判断 完了! エラーがない 37
あとはエラーがなくなる までひたすらやる 38
結果 • 本番環境での移行で未知のエラーに遭遇せず に移行を完了することができた ◦ 本番同等のデータを使ってエラーが無くなるまでサイ クルを回した賜物 • データ移行に起因する大きな問題はなかった 39
まとめ • ユーザに対する検証と移行自体に対する検証 の2面からの検証によって、不足・不整合なく 移行できた • 移行元の本番環境のデータを使って修正サイ クルを回すことで未知のエラーに遭遇するこ となく移行できた 40