Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
スパイクアクセス対策としての pitchfork 導入
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Shia
December 06, 2024
Technology
0
800
スパイクアクセス対策としての pitchfork 導入
RubyWorld Conference 2024 Day 2 の発表です。
https://2024.rubyworld-conf.org/ja/program/day2/#b-2-1
Shia
December 06, 2024
Tweet
Share
More Decks by Shia
See All by Shia
ひとつの開発環境
riseshia
0
59
Conquering Massive Traffic Spikes in Ruby Applications with Pitchfork
riseshia
0
270
NewEngineering 2024 - 繋がっていくサービスを支える開発環境作り
riseshia
0
1.6k
Hotspot on Coverage
riseshia
0
250
差分ベースで効率的にテストを実行してみる
riseshia
1
770
Cookpad internship 2020 summer - web
riseshia
0
7.7k
マイクロサービス化を支える継続的切り替え術
riseshia
0
690
Cleaning up a huge ruby application
riseshia
3
12k
Find out potential dead codes from diff
riseshia
0
7.1k
Other Decks in Technology
See All in Technology
GitHub Issue Templates + Coding Agentで簡単みんなでIaC/Easy IaC for Everyone with GitHub Issue Templates + Coding Agent
aeonpeople
1
250
10Xにおける品質保証活動の全体像と改善 #no_more_wait_for_test
nihonbuson
PRO
2
320
配列に見る bash と zsh の違い
kazzpapa3
3
160
ファインディの横断SREがTakumi byGMOと取り組む、セキュリティと開発スピードの両立
rvirus0817
1
1.5k
Frontier Agents (Kiro autonomous agent / AWS Security Agent / AWS DevOps Agent) の紹介
msysh
3
180
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
6
68k
ClickHouseはどのように大規模データを活用したAIエージェントを全社展開しているのか
mikimatsumoto
0
260
モダンUIでフルサーバーレスなAIエージェントをAmplifyとCDKでサクッとデプロイしよう
minorun365
4
220
15 years with Rails and DDD (AI Edition)
andrzejkrzywda
0
200
顧客の言葉を、そのまま信じない勇気
yamatai1212
1
360
SchooでVue.js/Nuxtを技術選定している理由
yamanoku
3
140
予期せぬコストの急増を障害のように扱う――「コスト版ポストモーテム」の導入とその後の改善
muziyoshiz
1
2k
Featured
See All Featured
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
1
1.3k
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
57
50k
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
0
2.3k
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
2
250
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.2k
Building the Perfect Custom Keyboard
takai
2
690
Paper Plane (Part 1)
katiecoart
PRO
0
4.3k
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
78
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
220
Testing 201, or: Great Expectations
jmmastey
46
8k
Context Engineering - Making Every Token Count
addyosmani
9
660
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.7k
Transcript
スパイクアクセス対策としての pitchfork 導入 Ruby World Conference 2024 Sim Sangyong@STORES
Self introduction - Sangyong Sim @ STORES. Inc - shia
@ Internet - riseshia @ {X, GitHub} 2
STORES ネットショップ 3
- 多様な規模の事業者 - 特定時刻から販売を開始することができる - 規模を正しく予測するのは難しい STORES ネットショップ 4
xx/xx 10時から数量限定グッズ販売開始します!!! 5 more than 10x
レイテンシが劣化する 6 p95 p90 p50
(できれば何もせずに) スパイクアクセス時にも安定した購入体験ができる ようにしたい!!! 目標 7
- リクエストをできるだけ待たせない ~= 十分な数のWebサーバのワー カーを用意する - p90 あたりから観測されるレイテンシ劣化を改善する 注: このセッションではアプリケーション高速化およびキャッシングによ
る負荷軽減はスコープ外なので話しません 課題 8
環境 9 - ECS Fargate 上で動く - ASG(Auto Scaling Group)
でキャパシティ管理する - Ruby on Rails / unicorn で動く
- 正確にトラフィックを予測することはできないので過去の実績ベース で戦略を考える - 予想を超えてしまった場合はしょうがないので待ちを許す(しかない) - ほとんどのスパイクのピークは 1分以下で 5分以内でほぼ捌き終わるの で、
ASG では間に合わないため 課題 - 十分な数のWebサーバのワーカーを用意する 10
小規模のもの - 常に過剰キャパシティを持ってスパイクが発生したらそれで吸収する - ECS Fargate Spot で格安で運用できている 大規模なもの -
まれに来るそれ以上のスパイク、規模感から事前に把握してることが 多く、販売直前でサービスをスケールアウトする 課題 - 十分な数のWebサーバのワーカーを用意する 11
リクエスト平均処理時間を 内部の処理時間で分類 課題 - レイテンシ劣化を改善する 12 Ruby p95 p90 p50
DB 外部通信
課題 - レイテンシ劣化を改善する 13 もしかして Webサーバのワーカー、温まってない...?
Webサーバのワーカー、温まってないとは 14 Webサーバ(Rails アプリケーション)は起動して実際リクエストが処理する ことで初めて走る処理が色々あり、それらによって起動直後は遅いことがある - 各種の TCP コネクション生成 -
インメモリーキャッシュ生成 - (YJIT を有効にしている場合) JIT コンパイル - method_missing から始まるメタプロ - Action View のコンパイル - …
なぜ一部だけ? - 実験 15 unicorn でリクエストを処理する時、どのワーカーが仕事していたのかの 確認をしてみる - 処理に 0.1s
かかるエンドポイント - ワーカー数 8 - 低負荷の再現するため 2並列 - 10s 負荷 各ワーカーが処理したリクエストの数を調べてみる
なぜ一部だけ? - 実験 16 - worker 0: 85 - worker
1: 86 - worker 2: 2 - worker 3: 0 - worker 4: 0 - worker 5: 0 - worker 6: 0 - worker 7: 0 注:Linux 環境のみ再現します
- unicorn は prefork 型 web サーバ - 起動して要求された数のワーカーを fork
し新しいプロセスを生成 - 1つの TCP ソケットが共有される - unicorn では epoll(or kqueue) というのが使われる - この通知順番はどうなっているか なぜ偏る? 17 ソケット epoll ワーカー0 ワーカー1 ワーカーn … 監視 通知
なぜ偏る? 18 - リクエストが来た時、それを処理するワーカーが順番に並んてる キューを想像すると、そのキューは LIFO - 処理が終わったワーカーがキューに入ったら、次のリクエスト時にも同じ ワーカーが選ばれるので偏る Ref:
https://blog.cloudflare.com/the-sad-state-of-linux-socket-balancing/ epoll ワーカー1 ワーカー2 … 通知 待ち列 ワーカー0 処理が終わったら待ち列の先頭に入る
- スパイクに備えて過剰キャパシティを確保する - 過剰に確保されたワーカーは起動してから仕事していない - 販売開始時刻の大量のリクエストにより遊んでいたワーカーが仕事を 始める - 温まってないので処理に時間がかかる...? つまり起きてるのはおそらく
19
どうやって全ワーカーを温める? - 実際トラフィックを作って温める - 温まった状態でサービスインする - puma にする - ??
20
- Shopify による unicorn の fork - refork という機能がある pitchfork
21
COMMAND \_ pitchfork master \_ (gen:0) mold \_ (gen:0) worker[0]
\_ (gen:0) worker[1] \_ (gen:0) worker[2] \_ (gen:0) worker[3] COMMAND \_ pitchfork master \_ (gen:1) mold \_ (gen:1) worker[0] \_ (gen:1) worker[1] \_ (gen:1) worker[2] \_ (gen:1) worker[3] pitchfork - refork - 一定数(adjustable)のリクエストを処理したワーカーをテンプレート として全ワーカーを再度 forkする - Copy on Write(CoW) による共有メモリーを増やしてメモリー使用量 を減らす戦略 22 fork promote
温まったワーカーを refork すると 全ワーカーが温まった状態になるのでは? pitchfork 23
導入 - pitchfork が問題ないか確認するために開発環境でしばらく運用 - 本番を徐々にロールアウト 24
fork safety 確認が必要 - コネクションが継承されるとか - バックグラウンドで動くスレッドの扱いとか 相性が悪い事例もあるので気をつける Ref: https://github.com/Shopify/pitchfork/blob/master/docs/FORK_SAFETY.md
導入の注意点 25
毎年定期的に開催されている大きい販売の比較。 グラフの高さは同じスケールに調整されてます。 導入結果 26 rps(2023) rps(2024)
導入結果 27 レイテンシ(2024) レイテンシ(2023) p95 p90 p50 p95 p90 p50
導入結果 28 レイテンシ(2024) レイテンシ(2023) Ruby DB 外部通信 Ruby DB 外部通信
p95 p90 p50 p95 p90 p50 リクエスト平均処理時間を 内部の処理時間で分類(2023) リクエスト平均処理時間を 内部の処理時間で分類(2024)
不規則なスパイクアクセスの処理のため、低コストの効率的な暖気手段と して pitchfork を試して一定の成果がありました まとめ 29
ご清聴ありがとうございました まとめ 30