20161212jawsbigdata-161214152052.pdf

基幹業務もHadoop(EMR)で!! BigData-JAWS 勉強会#4 2016/12/12 Future Architect Inc, Keigo Suda のその後

いかに本番利⽤に堪えられるようになったかの軌跡 ü どういった課題があったか ü どのように対応したか実際に開発が終わったその後の話

＊ 2012年新卒⼊社(今年5年⽬ orz) ＊ Technology Innovation Group スペシャリスト＊最近の専⾨
-> ビッグデータ領域(インフラ〜アプリ) ＊最近はもっぱらKafkaとストリーム処理エンジンの諸々須⽥桂伍 (すだけいご)

宣伝 l 最近やっているIoTためのプラットフォーム構築の話 l Apache Kafka on AWS

もくじ l EMRとローソン l 性能テストとチューニング l まとめ

http://www.slideshare.net/keigosuda/hadoop-hadoop-hive 設計~開発時の話

https://future-architect.github.io/articles/20161005/ 開発後の話

EMRとローソン

店舗発注業務のセンター化発注時に利⽤するマスタ作成をセンタ集約 ü 店舗毎に⾏われていたマスタデータ作成処理を集約 ü 店舗からはAPI経由でマスタデータを参照これに表⽰される各種データを作成

店舗発注業務の裏側ローソン全業務で利⽤されるマスタデータを⽇次バッチで最新化 1 最新化された全業務マスタデータの更新差分を各店舗へファイル連携店舗へ更新分データのファイル連携 2 本部センターファイル
連携基盤ストアコンピュータデータ反映発注端末商品を発注しますね更新データ全業務マスタデータ⽇次バッチ処理最新化 1 2 3 4 全業務マスタデータの最新化処理連携されたファイルデータを各店舗にあるストコン内のDBへ反映する。 3 最新化されたマスタデータをもとに発注業務を実施発注時の商品データ参照 4 更新分データのDB反映処理

店舗発注業務の裏側ローソン全業務で利⽤されるマスタデータを⽇次バッチで最新化 1 最新化された全業務マスタデータの更新差分を各店舗へファイル連携店舗へ更新分データのファイル連携 2 本部センターファイル
連携基盤ストアコンピュータデータ反映発注端末商品を発注しますね更新データ全業務マスタデータ⽇次バッチ処理最新化 1 2 3 4 全業務マスタデータの最新化処理連携されたファイルデータを各店舗にあるストコン内のDBへ反映する。 3 最新化されたマスタデータをもとに発注業務を実施発注時の商品データ参照 4 更新分データのDB反映処理これまでは処理負荷を各店舗に分散していたイメージ

店舗DB 発注業務データ参照加⼯処理加⼯処理取込処理取込処理発注端末発注
端末発注端末発注端末発注端末発注端末発注端末 API API API API API API API 全店舗分の発注業務に利⽤するマスタデータをバッチ処理(⽇次)で作成全業務マスタDBから店舗毎に必要なマスタデータの更新差分をファイルで連携これまで店舗毎に配信されていた全店舗分の更新差分ファイルを連携受信⽤DB 公開⽤DB 1. 全業務マスタDBから各店舗へ更新差分ファイルを配信 2. 店舗毎にDBへ差分反映後、発注利⽤マスタデータを作成 3. 作成されたマスタデータは発注業務時に発注端末から参照 1. 全業務マスタDBから全店舗分の更新差分ファイルを配信 2. 受信⽤DBへ差分反映後、全店舗分の発注利⽤マスタデータを作成 3. 作成されたマスタデータはREST APIで公開し、発注端末より参照データ参照発注業務 Before After 機能のセンター集約

しかしその壁も⾼い・・・店舗数増加への考慮ピーク時の処理多重度限られたバッチウィンドウ膨⼤なレコード件数

12,000

16 20% 80% 全店舗分の処理ピークが重なる

17 発注商品マスタ〜10億レコード PLUマスタ〜7億レコード商品マスタ〜5億約80マスタテーブル(数⼗億レコード)

EMRでまとめて処理しよう！エコシステム含めた多様な処理オプションスケールアウト&スケールアップの戦略が柔軟＊クラスタ台数、EC2インスタンスタイプ、タスクグループと様々な組み合わせが可能＊ EMR(というかHadoop)を取り囲むエコシステム群による機能補完 EC2だし,いざとなればなんとかなるでしょ(⼩並感）＊いざとなればSSHで⼊ってごにょごにょできるし・・・

アーキテクチャ全体概要共有マスタ本部システムファイル連携
基盤 API参照DB 加⼯処理クラスタ×２常時起動、ピーク時起動受信マスタDB Ⅰ.取込処理 Ⅱ.加⼯処理 Ⅲ.参照処理参照API マスタ反映ファイル連携データ加⼯ APIデータ反映 APIデータ参照データを返す過去データ蓄積⽤バケット MySQL DOT/POT センター機能店舗 DOT POT データ取得ファイル取込サーバ MySQL MySQL CDNキャッシュ動画・添付画像 CDN アップロード SQLバッチ(HiveQL) 参照APIで取得したURL情報を元に画像ファイルなどをGET

ここまでがカンファレンス時までの話 (完)

性能テスト/チューニング

性能テスト実施環境共有マスタ本部システムファイル連携
基盤 API参照DB 加⼯処理クラスタ×２常時起動、ピーク時起動受信マスタDB Ⅱ.加⼯処理 Ⅲ.参照処理参照API データ加⼯ APIデータ反映 APIデータ参照データを返す過去データ蓄積⽤バケット MySQL DOT/POT センター機能(擬似) ファイル取込サーバ MySQL MySQL CDNキャッシュ動画・添付画像 CDN アップロード SQLバッチ(HiveQL) JMeter 性能テスト環境 Ⅰ.取込処理マスタ反映ファイル連携ファイル連携基盤にて性能テスト環境へのファイルを配信してもらい本番と同じ流量かつデータ量を再現

やっぱり本番負荷は並じゃなかった思っていた以上にジョブ投⼊多重度が⾼かった問題ちまたのベストプラクティスがはまらない問題＊ググって出てくるチューニング例は当てはまらないことが多かった orz ＊実環境では当初想定よりもかなりの処理が多重で実⾏される結果に RDSがふん詰まる問題＊スループットが思った以上に出ない&EMRからボトルネックが移動してきた

数値でみる処理状況投⼊ジョブ数(瞬間⾵速) -> 250~/分間トータル12,000ジョブ/1バッチ処理

数値でみる処理状況同時稼働ジョブ数 -> 100~600ジョブ

特徴 l とにかくジョブの同時投⼊数、稼働数が多い l 1マスタ作成処理につき平均20ワーク作成ほど * 80マスタテーブル * 店舗数分
l ⼀つ⼀つのクエリは結構重たい l ⾮正規化処理が中⼼のため⼤量読み取り&⼤量書き出し

処理時間の推移でみるチューニング過程 90分 25分 ∞ 90分まずは1/80マスタを全店舗分 80マスタを全店舗分

チューニング対応⼀覧 l 以下は主にEMR関連で、細々としたアプリケーションのチューニングなども別途対応

処理時間の推移でみるチューニング過程 90分 25分 ∞ 90分まずは1/80マスタを全店舗分 80マスタを全店舗分主にHiveのクエリやパラメータチューニング

クエリチューニング l パーティション利⽤の廃⽌ l パーティション後のファイルサイズが⼩さくなりがちで、結果IO効率が悪くなっていった l パーティション作成処理のオーバーヘッドの積み重ねが処理時間のウェイトを占めるようになっていた l ワークテーブル数の削減(可読性をさげない程度に) l
複数ワークテーブルを集約して⼀つのクエリにする l １クエリでさばく処理量を増やすことでIO効率をあげていく(UNION ALLなど)

クエリをまとめていく例

パラメータチューニング l 処理エンジンの変更 l 処理エンジンをTezに変更することでオンメモリで処理を⾏い、ディスクIOを減らす l Reducer数の変更 l 最後のファイル書き込みがボトルネックとなる処理が多かったため、起動Reducer数を増やして対応 l
MapJoinの積極的活⽤ l MapJoinをどんどん誘導していく l ファイルフォーマットの選択と圧縮⽅式の選択 l 処理に適したファイルフォーマット選択とディスクIO負荷を軽減するための適切な圧縮⽅式選択

処理エンジンの変更 l Tezに変更することで処理をオンメモリに切り替え l MRは多少乱暴に書いても動き切ってくれる安⼼感はあったけど・・・ http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.4.3/bk_performance_tuning/content/hive_perf_best_pract_use_tez.html

処理エンジンの変更

処理エンジンの変更 l オンメモリ処理への切り替えに伴いコアノードのインスタンスタイプを変更 l d2.4xlarge -> r3.8xlarge l 同時ジョブ数の増加で最後のHDFSへの書き出しの遅さが⽬⽴つように l
起動Reducer数を増やすことで対応(愚直に計測・・・)

Reducer数の変更/コンテナサイズの調整 l 以下の可変要素を調整しながらベターなパラメータをひたすら探る l コンテナサイズ * 起動Reducer数 * 同時投⼊ジョブ数

Reducer数の変更/コンテナサイズの調整 l 調整パラメータ⼀覧 -- Reducer関連 SET hive.tez.auto.reducer.parallelism=true; SET hive.exec.reducers.bytes.per.reducer=64000000; --
YARN Container関連 SET hive.tez.container.size=4096; SET hive.tez.java.opts=-Xmx3200m; SET hive.tez.cpu.vcores=1; SET hive.prewarm.enabled=true; SET hive.prewarm.numcontainers=30;

(参考)コンテナにおけるメモリ利⽤内訳 l コンテナのメモリ利⽤内訳はベストプラクティスに従って設定 l https://community.hortonworks.com/articles/14309/demystify-tez- tuning-step-by-step.html l ヒープサイズはやや⼤きめにとっている

MapJoinへの積極的誘導 l 最初は各クエリの各ワークをレビューしながらヒント句で固定 l 発狂ｱﾋｬﾋｬﾋｬ(ﾟ∀ﾟ≡ﾟ∀ﾟ)ﾋｬﾋｬﾋｬ l そもそもクエリ内のロジックやら処理データ量やら変わったらどうするのこれ・・・ l もうAutoにまかせちゃう
l MapJoinだとまずいものだけをMap Joinさせない l がむしゃらにMapJoinさせようとするとHashテーブルがメモリに乗り切らずOOM -- Map Join関連 SET hive.auto.convert.join=true; SET hive.auto.convert.join.noconditionaltask.size=1300000000;

ファイルフォーマットの選択/圧縮⽅式の選択 l (中間テーブルの)ファイルフォーマット選択にあたっての要件としては以下 l どうせ終わったら消すだけのワークなので早く終わればそれでよし！ l スキーマ情報はクエリの中でDDL発⾏していたのでファイルフォーマットでカバーする必要なし l カラムナ型のファイルフォーマッットも試したものの処理特性もありぱっとせず l
⾮正規化に近い処理をひたすら繰り返すため、カラムナフォーマットの利点をいかしきれず -- ファイルフォーマット関連&圧縮関連 SET hive.default.fileformat=sequencefile; SET mapred.output.compression.type=BLOCK; SET hive.exec.orc.default.compress=SNAPPY; SET hive.exec.compress.intermediate=true; SET hive.exec.compress.output=true; SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;

MySQL MySQL TEXTFILE SEAQUENCEFILE+Snappy TEXTFILE ・・・・加⼯元テーブルワークテーブル加⼯後テーブル Hive
HDFS ファイルフォーマットの選択/圧縮⽅式の選択受信マスタDB API参照⽤DB EMR Sqoopエクスポート時の対応フォーマットの制約のため Sqoopインポート時のHive連携オプションにより⾃動でスキーマ作成

ファイルフォーマット圧縮アルゴリズム圧縮タイプ処理時間 TEXT SNAPPY - 24:41:00 SEAQUENCE SNAPPY
BLOCK 24:10:00 SNAPPY RECORD 27:22:00 ORC SNAPPY ファイルレベル 27:17:00 ビルトイン 27:00:00 (参考)ファイルフォーマットの選択/圧縮⽅式の選択

ここまでで単位のマスタ作成は⽬標時間をきる 90分 25分 ∞ 90分まずは1/80マスタを全店舗分 80マスタを全店舗分

次は本番同等の多重度でやってみて 90分 25分 ∞ 90分まずは1/80マスタを全店舗分 80マスタを全店舗分主にYARNにおけるチューニング

やっぱり本番負荷は並じゃなかった思っていた以上にジョブ投⼊多重度が⾼かった問題ちまたのベストプラクティスがはまらない問題＊ググって出てくるチューニング例は当てはまらないことが多かった orz ＊実環境では当初想定よりもかなりの処理が多重で実⾏される結果に RDSのご機嫌問題＊スループットが思った以上に出ない&EMRからボトルネックが移動してきた

本当に⼤変だったのはリソースコントロール l なだれ込むジョブにそもそもクラスタが耐えられず orz l ジョブがペンディングの嵐 l カーネルのプロセス数上限に達してそもそもジョブ動かない

リソースコントロールのための対応 l コンテナ配布の最適化 l スケジューラの調整クラスタリソース(コンテナ) 割当割当割当リソース割当待ち状態の
滞留ジョブを発⽣させない同時稼働ジョブ数を増やすために、効率的なリソース配分を実施させるそのうえで、各マスタ作成処理の最適化を実施する

コンテナ配布の最適化 l 利⽤できるコンテナ数をとにかく増やす l YARNアプリケーションごとにコンテナ数を調整(節約) l 前述したMapJoinなども考慮して、全体の性能が落ちずかつ複数処理がまわるようなコンテナサイズをさぐる l Sqoopによるインポート/エクスポート処理は起動Map数が指定できるため、起動に
必要なサイズにまでぎりぎり減らす

⽣々しい軌跡 l コンテナのメモリサイズを調整しながらギリギリのラインをさぐる l 結果的に512MB/コンテナあれば同じ処理時間を保ちながら処理ができた l これより⼩さくなると、そもそもOOMで動かなくなる

スケジューラの調整 l スケジューラをFair Schedulerに変更 l とにかく終わったものからどんどんRDSに流してしまいたかったため、ペンディングをなくしたかった l とはいえ、ジョブに応じてコンテナの配分は調整したかったので、そこはキュー設計で頑張る

キュー設定によるリソース割り当て優先度の調整キュー設定 root ├ peak(業務優先度⾼&リソース要求⾼) └ shohin └ hatchu_shohin └
ichiran_sansho_yo_shohin └ plu ├ others(業務優先度低&リソース要求低) └ sqoop(Sqoop処理⽤) └ import └ export 前提 l YARNスケジューラとして「Fair Scheduler」を利⽤する。 l Fair Schedulerにより、マスタ作成処理に重みづけを⾏い、クラスタのリソースを綿密にコントロールすることを⽬的とする。 ※Capacity Schedulerはキュー内ではリソースを均等分配できずペンディング状態の処理が発⽣してしまう可能性があるため。

キュー設定によるリソース割り当て優先度の調整業務優先度⾼ & リソース要求⼤ Sqoop処理⽤途(必要最低限のみ) 業務優先度中低 & リソース要求⼩さらにその中で配分

▼発注⽤途マスタ作成開始 ▼全体商品マスタ作成開始 ▼PLU⽤マスタ作成開始 ▼商品⼀覧参照⽤マスタ作成開始 4:00 23:40 ▼発注⽤途マスタ作成開始 ▼全体商品マスタ作成開始 ▼PLU⽤マスタ作成開始 ▼商品⼀覧参照⽤マスタ作成開始
リラン枠 (1.5時間) 通常時開始遅延時必要リソース量の最⼤値⾒積り箇所リソース配分の決定までの道のり

そして90分にまでようやっと短縮!! 90分 25分 ∞ 90分まずは1/80マスタを全店舗分 80マスタを全店舗分

おまけ

やっぱり本番負荷は並じゃなかった思っていた以上にジョブ投⼊多重度が⾼かった問題ちまたのベストプラクティスがはまらない問題＊ググって出てくるチューニング例は当てはまらないことが多かった orz ＊実環境では当初想定よりもかなりの処理が多重で実⾏される結果に RDSのご機嫌問題＊スループットが思った以上に出ない&EMRからボトルネックが移動してきた

EMRと同じぐらい⼤変だったRDSチューニング l 最初は最初はほんとにSqoopによるエクスポートが終わらなかった・・・ l Sqoopエクスポートの多重度があがるとRDS(MySQL)のIOがつまる・・・ l しまいにはセッションきられる l 以下を中⼼にチューニングし、なんとか流し切れるまでに l
エクスポート対象のテーブルを事前にPKでソート l なるべくディスクへの書き込みによるIOを遅延させる l innodb_buffer_pool_size l innodb_max_dirty_pages_pct l 書き込み周りのスレッド数を微調整 l innodb_write_io_threads l innodb_thread_concurrency

試しにAurora(MySQL)に変更したみたら l あんなに頑張った結果がノンチューニングで抜かれる(しかも台数も半分で・・・) l 多重度が上がるほど性能が安定&エクスポートするテーブルサイズによらず安定 l マルチAZにしても⾮同期だから性能劣化なし l ⼤量データのエクスポート先としても結構有能

(参考)エクスポート並列数による処理時間結果 0:00:00 0:00:20 0:00:40 0:01:00 0:01:20 0:01:40 0:02:00 0:02:20 1テーブルあたりの処理時間
同時テーブルエクスポート数 Aurora 8xrlage Aurora 4xlarge MySQL 4xlarge No RDS AZ構成パラ [table] map数処理時間処理時間/table 参考処理時間 (MySQL) 参考処理時間/ table(MySQL) 7 r3.4xlarge なし 9 1 0:15:26 0:01:43 0:12:35 0:01:24 8 r3.4xlarge なし 18 1 0:25:50 0:01:26 0:32:00 0:01:47 13 r3.4xlarge あり 36 1 0:56:18 0:01:34 1:18:46 0:02:11 16 r3.8xlarge なし 9 1 0:12:30 0:01:23 17 r3.8xlarge なし 18 1 0:22:22 0:01:15 18 r3.8xlarge なし 36 1 0:46:10 0:01:17 21 r3.8xlarge なし 72 1 1:37:21 0:01:21 RDS(JM)

(参考)Multi AZによる処理時間 101% 104% 123% 140% 0% 20% 40% 60%
80% 100% 120% 140% 160% 9パラ1map 18パラ1map AZなしの場合を100%とした場合の処理時間の伸び率 Aurora MySQL No RDS AZ構成パラ [table] map数処理時間処理時間/table 参考処理時間 (MySQL) 参考処理時間/ table 7 r3.4xlarge なし 9 1 0:15:26 0:01:43 0:12:35 0:01:24 8 r3.4xlarge なし 18 1 0:25:50 0:01:26 0:32:00 0:01:47 11 r3.4xlarge あり 9 1 0:15:36 0:01:44 0:15:26 0:01:43 12 r3.4xlarge あり 18 1 0:26:45 0:01:29 0:44:49 0:02:29

まとめ

まとめ：教訓 l とにかくワークは⼩さく保つ!!(迫真) l プランの可読性が全然違う l ちまたのチューニング情報はとっかかりとして有効 l ワークロードが異なれば傾向も変わる l
リソース配分部分は結構盲点 l 情報も少なく⼀番業務要件できまる部分なのでちゃんと特性を知った上で設計する l Auroraって万能ですね！ l 重たいデータのオフロードもいけるじゃん

ありがとうございました!!

20161212jawsbigdata-161214152052.pdf

20161212jawsbigdata-161214152052.pdf

More Decks by Keigo Suda

Featured

Transcript