Upgrade to Pro — share decks privately, control downloads, hide ads and more …

フリークアウトにおける大規模データの取り扱いのこれまでとこれから

s_wool
December 16, 2014

 フリークアウトにおける大規模データの取り扱いのこれまでとこれから

s_wool

December 16, 2014
Tweet

More Decks by s_wool

Other Decks in Technology

Transcript

  1. Norikazu Kato ログ @ フリークアウト Hadoop, fluentd, elasticsearch あたりをさわっていま す

    経歴 2011.04 グリー株式会社 2013.01 株式会社フリークアウト 5月くらいからずっとログ担当 ID s_wool or s-wool 最近気になること:肝機能
  2. FreakOut 国内で初めてRTBによる広告枠の買付を行うDSP を開始 2011.01~ RTB -> Real Time Bidding DSP

    -> Demand Side Platform 関連する会社 Dobleas FreakOut Asia Pacific IntimateMerger M.T.Burn
  3. が、 • Expireできない • データが増え続ける • メモリに載らなくなる • 迂闊にサーバを追加できない 第4回

    memcachedの分散アルゴリズム:memcachedを知り尽くす|gihyo.jp … 技術評論社 http://gihyo.jp/dev/feature/01/memcached/0004
  4. が、 • Expireできない • データが増え続ける • メモリに載らなくなる • 迂闊にサーバを追加できない 第4回

    memcachedの分散アルゴリズム:memcachedを知り尽くす|gihyo.jp … 技術評論社 http://gihyo.jp/dev/feature/01/memcached/0004 失われるオーディエンス
  5. 主なUpdate • CDH 4 → CDH5 • Hivemall • Impala

    • Norikra • Elasticsearch + Kibana
  6. CDH 4 → CDH5 • Yarn対応済み • Cloudera Managerを採用してよりアップデー トしやすい体勢へ

    • Hadoop周辺のエコシステムの進歩が非常にはやい が追随していきたい • 移行の話をアドベントカレンダーに書きました • http://qiita.com/s_wool/items/4fa7932dda7e3f4738 15
  7. Norikra • fluentdのmetricsを送信してバッファの状況を 監視 • クエリが引っかかるとfluentdのnorikra input経 由で通知 • クエリ例

    SELECT agent_id, 'PLUGIN_NAME' AS tag, avg(data.plugins.PLUGIN_NAME.metrics.buffer_queue_length.value) AS avg_buffer_queue_length FROM fluent_monitoring.win:time_batch(1 minute) GROUP BY agent_id HAVING avg(data.plugins.PLUGIN_NAME.metrics.buffer_queue_length.value) > 76
  8. 今後のUpdate • Spark(MLlib) • より高速に機械学習したい • HBase? • 分析しやすいオーディエンスDBを作成 •

    毎日→毎時→毎分の集計へ • ものによるけど • 開発側に訴えかけるログの可視化 • リリースの効果をわかりやすく • テンションあがるやつ