Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
re:Inventに行ってきました - 気になった新サービス / AWS re:Invent...
Search
koid
December 14, 2016
0
2k
re:Inventに行ってきました - 気になった新サービス / AWS re:Invent2016 Participants LT
https://abeja-innovation-meetup.connpass.com/event/45987/
koid
December 14, 2016
Tweet
Share
More Decks by koid
See All by koid
新しい技術の導入時に大切にしていること / IVS CTO Night 2018 LT
koid
2
7.1k
GunosyでのKinesis Analytics利用について / AWS Solution Days 2017 -AWS DB Day-
koid
0
240
GunosyでのKinesis Analytics利用について / BigData JAWS 6 Kinesis Analytics
koid
1
910
AWS Lambda - ピーキーなアクセスに備える / Gunosy Beer Bash #8
koid
0
2k
AWS Lambdaで複数アカウント間でアレコレする / Gunosy Beer Bash #7
koid
1
2k
サーバにログインしない・させないサービス運用 / AWS Summit 2015 Devcon
koid
6
9k
GunosyのMicroServicesとOpsWorks / よくわかる AWS OpsWorks
koid
18
5.9k
Featured
See All Featured
Ruby is Unlike a Banana
tanoku
97
11k
Testing 201, or: Great Expectations
jmmastey
38
7.1k
Writing Fast Ruby
sferik
627
61k
Making Projects Easy
brettharned
115
5.9k
KATA
mclloyd
29
14k
Fantastic passwords and where to find them - at NoRuKo
philnash
50
2.9k
Building Adaptive Systems
keathley
38
2.3k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
169
50k
Producing Creativity
orderedlist
PRO
341
39k
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.2k
A Tale of Four Properties
chriscoyier
156
23k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
4
370
Transcript
re:Inventに⾏ってきました - 気になった新サービス - 株式会社Gunosy ⼩出 幸典
⾃⼰紹介 • 名前 – ⼩出 幸典 (こいで ゆきのり) • 所属
– 株式会社Gunosy • プロビジョニング・デプロイフローの共通化とか • 過剰リソース警察、コスト削減おじさん • 好きなAWSサービス – OpsWorks, Lambda, Trusted Advisor, 最近はKinesisファミリー
株式会社Gunosy – 「情報を世界中の⼈に最適に届ける」 • Gunosyは 情報キュレーションサービス「グノシー」と • 2016年6⽉1⽇にKDDI株式会社と共同でリリースした 無料ニュース配信アプリ「ニュースパス」を提供する •
会社です。「情報を世界中の⼈に最適に届ける」を ビジョンに活動しています。 ネット上に存在するさまざまな情報を、 独⾃のアルゴリズムで収集、評価付けを⾏い ユーザーに届けます。 情報キュレーションサービス 「グノシー」 200媒体以上のニュースソースをベースに、 新たに開発した情報解析・配信技術を⽤いて⾃動的に 選定したニュースや情報をユーザーに届けます。 無料ニュース配信アプリ 「ニュースパス」
本⽇お話させていただく内容 今回のre:Inventで個⼈的に気になった新サービス (を、⾃社の状況と絡めながら)
Amazon Athena • S3上のデータにクエリ投げられるサービス – CSV, JSON, カラムナフォーマット – 通常のS3データ課⾦+読み込んだデータ量で課⾦
• GZIPやカラムナフォーマットで読み込みデータ量を抑えられる • 既に解説スライド・記事がたくさん上がっている – Gunosyでも使ってみたブログ書いています – もういいよね
社内のとあるデータフロー • ⼀部ではありますが Raw log bucket Hive Metastore Airflow ETL
Cluster Parquet bucket Analysis Cluster Redash etc… Job
Amazon Athenaが⼊ると • こんな感じでしょうか Raw log bucket Hive Metastore Airflow
ETL Cluster Parquet bucket Athena Redash etc… Job
でも、、 • Metastoreが別のため、別途DDL操作が必要 Raw log bucket Hive Metastore Airflow ETL
Cluster Parquet bucket Athena Redash etc… Job 何か Add Partition etc… Metastore (Hive Compatible) 既存資産を 活⽤したい!
外部Metastoreの参照 ͝ݕ౼͓ئ͍͠·͢ʂ ʢػೳཁʣ
そういえば もうひとつ気になるものがありました
AWS Glue • Fully Managed ETL Service – Data Catalog
• RDS/S3/Redshiftを統合 • JSON、CSV、Parquetなど、各種フォーマットに対応 – Job Authoring – Job Execution • 近⽇公開
ん…?これは…? ここから先は妄想です (だったらいいなシリーズ)
妄想)こんな感じでできたりしないかな…? • ETLジョブの実⾏・管理を全てGlueで – ジョブ管理をフルマネージドで • AthenaのMetastoreをGlueのData Catalogで – 資料にはAthena書いてませんが…サポートしてください!
Raw log bucket Glue Parquet bucket Athena Redash etc… Glue Data Catalog
AWS GlueのAthena Support ͝ݕ౼͓ئ͍͠·͢ʂ ʢػೳཁʣ
AWS Glue ͓͖ͯ͞ɺ(MVFʹظ͍ͯ͠·͢ʂ ૣ͘ެ։͍ͯͩ͘͠͞ʂ
終わりに • ご清聴ありがとうございました