Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
「AWS 上で始めるモダンデータアアーキテクチャと データ活用に向けたアプローチ」
Search
Takaya Nakanishi
March 15, 2023
Technology
0
270
「AWS 上で始めるモダンデータアアーキテクチャと データ活用に向けたアプローチ」
2023年3月15日に行われた BigData-JAWS 勉強会 #23 の登壇資料です。
Takaya Nakanishi
March 15, 2023
Tweet
Share
More Decks by Takaya Nakanishi
See All by Takaya Nakanishi
Databricks Data+AI Summit 2024 最新動向座談会
kc_nakanishi
0
140
20240330_LT資料「エンジニアに求められるマネジメント」
kc_nakanishi
1
200
ナレコム CULTURE DECK
kc_nakanishi
1
760
AI業界をリードする企業のエンジニアが語る:クラウド & AI でキャリアを作る魅力
kc_nakanishi
0
260
受託クラウド AI ベンチャーで働く自分から見た 誰も言わない成功プロジェクトの共通点
kc_nakanishi
0
280
ChatGPTがある時代にわたしたちはどう生きるか
kc_nakanishi
0
160
データチームを率いる現場マネージャーが語る、市場が求めるデータエンジニアに爆速で成長する方法
kc_nakanishi
0
610
ナレコム社内研修資料_プロジェクトマネジメント入門(2022年版)
kc_nakanishi
1
1.1k
Other Decks in Technology
See All in Technology
マルチモーダル / AI Agent / LLMOps 3つの技術トレンドで理解するLLMの今後の展望
hirosatogamo
37
12k
Incident Response Practices: Waroom's Features and Future Challenges
rrreeeyyy
0
160
第1回 国土交通省 データコンペ参加者向け勉強会③- Snowflake x estie編 -
estie
0
130
TanStack Routerに移行するのかい しないのかい、どっちなんだい! / Are you going to migrate to TanStack Router or not? Which one is it?
kaminashi
0
600
DynamoDB でスロットリングが発生したとき_大盛りver/when_throttling_occurs_in_dynamodb_long
emiki
1
420
いざ、BSC討伐の旅
nikinusu
2
780
ExaDB-D dbaascli で出来ること
oracle4engineer
PRO
0
3.9k
開発生産性を上げながらビジネスも30倍成長させてきたチームの姿
kamina_zzz
2
1.7k
VideoMamba: State Space Model for Efficient Video Understanding
chou500
0
190
Security-JAWS【第35回】勉強会クラウドにおけるマルウェアやコンテンツ改ざんへの対策
4su_para
0
180
【Startup CTO of the Year 2024 / Audience Award】アセンド取締役CTO 丹羽健
niwatakeru
0
1.3k
テストコード品質を高めるためにMutation Testingライブラリ・Strykerを実戦導入してみた話
ysknsid25
7
2.7k
Featured
See All Featured
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.8k
RailsConf 2023
tenderlove
29
900
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
0
97
Imperfection Machines: The Place of Print at Facebook
scottboms
265
13k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.1k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
665
120k
Faster Mobile Websites
deanohume
305
30k
How to train your dragon (web standard)
notwaldorf
88
5.7k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
26
2.1k
Automating Front-end Workflow
addyosmani
1366
200k
Building Applications with DynamoDB
mza
90
6.1k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
Transcript
© 2023/3/16 Knowledge Communication Co., Ltd. AWS 上で始める モダンデータアアーキテクチャと データ活用に向けたアプローチ
2023.3.15. BigData-JAWS 勉強会 #23 ナレッジコミュニケーション 中西 データ分析を加速させる!
© 2023/3/16 Knowledge Communication Co., Ltd. AWS上でデータ活用を どのように始めるか?
© 2023/3/16 Knowledge Communication Co., Ltd. 3 わたしのこと 自己紹介 氏名
: 中西 貴哉 (なかにし たかや) 所属 : ナレッジコミュニケーション ビジネスデベロップメント部 担当 : データプロジェクトのリード、アジャイルコーチ
© 2023/3/16 Knowledge Communication Co., Ltd. 会社紹介 商号 株式会社ナレッジコミュニケーション 代表
代表取締役CEO 奥沢 明 事業内容 クラウド事業、AI/ロボット事業、ラーニング事業 資本金 900万円 設立 2008年11月13日 拠点 本社 (DIGITAL INNOVATION CENTER) 千葉県市川市相之川4-6-5 フォーリーフ南行徳2F 千葉オフィス 千葉県市川市相之川3-13-23 丸伝小川ビル3F 熊本オフィス(熊本Lab.) 熊本県熊本市中央区桜町2−17 第2甲斐田ビル7階 Webサイト https://www.knowledgecommunication.jp 業務風景 オフィス風景
© 2023/3/16 Knowledge Communication Co., Ltd. 会社紹介 Data & AI
に特化した APN パートナーです。
© 2023/3/16 Knowledge Communication Co., Ltd. 会社紹介 電通デジタル様のデータ分析基盤を AWS でご支援
© 2023/3/16 Knowledge Communication Co., Ltd. 本日のアジェンダ
© 2023/3/16 Knowledge Communication Co., Ltd. システム データ基盤を 取り巻く課題 考えるべきテーマ
ビジネス システム 人
© 2023/3/16 Knowledge Communication Co., Ltd. 9 アジェンダ 1. どうしてデータ活用が難しいか?
2. アーキテクチャで考えるデータ活用 3. どうアプローチをしていけばいいか
© 2023/3/16 Knowledge Communication Co., Ltd. どうしてデータ活用が難しいか?
© 2023/3/16 Knowledge Communication Co., Ltd. 20% 日本国内の企業における データを利用したサービス・製品開発 (出典)総務省(2020)「データの流通環境等に関する消費者の意識に関する調査研究」より
© 2023/3/16 Knowledge Communication Co., Ltd. 12 どうしてデータ活用が難しいか? データ収集・蓄積・処理の導入も 30%
以下
© 2023/3/16 Knowledge Communication Co., Ltd. 13 アクセンチュア調査 : 77%の日本企業が、人工知能をビジネス全体で活用しなければ著しい業績低下の可能性があると認識
URL : https://www.accenture.com/jp-ja/company-news-releases-20191219-2 AIの利用規模を拡大しないと 成長目標が達成できないと感じる AIの規模を拡大しないと 5年以内に倒産するリスクがある PoC(実証実験)を行ったが ビジネス領域での導入に苦労している 80% 75% 76% どうしてデータ活用が難しいか? 日本企業の経営幹部におけるAI・データ分析への関心
© 2023/3/16 Knowledge Communication Co., Ltd. 14 どうしてデータ活用が難しいか? ビジネス 人
データ アプリ テクノロジー データはビジネスと既存システム両面の視点が必要 エンタープライズアーキテクチャモデル Technology Architecture Application Architecture Data Architecture Business Architecture 人・物・価値・情報 データ 機能・情報システム 技術
© 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用
© 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 データに関わる人の関心事項は「 データウェアハウス 」
(出典)fetaro さん資料 : BigQuery と Snowflake を徹底比較 - Speaker Deck より 26.6% Amazon Redshift 16.9% 44.2% G 社のやつ 9.7%
© 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 ML code データ収集
データ検証 環境構築 自動化 特徴量エンジニアリング テストと デバッグ モデル評価 プロセス設計 モデル提供 インフラ構築 メタデータ管理 リソース マネジメント Hidden Technical Debt in Machine Learning Systems (Sculley et al. 2015) より作成 データを活用するために必要なエンジニアリング
© 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 ML code データ収集
データ検証 環境構築 自動化 特徴量エンジニアリング テストと デバッグ モデル評価 プロセス設計 モデル提供 インフラ構築 メタデータ管理 リソース マネジメント Hidden Technical Debt in Machine Learning Systems (Sculley et al. 2015) より作成 クラウド DWH はいろいろと解決してくれるけど全てではない
© 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 ML code データ収集
データ検証 環境構築 自動化 特徴量エンジニアリング テストと デバッグ モデル評価 プロセス設計 モデル提供 インフラ構築 メタデータ管理 リソース マネジメント Hidden Technical Debt in Machine Learning Systems (Sculley et al. 2015) より作成 「分析」そのものは全体の 5% 程度しかない
© 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 導入前の課題 導入後の効果 ⚫
データ分析系サービスの導入知見がない。 ⚫ AWS のマネージドサービスをフル活用したい。 ⚫ 分析チームの立ち上げを行いたい。 ⚫ マネージドサービスを活用し運用コストを最適化。 ⚫ Amazon Redshift , SageMaker を活用した環境構築。 ⚫ PaaS サービスを活用した内製での分析組織立ち上げ。 AWS事例ページ : https://aws.amazon.com/jp/solutions/case-studies/booklista-knowledgecommunication/ この課題にチャレンジしているお客様 : ブックリスタ様
© 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 データパイプライン バッチ取込 分析用
データ マート データカタログ リアルタイム 取込 静的 レポート 機械学習 動的 レポート データ 加工処理 レイク ハウス ストリーム 処理 RDB ファイル ストリーム モダンデータアーキテクチャに求められる技術要素
© 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 Amazon QuickSight Amazon
SageMaker RDB ファイル ストリーム Amazon EMR AWS Data Pipeline Amazon QuickSight Amazon Redshift Amazon S3 AWS Glue Kinesis AWS Glue Data catalog AWS IoT Core Amazon Athena AWS Batch Amazon Redshift AWS の各種サービスを配置する (ざっくり)
© 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 サービスと提供機能の組み合わせで乗り越える
© 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 AWS は監視機能が便利です
© 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 ML Ops のためのデータアーキテクチャ
© 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 •AWS のピタゴラスイッチは大変そう •これが出来るヒトはウチにはいない
•自分たちにはまだ早いと感じる・・・ おそらく多くの方が思うこと
© 2023/3/16 Knowledge Communication Co., Ltd. どうアプローチをしていけばいいか 27
© 2023/3/16 Knowledge Communication Co., Ltd. どうアプローチをしていけばいいか データ分析業務の内製開発支援 導入前の課題 導入後の効果
⚫ データ分析人材が自社におらず分析活動ができない。 ⚫ 複雑なアーキテクチャの実装は自社リソースで難しい。 ⚫ 現状あるリソースのみで成果を出す必要がある。 ⚫ トレーニングによる2ヶ月でセンサーデータの分析を実現。 ⚫ クラウドネイティブなシンプルな構成で自社運用。 ⚫ 新人メンバーが DX チームの取組を推進。 IMG AWS を中心とした分析業務を 自社リソースで内製化
© 2023/3/16 Knowledge Communication Co., Ltd. どうアプローチをしていけばいいか Amazon QuickSight Amazon
SageMaker RDB ファイル ストリーム Amazon EMR AWS Data Pipeline Amazon QuickSight Amazon Redshift Amazon S3 AWS Glue Kinesis AWS Glue Data catalog AWS IoT Core Amazon Athena AWS Batch Amazon Redshift この環境を内製で開発し運用するのは難しい場合も・・・
© 2023/3/16 Knowledge Communication Co., Ltd. AWSコンポーネント上で稼働するデータ分析プラットフォーム (EC2, VPC, S3
etc.)
© 2023/3/16 Knowledge Communication Co., Ltd. どうアプローチをしていけばいいか モダンなデータアーキテクチャ データパイプライン バッチ取込
分析用 データ マート データカタログ リアルタイム 取込 静的 レポート 機械学習 動的 レポート データ 加工処理 レイク ハウス ストリーム 処理 RDB ファイル ストリーム
© 2023/3/16 Knowledge Communication Co., Ltd. どうアプローチをしていけばいいか Delta Live Tables
Event Streaming Unity Catalog Ingest tool notebook RDB ファイル ストリーム Databricks SQL Serverless SQL Photon Auto Loader Databricks が網羅する機能
© 2023/3/16 Knowledge Communication Co., Ltd. どうアプローチをしていけばいいか Delta Live Tables
Event Streaming Unity Catalog Ingest tool 静的 レポート 機械学習 動的 レポート RDB ファイル ストリーム Databricks SQL Serverless SQL Photon Auto Loader つまり・・・ Amazon S3 Amazon EC2
© 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 ML code データ収集
データ検証 環境構築 自動化 特徴量エンジニアリング テストと デバッグ モデル評価 プロセス設計 モデル提供 インフラ構築 メタデータ管理 リソース マネジメント Hidden Technical Debt in Machine Learning Systems (Sculley et al. 2015) より作成 Databricks のカバーする範囲
35 データレイクハウスカンパニー AI, ビッグデータに特化 クラウド上で提供 (AWS, Microsoft Azure, GCP) 積極的な
オープンソース化 (月間3000万ダウンロード) 米国本社: Databricks Inc. 設立: 2013年設立 (日本法人は2019年設立) 所在地: アメリカ カリフォルニア州 サンフランシスコ市 社員数: 5,000 以上 拠点数: 11ヶ国 16拠点 沿革: カリフォルニア大学バークレー校から発祥 代表者: アリ・ゴディシ (共同設立者 & CEO) 主要な指標 事業戦略 ビジョナリー リーダー チャレンジャー ニッチプレイヤー 市場における評価 9,000 以上の顧客 1,000 以上のパートナー ARR(年間定額収益)は 約1300億円+ (2022年8月) シリーズHの資金調達(総計 約4,000億円)にて 約5兆円 市場価値 (2022年8月) トヨタ自動車 武田薬品工業 コマツ ソフトバンク 国立がんセンター 沖縄銀行 Supership GeoDesic Japan Digital Design(MUFG) 日経新聞 MTI リテールAI研究会 FWD富士生命保険 SEGA 田辺三菱製薬 日立造船 日系公表ユーザー(イベント登壇含む、敬称略) Cloud 100 2021 2位 ガートナー社 MQレポート ・2021年 データサイエンス & 機械学習 ・2021年 クラウドデータベース管理システム 両部門でリーダーを獲得した唯一のクラウドベンダー
© 2023/3/16 Knowledge Communication Co., Ltd. どうアプローチをしていけばいいか Databricks がなぜここまで伸びているか 今まで
基盤の組み合わせが前提 これから 基盤検討ではなく価値想像へ
© 2023/3/16 Knowledge Communication Co., Ltd. 提供される分析のための機能 37
38 Databricks SQL : SQL検索やダッシュボード利用を簡易に Databricks Notebook & AutoML :
SQL/PythonベースのプログラミングからAutoMLまで Databricks Delta Live Table : データパイプライン、データ品質管理 Databricks Unity Catalog : データ辞書、データリネージ Data + AI 民主化を加速 させる新機能
© 2023/3/16 Knowledge Communication Co., Ltd. どうアプローチをしていけばいいか 分析アプローチ手法が公開されているツール群の提供
© 2023/3/16 Knowledge Communication Co., Ltd. どうアプローチをしていけばいいか は、 (出典)fetaro さん資料
: BigQuery と Snowflake を徹底比較 - Speaker Deck より 2.6%
© 2023/3/16 Knowledge Communication Co., Ltd. アーキテクチャで考えるデータ活用 Databricks の利用開始までのプロセス 購入の意思決定
Order Form Private Offer の作成 お客様による購入 ご請求 Private Offer 契約までの流れ お客様とDatabricksで 価格、支払い条件、 契約期間を合意 お客様とDatabricksで Order Formを締結 Databricksがお客 様にPrivate Offer のリンクを送付 します お客様はAWS Marketplaceにログイ ンし、“Create Contract”をクリック 。 この後すぐに Databricksにアクセス 可能です AWSよりお客様に請 求。AWSの支払い条 件が適用されます Private Offerの内 容はお客様のア カウントからの みご確認いただ けます
© 2023/3/16 Knowledge Communication Co., Ltd. まとめ 42
© 2023/3/16 Knowledge Communication Co., Ltd. AWS上でデータ活用を どのように始めるか?
© 2023/3/16 Knowledge Communication Co., Ltd. システム データ基盤を 取り巻く課題 考えるべきテーマ
ビジネス システム 人
© 2023/3/16 Knowledge Communication Co., Ltd. 45 今日お話したこと 1. ビジネスとシステムの間には「データ」
2. 溜めるだけでは活用へ進まない 3. 始めるためのサービスがあります!
© 2023/3/16 Knowledge Communication Co., Ltd. まとめ ぜひチャレンジしてみましょう / 的なことを書く
データの領域はまだまだ未開拓 一緒にチャレンジしていきましょう!
© 2023/3/16 Knowledge Communication Co., Ltd. 終わり ▪ナレコムAWSレシピ https://recipe.kc-cloud.jp/ ▪Databricks導入支援
特設ページ https://www.knowledgecommunication.jp/product/databricks.html ▪AWS での分析:モダンデータアーキテクチャ https://aws.amazon.com/jp/big-data/datalakes-and-analytics/modern-data-architecture/ ▪Databricks:ソリューションアクセラレータ https://www.databricks.com/jp/solutions/accelerators/survivorship-and-churn 関連情報