Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DataとAIの民主化を実現する次世代データ分析基盤 “レイクハウス“のこれから

DataとAIの民主化を実現する次世代データ分析基盤 “レイクハウス“のこれから

[データブリックス レイクハウス プラットフォームにおける最新動向 LT大会 登壇資料]
長谷川 亮氏 (データブリックス)

イベント開催日:2023年7月26日

イベントの趣旨:
データブリックス社とエーピーコミュニケーションズ共同開催のLTイベントです。
6月にサンフランシスコで行われたDatabricks社主催の世界最大のデータ&分析&AIをテーマにしたカンファレンス「DATA+AI SUMMIT 2023」の内容から、関連した情報や今後のDatabricksにおける技術情報などをテーマとしています。
データ分析基盤に少しでも興味のある方、データブリックスやLLM(大規模言語モデル)、AIなどデータ分析基盤の導入を検討中のユーザー様を対象にしています。

アーカイブ動画:https://youtu.be/RDcjUBjygBI

More Decks by AP Communications Co., Ltd.

Other Decks in Technology

Transcript

  1. ©2023 Databricks Inc. — All rights reserved Databricks The data

    and AI company DataとAIの民主化を実現する 次世代データ分析基盤 “レイクハウス“のこれから お問合せ先 [email protected]
  2. ©2023 Databricks Inc. — All rights reserved LT1:Generative AIとDatabricks 1

    Agenda:本日やること LT2:LLMOpsをレイクハウスで実現するには 2 LT3:データブリックスとデジタルツイン 3 LT4:Databricks ソリューションマーケットプレースとガバナンス 4 LT5:Databricks Assistantについて 5 LT6:MosaicML のプロダクト紹介 6 LT7 MLOpsとエンジニアの進化 7 基調講演 : DataとAIの民主化を実現する“レイクハウス“のこれから
  3. ©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

    2003年 • Apache Hadoopが登場 • GoogleのMapReduce論文を基にした分散処理フレームワークが OSS化 • データベースでは取り扱えなかったファイルベースで分散処理 • 貧弱なネットワークとオンプレミスベースのアーキテクチャ ◦ (オンプレ前提)コンピュート層とデータ層の密結合 • Hadoopがビッグデータの分散処理に新たなアプローチ ◦ HadoopのHDFSでデータを分散保存と分散処理 ◦ MapReduceモデルで並列処理 することで、大規模データの処理が実現 並列分散処理のMap Reduceフレームワークの登場
  4. ©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

    2006-2010 2006年 • Amazon Web Services (AWS) がElastic Compute Cloud (EC2) や 安価なオブジェクトストレージ S3をリリース • クラウド上でのデータ処理が広まり、スケーラビリティと柔軟性が向上 • コンピュート層とストレージ層の分離が始まる 2003年 クラウドサービスの登場で、コンピュート層とデータ層が分離
  5. ©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

    2006-2010 2008年 2006年 2003年 • Apache PigとApache Hive:Hadoopのサブプロジェクト Hadoop上でのJAVAベースのデータ処理の抽象化が進む Pig言語やHiveクエリを使って、 SQLベースで複雑なデータ処理を簡略化 データ処理の抽象化が始まる
  6. ©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

    2006-2010 2008年 2006年 2003年 2010年 • Spark: インメモリ処理を活用 ◦ 中間データの書き込みを HDFSではなくメモリ上で行う ことで、 データ処理の速度向上 ◦ リアルタイム分析や反復的処理をサポート し、従来のMapReduceよりも 高速なデータ処理を可能にした MapReduceのインメモリ化と抽象化(Dataframeへの移行)開始
  7. ©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

    2006-2010 2011-2015 2008年 2006年 2003年 2010年 2011年 • kafka/fluentd: ストリームデータの収集とリアルタイムなデータパイプラインの需要 が高ま り、kafka/fluentdで効率的なデータ処理が実現 ◦ Kafkaは高スループットでストリームデータを配信 ◦ Fluentdはログデータの収集と転送を実現 データの中継についても、エコシステムを拡大
  8. ©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

    2006-2010 2011-2015 2008年 2006年 2003年 2010年 2012年 2014年 2016年 2011年 2016-2020 • Luigi/Kedro:データプロジェクトの管理と再現性の重要性 が認識 され、データ処理の依存関係を定義、プロジェクトの構造化と管 理を容易に。 • NiFi:データフローの可視化と管理 を提供し、データのリアルタイ ムな転送や変換を容易にした • Airflow:データパイプラインの自動化と監視 の需要が高まり、タ スクの依存関係とスケジューリングを定義し、データ処理の自動 化を実現した。柔軟なワークフローの設計と可視化が可能で、 データエンジニアリングの生産性向上に貢献 更なるデータ処理の抽象化、構造化、UIが進化
  9. ©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

    2006-2010 2011-2015 2008年 2006年 2003年 2010年 2012年 2014年 2016年 2011年 2015年 2016-2020 • great expectations: データ品質の保証とデータの妥当性を検証する必要性 が高まり、オープンソース のGreat Expectationsは、データの期待値と実際の結果を検証する ライブラリとして、データの信頼性と品質の向上に寄与。 データ品質を担保するためのフレームワークも登場
  10. ©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

    2006-2010 2011-2015 2008年 2006年 2003年 2010年 2012年 2014年 2016年 2011年 2015年 2016年 2016-2020 • datahub: Linkedinが開発したオープンソースの データカタログ・メタデータ管理プラットフォーム データベースやデータセットのメタデータを中央リポジトリに保存 し、メタデータの検索、探索、可視化、共有が可能 • Others : Apache Atlas, OpenMetaData, Amundsen Lyft..etc メタデータとデータカタログを管理し、データの民主化へ
  11. ©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

    2006-2010 2011-2015 2008年 2006年 2003年 2010年 2012年 2014年 2016年 2011年 2016-2020 2015年 2016年 2016年 2016年 2018年 2017年 • TensorFlow: Googleが機械学習ライブラリ をオープンソースでリリース その後機能拡張されモデルサービングまでカバーする • kubeflow: Kubernetes上で機械学習ワークフローを管理 、機械学習モデルの バージョン管理からデプロイメントを実現 • Mlflow:機械学習ライフサイクル管理プラットフォーム 機械学習プロジェクト 管理、追跡、共有、再現性の確保 を実現 機械学習ライブラリ、ワークフローの抽象化 2016年
  12. ©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

    2006-2010 2011-2015 2008年 2006年 2003年 2010年 2012年 2014年 2016年 2011年 2016-2020 2015年 2016年 2016年 2016年 2018年 2017年 2019年 • delta: Databricksが開発したオープンソース Parquetのオープンフォーマットをベース に、データレイクにおける 高度なトランザクション性とデータのバージョン管理 を導入 • Iceberg: Netflixが開発したオープンソース Parquetのオープンフォーマットをベース に、データレイク内での 大規模データセットの効率的な管理 とクエリが可能 • hudi:Uber Technologiesが開発したオープンソース parquetのオープンフォーマットをベース に、 大規模なデータレイクでの データ更新と増分処理の管理 が可能 ファイルベースのデータフォーマットの進化
  13. ©2023 Databricks Inc. — All rights reserved Big Dataの変遷と現在 2001-2005

    2006-2010 2011-2015 2008年 2006年 2003年 2010年 2012年 2014年 2016年 2011年 2016-2020 2015年 2016年 2016年 2016年 2018年 2017年 2021-現在 2021年 • mosaicML: 大規模言語モデル( LLM)をオープンソースとして提供 しており、品質を保ち つつもパラペータ数が少ないため、ローカル環境でも自国しやすく推論コスト を安価に抑えることが可能 • Hugging Face:機械学習アプリケーションを作成するためのツール であり、 種々のオープンソースの言語モデルを扱うことができる Hub機能があり、オン プレ・クラウドの双方に対応 • LangChain:大規模言語モデル( LLM)を使ったアプリケーション開発を簡素 化するためのフレームワーク • ENGLISH SDK for Spark:ENGLISHをプログラミング言語に! をコンセプト に、LLMをコンパイラとして ENGLISHからpysparkコードを生成 Big Dataに関する抽象化とAI/MLの機能を統合していく流れに
  14. ©2023 Databricks Inc. — All rights reserved Lakehouse Unified Analytics

    Platform BIツール・レポーティング ストリーミング データサイエンス / 機械学習 データウェアハウス ジョブ実行 オーケストレーション Big Dataの進化を 全て取り込む
  15. ©2023 Databricks Inc. — All rights reserved Our strategy in

    one word Lakehouse Platform Lakehouse Unified Analytics Platform BIツール・レポーティング ストリーミング データサイエンス / 機械学習 データウェアハウス ジョブ実行 オーケストレーション • DATAとAIの中央集権的ガバナンス • シンプルなMLOpsからLLMOps iPhone のように データAI活用を一つに