Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

2024年のModern Data Stackを振り返ろう~分野別の目玉アップデート情報まとめ~

Sagara
December 10, 2024

2024年のModern Data Stackを振り返ろう~分野別の目玉アップデート情報まとめ~

2024/12/10に開催されたData Engineering Study #27「2024年のModern Data Stackを振り返ろう~分野別の目玉アップデート情報まとめ~」の登壇資料です。

Sagara

December 10, 2024
Tweet

More Decks by Sagara

Other Decks in Technology

Transcript

  1. ⾃⼰紹介 2 • 2020年9⽉ ⼊社 ◦ Modern Data Stackに該当する製品の 技術⽀援‧プリセールスを担当 ◦

    新しい技術情報を定期的に収集し、 ブログで情報発信 • 部署‧役割 ◦ Modern Data Stackチーム テックリード • 名前(ニックネーム) ◦ 相樂 悟 (さがら) • 最近のトピック ◦ ⼦どもが1歳になりました!
  2. ⽬次 4 • 前置き ◦ Modern Data Stackとは ◦ 対象分野‧製品

    • 今年の主要アップデート情報まとめ • 2025年以降のアップデート予想 • 最後に
  3. ⽬次 5 • 前置き ◦ Modern Data Stackとは ◦ 対象分野‧製品

    • 今年の主要アップデート情報まとめ • 2025年以降のアップデート予想 • 最後に
  4. 私が定期調査している分野‧製品 7 下記の製品のブログやリリースノートを2週間毎にざっとチェックしています • Data Extract/Load ◦ Fivetran、Airbyte、dlt、Omnata • Data

    Warehouse/Data Lakehouse ◦ Snowflake、BigQuery、Redshift、Databricks、Onehouse、DuckDB/MotherDuck、Starburst • Data Transform ◦ dbt、Datacoves、Dataform、SDF、SQLMesh、Coalesce • Semantic Layer ◦ dbt Semantic Layer、Cube、AtScale、Honeydew • Business Intelligence ◦ Looker、Tableau、Power BI、Sigma、ThoughtSpot、Hex、Preset、Lightdash、Omni、Steep • Data Catalog ◦ Atlan、Select Star、Secoda、CastorDoc、Alation、OpenMetadata • Data Activation (Reverse ETL) ◦ Hightouch、Census • Data Observability‧Data Quality ◦ Monte Carlo、Sifflet、Acceldata、Metaplane、Decube、Anomalo、Soda、Datafold、Great Expectations、Recce、Elementary、re_data • Data Orchestration ◦ Dagster、Prefect、Astronomer、Kestra、Mage、Orchestra
  5. 私が定期調査している分野‧製品 8 下記の製品のブログやリリースノートを2週間毎にざっとチェックしています • Data Extract/Load ◦ Fivetran、Airbyte、dlt、Omnata • Data

    Warehouse/Data Lakehouse ◦ Snowflake、BigQuery、Redshift、Databricks、Onehouse、DuckDB/MotherDuck、Starburst • Data Transform ◦ dbt、Datacoves、Dataform、SDF、SQLMesh、Coalesce • Semantic Layer ◦ dbt Semantic Layer、Cube、AtScale、Honeydew • Business Intelligence ◦ Looker、Tableau、Power BI、Sigma、ThoughtSpot、Hex、Preset、Lightdash、Omni、Steep • Data Catalog ◦ Atlan、Select Star、Secoda、CastorDoc、Alation、OpenMetadata • Data Activation (Reverse ETL) ◦ Hightouch、Census • Data Observability‧Data Quality ◦ Monte Carlo、Sifflet、Acceldata、Metaplane、Decube、Anomalo、Soda、Datafold、Great Expectations、Recce、Elementary、re_data • Data Orchestration ◦ Dagster、Prefect、Astronomer、Kestra、Mage、Orchestra ⾚字の分野を中⼼にお話します
  6. ⽬次 9 • 前置き ◦ Modern Data Stackとは ◦ 対象分野‧製品

    • 今年の主要アップデート情報まとめ ◦ Data Extract/Load ◦ Data Warehouse/Data Lakehouse ◦ Data Transform ◦ Semantic Layer ◦ Business Intelligence ◦ Data Activation (Reverse ETL) • 2025年以降のアップデート予想 • 最後に
  7. Airbyte 1.0がリリース 10 • 2024年9⽉に、Airbyte初のメジャーバージョンである1.0がリリース (以下、1.0の主要機能を紹介) • Connector BuilderにおけるAI Assistant(右図)

    ◦ APIドキュメントのリンクを貼るだけで、 Connector Builderの主要項⽬を⾃動で⼊⼒ ◦ 2024年12⽉時点、Beta機能 • Self-Managed Enterpriseの⼀般提供開始 ◦ ユーザー⾃⾝の環境にホストできる Airbyte Cloud(Airbyte社のサポートがある) ◦ セキュリティ要件が厳しいユーザー向け
  8. Fivetranもユーザー側でコネクタを作成可能に 12 • 2024年11⽉にConnector SDKをFivetranがリリース ※2024年12⽉時点、Beta機能 • Connector SDKを使うと、Fivetranと同じ機能を備えたコネクタを開発可能 ◦

    増分更新 ◦ ソースデータの型の推論 ◦ スキーマ定義の⾃動更新 ◦ レコードの論理削除 • これまで通り、By Request programよりユーザーからFivetranにリクエストして コネクタを開発してもらうことも可能
  9. ⽬次 14 • 前置き ◦ Modern Data Stackとは ◦ 対象分野‧製品

    • 今年の主要アップデート情報まとめ ◦ Data Extract/Load ◦ Data Warehouse/Data Lakehouse ◦ Data Transform ◦ Semantic Layer ◦ Business Intelligence ◦ Data Activation (Reverse ETL) • 2025年以降のアップデート予想 • 最後に
  10. 各製品のレイクハウス関連の動きが活発に 15 • 前提知識:レイクハウスって何がいいの? ◦ ユーザー管理のS3などのクラウドストレージで全てのデータを保存できる ◦ クエリの実⾏環境を柔軟に選択できる(例:ユーザー管理のSparkのサーバーなど) • Databricks

    ◦ 2024年6⽉にUnity CatalogをOSSとしてリリース • Snowflake ◦ 2024年6⽉にPolaris Catalogを発表 ※その後、Apache Polarisに名称変更しOSSとしてリリース ◦ 2024年10⽉にApache PolarisのSaaS版としてSnowflake Open Catalogが⼀般提供 • BigQuery ◦ 2024年10⽉にBigQuery tables for Apache Icebergがパブリックプレビュー • AWS ◦ 2024年12⽉にSageMaker Lakehouse、S3 Tablesがプレビューでリリース
  11. Snowflakeがより広い領域をカバーするように 16 • MLOpsをサポートする各機能 ◦ 2024年5⽉にModel Registry、2024年9⽉にFeature Storeが⼀般提供 • Notebookを⽤いた分析環境

    ◦ 2024年11⽉にSnowflake Notebooksが⼀般提供 ※Container Runtimeはプレビュー • GPUも選択可能なコンテナアプリ‧プログラムの実⾏環境 ◦ 2024年8⽉にAWS上のアカウントでSnowpark Container Servicesが⼀般提供 • OLTP‧OLAPどちらのワークロードにも対応 ◦ 2024年10⽉にHybrid tablesが⼀般提供 • データカタログに近しい機能 ◦ 2024年6⽉にアカウント内オブジェクトを検索できるUniversal Searchが⼀般提供 ◦ 2024年11⽉にオブジェクト間のリネージを表⽰できる機能がプレビュー • Semantic Layer×LLMの分析環境 ◦ 2024年8⽉にCortex Analystがプレビュー
  12. DuckDBがver1.0をリリース、MotherDuckが⼀般提供 18 • 2024年6⽉にDuckDBがver1.0をリリース、MotherDuckが⼀般提供 ※以下、DuckDB/MotherDuckで気になったアップデートを紹介 • PostgreSQL上のDuckDBでOLAPワークロードを処理するpg_duckdb ◦ PostgreSQLのデータはそのままに、分析⽤途のクエリもDuckDBで⾼速に処理 ◦

    参考記事:pg_duckdb - PostgreSQL プロセス上の DuckDB で OLAP ワークロードを処理する • Unity Catalogに関するExtensionを開発‧検証中 ◦ DuckDBからUnity Catalogで定義されたレイクハウス上のテーブルに接続できるかも? • GoogleスプレッドシートのデータをRead/Writeできるduckdb_gsheets ◦ BigQueryのコネクテッドシートを使⽤せずとも、スプレッドシート上のデータを ⽤いた分析が容易に
  13. ⽬次 19 • 前置き ◦ Modern Data Stackとは ◦ 対象分野‧製品

    • 今年の主要アップデート情報まとめ ◦ Data Extract/Load ◦ Data Warehouse/Data Lakehouse ◦ Data Transform ◦ Semantic Layer ◦ Business Intelligence ◦ Data Activation (Reverse ETL) • 2025年以降のアップデート予想 • 最後に
  14. dbt Cloudがより独⾃性を持ったプロダクトに 20 • 2024年5⽉にdbt Meshが⼀般提供 ◦ 複数のdbt project間でのref関数での参照や、dbt Modelのバージョン管理(Versions)、

    データ型の統制(Contracts)、Modelのアクセス制御(Access‧Groups)が可能となる • 2024年10⽉にdbt Explorerがよりカタログとしての機能強化 ※プレビュー ◦ 各Modelのクエリ回数の確認 ◦ dbt ModelとTableau間のリネージの可視化
  15. dbt-coreも新機能をリリース 21 • 2024年12⽉のdbt-core ver1.9でmicrobatchが追加 ◦ クエリサイズを⽇時で分割できる、 新しいIncremental Model ◦

    ある過去時点のデータを更新したい場合、 従来のIncremental Modelよりも容易に可能 ◦ 右図は公式Docより • 2024年5⽉のdbt-core ver1.8でUnit testsが追加 ◦ 各Modelに「加⼯前のデータ」「加⼯後の正解となるデータ」をモックデータとして与 え、加⼯前のデータを実際にModelに書いたSQLで処理して、正解となるデータと 実際に値が合っているかを確認できる、単体テスト機能
  16. dbtの対抗⾺がDataform以外にも出始めました 22 • SDF ◦ 2024年6⽉にOSSとして提供開始、SaaSとしても販売開始 ◦ SQLを解析して⾃動で依存関係を判断したり、 ローカルでのコンパイル時にエラーを検知する仕組みなどがある •

    SQL Mesh ◦ 2023年2⽉にOSSとして提供開始、 2024年6⽉にSaaS版をTobiko Cloudとして販売開始 ◦ SQLを解析して⾃動で依存関係を判断したり、 dbtよりも早く⽇時で分割した増分処理を提供している
  17. ⽬次 23 • 前置き ◦ Modern Data Stackとは ◦ 対象分野‧製品

    • 今年の主要アップデート情報まとめ ◦ Data Extract/Load ◦ Data Warehouse/Data Lakehouse ◦ Data Transform ◦ Semantic Layer ◦ Business Intelligence ◦ Data Activation (Reverse ETL) • 2025年以降のアップデート予想 • 最後に
  18. SnowflakeがCortex AnalystでSemantic Layerにも参⼊ 24 • 2024年8⽉にCortex Analystがプレビュー ◦ Snowflake内のテーブルデータに関して、 LLMを⽤いた質問を⾏えるAPIを提供する機能

    ◦ yaml形式のSemantic Modelを定義することで、 データの背景情報(コンテキスト)を提⽰ ◦ 右図はSlackからCortex Analystを使⽤した例 ※Dash⽒のブログより引⽤ • LookMLやdbt Semantic LayerのコードをCortex AnalystのSemantic Modelの コードに変換するsemantic-model-generatorも提供されている
  19. dbt Semantic Layerも対応範囲と機能が拡⼤ 25 • 対応ツールが増えています ◦ 2024年10⽉にPythonから参照するためのPython SDKが⼀般提供 ◦

    2024年10⽉にExcelから参照するためのExcel add-onが⼀般提供 ◦ 2024年5⽉にTableau、Google Sheetsからの参照機能が⼀般提供 ◦ 他のサードパーティもdbt Semantic Layerに対応する機能を発表‧リリース ▪ Hex、Lightdash、Sigma、Steep、など • 2024年9⽉にdbt Cloud IDE上でSemantic Layerを参照するコマンドが⼀般提供 • dbt Copilotでdbt Semantic Layerのコードを ⾃動⽣成する機能 ※プライベートプレビュー
  20. Cubeも多くの機能をリリース 26 • 2024年10⽉にVisual Modelerをリリース ◦ GUIベースでディメンションやメジャーを定義 ◦ 結合定義もカラム間のマウス操作で(右上図) •

    2024年6⽉にSemantic Catalogをリリース ◦ Cube上の各アセットに関するカタログ • 2024年5⽉にChart Prototypingをリリース ◦ Cube上で作成したグラフを⽣成する フロントエンドのコードを⽣成する機能 (右下図)
  21. ⽬次 27 • 前置き ◦ Modern Data Stackとは ◦ 対象分野‧製品

    • 今年の主要アップデート情報まとめ ◦ Data Extract/Load ◦ Data Warehouse/Data Lakehouse ◦ Data Transform ◦ Semantic Layer ◦ Business Intelligence ◦ Data Activation (Reverse ETL) • 2025年以降のアップデート予想 • 最後に
  22. TableauはSalesforceとより統合する⽅向性に 28 • 2024年9⽉にSalesforce上にTableauとAIを 組み込んだTableau Einsteinを発表 ◦ セールスやマーケターなどビジネス寄りの ユーザーにとってデータ分析がより⾝近に •

    2024年2⽉にMetricsを定義するタイプの 新機能としてTableau Pulseをリリース ◦ GUIベースでMetricsを定義し、各Metricsの変化を 時系列で確認‧配信できる機能 ◦ 2024年10⽉、dbt Semantic Layerとの連携も発表
  23. 個⼈的に注⽬しているBIツール:「Steep」と「Omni」 30 • Steep ◦ 事前にMetricsの定義を⾏い、 ⾮常にシンプルなUIで分析が⾏えるBIツール ◦ dbt Semantic

    LayerやCubeとの連携も可能な、 「Metricsファースト」な製品 • Omni ◦ GUIベースで定義したメジャーや結合定義を ⾃動でコード化したり、スプレッドシートライクな 操作で集計結果の加⼯も⾏えるBIツール ◦ 集計結果をdbtのModelとして書き出せる ◦ 個⼈的に「Tableau+Looker+Sigma」の 良い所取りと感じる製品
  24. ⽬次 31 • 前置き ◦ Modern Data Stackとは ◦ 対象分野‧製品

    • 今年の主要アップデート情報まとめ ◦ Data Extract/Load ◦ Data Warehouse/Data Lakehouse ◦ Data Transform ◦ Semantic Layer ◦ Business Intelligence ◦ Data Activation (Reverse ETL) • 2025年以降のアップデート予想 • 最後に
  25. HightouchはAI機能とCDP機能を強化 32 • 2024年9⽉にAI Decisioningを発表 ◦ Hightouch側でセグメンテーションや A/Bテストなどを⾃動で制御してくれる機能 • 2024年5⽉にJourneysをリリース

    ◦ カスタマーの属性に応じて配信先を切り替えることが できるフローチャートを作成できる機能(右上図) • 2024年5⽉にCampaign Intelligenceをリリース ◦ Hightouch上でキャンペーンの施策結果を 分析できる機能(右下図)
  26. Censusはデータを活⽤するプラットフォームとしての機能を強化 33 • 2024年7⽉にUniversal Data Platformを発表 ◦ データチームとビジネスチームが共に データを管理していくための機能を 備えたプラットフォーム、という

    Censusの今後の⽅向性をまとめたもの • 2024年8⽉にGPT Columnsをリリース ◦ プロンプトを⼊⼒することで、指⽰内容に 沿ったカラムを追加できる機能(右下図)
  27. ⽬次 34 • 前置き ◦ Modern Data Stackとは ◦ 対象分野‧製品

    • 今年の主要アップデート情報まとめ ◦ Data Extract/Load ◦ Data Warehouse/Data Lakehouse ◦ Data Transform ◦ Semantic Layer ◦ Business Intelligence ◦ Data Activation (Reverse ETL) • 2025年以降のアップデート予想 • 最後に
  28. ⽣成AI系の機能がより実⽤的かつ容易なものとなっていく 36 • 2024年はDWH‧BIツール‧データカタログなど、 あらゆる分野で⽣成AIを組み込んだ機能が追加されました • しかし、実⽤性を伴ったものがまだ少ない印象です ◦ ⽇本語に対応していない ◦

    想定通りのデータ‧グラフを⽣成AIが出してくれない • この⽣成AIの機能が、Semantic Layerも絡めてより実⽤的になると予想します (以下、個⼈的に出てきてほしいアップデート) ◦ Snowflake Cortex Analystの⽇本語対応 ◦ LookerのSemantic Layer × Geminiのネイティブ対応(Explore Assistantを使⽤せずに) ◦ dbt Semantic LayerやCube × ⽣成AI機能の強化
  29. Data Contracts、Data Meshなどの新興分野の動向にも注⽬ 37 • Data Contracts ◦ データの⽣産者と消費者の間で合意された、データの構造‧品質に関する 明確な仕様や期待値を定義するもの

    ◦ 個⼈的に注⽬している企業‧製品 ▪ Gable(Convoy社という貨物技術スタートアップのメンバーが創業した会社) ▪ Data Contract Manager(INNOQ社が提供) • Data Mesh ◦ 中央集権的なアプローチで管理するのではなく、各ビジネスドメインへ権利を分散して データを管理していく考え ◦ 個⼈的に注⽬している企業‧製品 ▪ Nextdata(Data Meshの概念を考えたZhamak Dehghani⽒が創業した会社) ▪ Data Mesh Manager(上述のData Contract Managerと同じINNOQ社が提供)
  30. ⽬次 38 • 前置き ◦ Modern Data Stackとは ◦ 対象分野‧製品

    • 今年の主要アップデート情報まとめ ◦ Data Extract/Load ◦ Data Warehouse/Data Lakehouse ◦ Data Transform ◦ Semantic Layer ◦ Business Intelligence ◦ Data Activation (Reverse ETL) • 2025年以降のアップデート予想 • 最後に