Upgrade to Pro — share decks privately, control downloads, hide ads and more …

激動の2025年、Modern Data Stackの最新技術動向

Avatar for Sagara Sagara
November 06, 2025

激動の2025年、Modern Data Stackの最新技術動向

2025年11月6日に開催されたData Engineering Summitでの登壇資料です。

Avatar for Sagara

Sagara

November 06, 2025
Tweet

More Decks by Sagara

Other Decks in Technology

Transcript

  1. ⾃⼰紹介 2 • 2020年9⽉ ⼊社 ◦ Modern Data Stackに該当する製品の 技術⽀援‧プリセールスを担当 ◦

    新しい技術情報を定期的に収集し、 ブログで情報発信 • 部署‧役割 ◦ Modern Data Stackチーム テックリード • 名前(ニックネーム) ◦ 相樂 悟 (さがら)
  2. 私が定期調査している分野‧製品 7 下記の製品のブログやリリースノートを2週間毎にざっとチェックしています • Data Extract/Load ◦ Fivetran、Airbyte、Meltano、Snowplow、dlt、Omnata • Data

    Warehouse/Data Lakehouse ◦ Snowflake、BigQuery、Redshift、Databricks、ClickHouse、Onehouse、DuckDB/MotherDuck、Starburst、LakeFS、Bauplan • Data Transform ◦ dbt、Datacoves、Dataform、Coalesce • Semantic Layer ◦ dbt Semantic Layer、Cube、AtScale、Honeydew • Business Intelligence ◦ Looker、Tableau、Power BI、Sigma、ThoughtSpot、Hex、Preset、Lightdash、Omni、Steep、Evidence • Data Catalog ◦ Atlan、Select Star、Secoda、Alation、OpenMetadata • Data Activation (Reverse ETL) ◦ Hightouch、Census • Data Observability‧Data Quality ◦ Monte Carlo、Sifflet、Acceldata、Decube、Anomalo、Soda、Datafold、Great Expectations、Recce、Elementary、re_data • Data Orchestration ◦ Dagster、Prefect、Astronomer(Airflow)、Kestra、Mage、Orchestra
  3. 私が定期調査している分野‧製品 8 下記の製品のブログやリリースノートを2週間毎にざっとチェックしています • Data Extract/Load ◦ Fivetran、Airbyte、Meltano、Snowplow、dlt、Omnata • Data

    Warehouse/Data Lakehouse ◦ Snowflake、BigQuery、Redshift、Databricks、ClickHouse、Onehouse、DuckDB/MotherDuck、Starburst、LakeFS、Bauplan • Data Transform ◦ dbt、Datacoves、Dataform、Coalesce • Semantic Layer ◦ dbt Semantic Layer、Cube、AtScale、Honeydew • Business Intelligence ◦ Looker、Tableau、Power BI、Sigma、ThoughtSpot、Hex、Preset、Lightdash、Omni、Steep、Evidence • Data Catalog ◦ Atlan、Select Star、Secoda、Alation、OpenMetadata • Data Activation (Reverse ETL) ◦ Hightouch、Census • Data Observability‧Data Quality ◦ Monte Carlo、Sifflet、Acceldata、Decube、Anomalo、Soda、Datafold、Great Expectations、Recce、Elementary、re_data • Data Orchestration ◦ Dagster、Prefect、Astronomer(Airflow)、Kestra、Mage、Orchestra ⾚字の分野を中⼼にお話します
  4. ⽬次 9 • 前置き • 今年の主要アップデート情報まとめ ◦ 企業買収‧合併 ◦ Data

    Extract/Load ◦ Data Warehouse/Data Lakehouse ◦ Data Transform ◦ Semantic Layer ◦ Business Intelligence ◦ Data Catalog ◦ Data Orchestration • 2026年以降の動向予想 • 最後に
  5. Fivetranとdbtの合併:新しいビジョン「Open data infrastructure」 11 • 特定のコンピュートエンジンに依存せず、標準規格による連携を重視した データインフラ。統合の⼿間を省きつつ、コンピュートの選択肢を柔軟にする考え • Modern Data

    Stackのツールの多さに起因した統合の複雑さ、 All-in-oneプラットフォームの⾼コストやベンダーロックイン、 という課題解決に向けたビジョン • 参考:dbt Labs社のブログ
  6. 特筆すべき買収その1:dbt Labs社によるSDF社の買収 13 • dbt Labs社が2025年1⽉にSDF社を買収 • SDFとは ◦ dbtと同じく、DB/DWH内でのデータ変換に特化したサービス

    ◦ Rust製による動作速度の速さ、カラムレベルの情報伝播などが強み • 買収後の動き ◦ SDFの機能を新しいdbtのエンジン「Fusion」としてリリース ※Fusionについては後述します
  7. ⽬次 16 • 前置き • 今年の主要アップデート情報まとめ ◦ 企業買収‧合併 ◦ Data

    Extract/Load ◦ Data Warehouse/Data Lakehouse ◦ Data Transform ◦ Semantic Layer ◦ Business Intelligence ◦ Data Catalog ◦ Data Orchestration • 2026年以降の動向予想 • 最後に
  8. ⽣成AI×データロード分野の各社のアピール 18 • Fivetran ◦ Fivetran⽤のコネクタを独⾃に開発できるConnector SDKを⽤いて、 Claude Codeで1時間未満でFivetran⽤のコネクタを開発する事例 ◦

    参考:Fivetran社のブログ • dlt(データロード⽤のPythonライブラリ) ◦ dltでデータパイプラインを構築し、DuckDBにデータを格納、Visivoでインタラ クティブなダッシュボードを作成するプロセスをClaude Codeで実⾏した事例 ◦ 参考:dlt社のブログ
  9. Snowflake‧Databricksもデータロード分野の機能拡充 19 • Snowflake ◦ ⾮構造化データ、構造化データ、問わず 対応するOpenflowをリリース ◦ 参考:公式Doc •

    SAP連携(Snowflake‧Databricks共に) ◦ SAP Business Data Cloudとの双⽅向の ライブデータ共有をゼロコピーで⾏える機能 ◦ SAPの拡張機能として動く、 SAP Databricks、SAP Snowflake
  10. ⽬次 20 • 前置き • 今年の主要アップデート情報まとめ ◦ 企業買収‧合併 ◦ Data

    Extract/Load ◦ Data Warehouse/Data Lakehouse ◦ Data Transform ◦ Semantic Layer ◦ Business Intelligence ◦ Data Catalog ◦ Data Orchestration • 2026年以降の動向予想 • 最後に
  11. AIをより⾝近に使いやすくするための導線が増えてきた 21 • Snowflake:Snowflake Intelligence ◦ 事前定義したCortex SearchとCortex Analystへ ⾃然⾔語で質問できるエージェント機能

    ◦ 参考:⾃分の検証ブログ • Databricks:Databricks One ◦ ビジネスユーザーが⾃然⾔語で質問することで 該当するダッシュボードやグラフを表⽰する機能 • BigQuery:Gemini Enterprise(旧称Agentspace) ◦ Gemini EnterpriseからBigQueryのデータに 接続できるData Insights agentがプレビュー
  12. 各プラットフォーム内での開発機能強化 22 • Snowflake ◦ Gitと連携したIDE機能、Workspace ◦ dbtの開発が⾏えるdbt Projects on

    Snowflake ▪ 参考:⾃分の検証ブログ • Databricks ◦ Lakeflow Pipelines Editor ◦ Lakeflow Declarative Pipelinesの 開発‧デバッグが⾏えるIDE機能
  13. OLTPへの対応強化 23 • Snowflake:Snowflake Postgres ※未リリース ◦ Crunchy Dataが⻑年培ってきた堅牢なエンタープライズ向け機能を Snowflakeプラットフォーム上で提供

    ◦ 100%のPostgreSQL互換 • Databricks:Lakebase ※プレビュー ◦ レイクハウスと統合されたフルマネージドなPostgreSQLデータベース ◦ Lakebase はコンピューティングとストレージを分離しており、 低レイテンシ (10ミリ秒未満) かつ⾼同時実⾏性 (10k qps超) をサポート ◦ 買収したNeonの技術を⽤いた、Gitのようなデータセットのブランチ機能
  14. Iceberg関係の機能強化 25 • Snowflake ◦ 外部のIceberg RESTカタログ上のテーブルへの書き込みサポートをリリース ▪ これまでSnowflakeから外部のIceberg RESTカタログで管理されている

    テーブルは読み取り専⽤だった • Databricks ◦ Unity Catalogで管理するManaged Iceberg tablesがパブリックプレビュー ▪ Unity Catalog Apache Iceberg REST Catalog APIも提供 ◦ Lakehouse Federationを⽤いた外部のIceberg RESTカタログ上のテーブルの 読み取り機能がパブリックプレビュー
  15. Redshift‧BigQueryも⾃動の最適化機能をリリース 26 • RedshiftのMultidimensional Data Layouts(MDDL)が⼀般提供 ◦ 従来の固定列によるソートとは異なり、MDDLは実際のクエリフィルターを分析 して動的にデータを並べ替える仕様。ソートキーがAUTOに設定されたテーブルで は、Redshiftがクエリ履歴を基にMDDLを⾃動適⽤される

    • BigQueryのCMETA(Column Metadata Index)がリリース ※明確にリリースノートでの⾔及はなし ◦ データブロック内の列メタデータ(最⼩値/最⼤値など)を保持するインデックス ◦ クエリプランナーが早期に不要なデータブロックをプルーニングすることで、 スキャン量やスロット使⽤量を削減し、パフォーマンスを向上させる ◦ インデックスはBigQueryによってバックグラウンドで⾃動的に作成‧管理され、 ユーザーによるメンテナンスは不要
  16. 他ベンダーはどう抗っているか 27 • Onehouse(Apache Hudiの創始者が創業した会社) ◦ レイクハウスアーキテクチャ向けに設計されたデータロード機能「OneFlow」 ▪ OneFlowはデータをユーザー⾃⾝のクラウドストレージに保存し、 OneSyncを⽤いて複数のカタログに同期させることで、Trino‧

    Spark‧ Snowflakeなど任意のエンジンでのデータ活⽤を可能にするという仕組み • DuckDB/MotherDuck ◦ メタデータ管理をDBで担う新しいレイクハウスフォーマット「DuckLake」 ▪ 従来のレイクハウスフォーマットと異なり、メタデータ管理をDuckDBや PostgreSQLなどのデータベースで⾏う
  17. ⽬次 28 • 前置き • 今年の主要アップデート情報まとめ ◦ 企業買収‧合併 ◦ Data

    Extract/Load ◦ Data Warehouse/Data Lakehouse ◦ Data Transform ◦ Semantic Layer ◦ Business Intelligence ◦ Data Catalog ◦ Data Orchestration • 2026年以降の動向予想 • 最後に
  18. dbt Fusionと専⽤のVS Code拡張がBeta⇛Previewに 29 • dbt Fusion ◦ 2025年1⽉にSDF社を買収して開発された、Rustベースの新しいdbtエンジン ◦

    加⼯履歴がわかるカラムレベルリネージ、DWHにクエリを発⾏せずエラー検知、 テーブルやカラムの定義元へのリンク、など開発体験を向上させる機能が多い
  19. ⽬次 31 • 前置き • 今年の主要アップデート情報まとめ ◦ 企業買収‧合併 ◦ Data

    Extract/Load ◦ Data Warehouse/Data Lakehouse ◦ Data Transform ◦ Semantic Layer ◦ Business Intelligence ◦ Data Catalog ◦ Data Orchestration • 2026年以降の動向予想 • 最後に
  20. Open Semantic Interchangeの発⾜ 32 • Snowflake、Salesforce、dbt Labsなどが中⼼となり、AIのためのデータ活⽤を促進 する「Open Semantic Interchange

    (OSI)」の発⾜を発表 ◦ 各製品ごとに異なる仕様で散在する断⽚的なSemantic Layerの定義を、オープン な仕様によって標準化し、共通のフレームワーク構築を⽬指すもの ◦ Databricks、Microsoft、Google Cloud、AWSは…?
  21. ⽬次 33 • 前置き • 今年の主要アップデート情報まとめ ◦ 企業買収‧合併 ◦ Data

    Extract/Load ◦ Data Warehouse/Data Lakehouse ◦ Data Transform ◦ Semantic Layer ◦ Business Intelligence ◦ Data Catalog ◦ Data Orchestration • 2026年以降の動向予想 • 最後に
  22. 各BIの主要アップデート 34 • Tableau ◦ Salesforce内で動くBIとして、 Tableau Nextがリリース • Looker

    ◦ Conversational Analyticsがリリース ▪ 参考:⾃分の検証ブログ ◦ LookMLで前期⽐など定義できる、 period_over_periodがリリース ▪ 参考:⾃分の検証ブログ
  23. 新興BIの発展 35 • Hex ◦ 2025年5⽉にシリーズCで 7000万USDの資⾦調達 • Omni ◦

    創業から3年となる2025年3⽉に、 シリーズBで6900万USD資⾦調達 ▪ 評価額6億5000万USDと前年⽐8倍の成⻑
  24. ⽬次 36 • 前置き • 今年の主要アップデート情報まとめ ◦ 企業買収‧合併 ◦ Data

    Extract/Load ◦ Data Warehouse/Data Lakehouse ◦ Data Transform ◦ Semantic Layer ◦ Business Intelligence ◦ Data Catalog ◦ Data Orchestration • 2026年以降の動向予想 • 最後に
  25. どのデータカタログもMCP Serverをリリース 37 • ⽣成AIとの親和性が⾼いデータカタログにおいて、各製品がMCP Serverをリリース ◦ Atlan、Select Star、Secoda、OpenMetadata、など •

    できること ◦ ⾃然⾔語を通じた各アセットの検索 ◦ 説明、タグ、データ品質、所有者、 ⼈気度、などのメタデータ取得 ◦ データリネージについての質問
  26. ⽬次 38 • 前置き • 今年の主要アップデート情報まとめ ◦ 企業買収‧合併 ◦ Data

    Extract/Load ◦ Data Warehouse/Data Lakehouse ◦ Data Transform ◦ Semantic Layer ◦ Business Intelligence ◦ Data Catalog ◦ Data Orchestration • 2026年以降の動向予想 • 最後に
  27. ⽬次 40 • 前置き ◦ Modern Data Stackとは ◦ 対象分野‧製品

    • 今年の主要アップデート情報まとめ ◦ Data Extract/Load ◦ Data Warehouse/Data Lakehouse ◦ Data Transform ◦ Semantic Layer ◦ Business Intelligence ◦ Data Activation (Reverse ETL) • 2026年以降の動向予想 • 最後に
  28. Snowflake‧Databricksの2強時代が続く 42 • 今⽇の登壇内容を⾒ていただくと分かる通り、圧倒的にSnowflakeとDatabricksの トピックが多かったと思います ◦ それだけ、この2製品が魅⼒的な機能リリースを連発していた • 参考:この2製品の動向をウォッチするポイント ◦

    毎年6⽉に開催される両社のイベントは必ず確認 ◦ 情報発信しているアカウントをフォロー ▪ Snowflake:公式アカウント、What's New Bot、国内のData Superhero ▪ Databricks:公式アカウント、@taka_akiさんのQiita
  29. ⽬次 43 • 前置き ◦ Modern Data Stackとは ◦ 対象分野‧製品

    • 今年の主要アップデート情報まとめ ◦ Data Extract/Load ◦ Data Warehouse/Data Lakehouse ◦ Data Transform ◦ Semantic Layer ◦ Business Intelligence ◦ Data Activation (Reverse ETL) • 2026年以降の動向予想 • 最後に
  30. 最後に:今後、何を考慮すればよいか? 44 • SnowflakeとDatabricksの最新動向は確認していきましょう • 「AI-Readyな基盤」を意識しましょう ◦ データモデリング、Semantic LayerなどAIの回答精度を⾼められるデータ整備は⾏えているか ◦

    AIの回答精度を⾼められる、データ品質が担保された基盤か ◦ ⾳声‧画像‧⽂書も対応できる技術があり、パイプラインは整備可能か ◦ 組織固有の、開発ガイドラインやドメイン知識が集約されたドキュメントはあるか (かつ、AIにそのドキュメントをスムーズに渡せるか) ◦ etc • ⼀⽅で、技術はあくまで1つの⼿段であり、以前よりもデータ基盤の構築は楽になってきています ◦ そのため、「どうデータ基盤を普及し事業に貢献するか」の意識が更に重要となります (私⾃⾝への⾃戒も込めて)