Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Iceberg時代をやさしく読み解く - 標準化が進むデータ基盤とOCI -

Avatar for oracle4engineer oracle4engineer PRO
May 21, 2026
14

Iceberg時代をやさしく読み解く - 標準化が進むデータ基盤とOCI -

【2026年5月21日(木)開催 Developer Day 2026】

[T3-2] Iceberg時代をやさしく読み解く - 標準化が進むデータ基盤とOCI -

(参考)デモで行った詳細手順は以下の記事にまとめております。
https://qiita.com/yushibats/items/36ddd7dcb955a7a7bb9a
https://qiita.com/yushibats/items/c65b23462994e8f4c579
https://qiita.com/yushibats/items/291660e52d775b8b995c

Avatar for oracle4engineer

oracle4engineer PRO

May 21, 2026

More Decks by oracle4engineer

Transcript

  1. Yuko Shibata 2 Copyright © 2026, Oracle and/or its affiliates

    クラウド事業統括 製品事業統括 OCI Platform COE本部 Cloud Adoption部 #OCHaCafe @yushibats 今回のデモの詳細手順を Qiitaにアップしています!
  2. アジェンダと本日のゴール Copyright © 2026, Oracle and/or its affiliates 3 3

    Icebergとは? 2 データ基盤の変遷 オープン化の動き 4 OCI / Oracleで の活用 デモとまとめ 1 AI活用に向けた データ基盤とは? ゴール Open Table Formatを、AI時代のデータ基盤の「共通ルール」として理解し Oracle / OCI でどう活かせるのかを持ち帰る。
  3. AI時代のデータ基盤の前提 5 Copyright © 2026, Oracle and/or its affiliates AI活用に向けたデータ基盤を考える

    AI利用は広がっている一方で、多くの企業はまだ全社的なスケール段階に至っておらず、 AIの価値創出にはワークフロー、技術、データ基盤の整備が重要 (McKinsey, 2025) AIは “賢いモデル” “ユースケース”だけではなく、 使えるデータの質・鮮度・意味に支えられる。 問い:AI活用の前に、データを自由に使える状態か?
  4. 「整ったデータ基盤」とは? AI-readyなデータ基盤とは、参照できるデータ量が多いことではない。 → 「必要なときに、正しい意味で、安全に使える状態」で提供されている状態です。 6 Copyright © 2026, Oracle and/or

    its affiliates AI活用に向けたデータ基盤 AI-ready dataがないAIプロジェクトは 2026年までに60%が放棄されるとも予測(Gartner) 1 3 2 4 見つけられる どこに何があるか、責任者と用途が分かる すぐ使える SQL / API / カタログ経由で素早くアクセスできる 信頼できる 鮮度・品質・権限を継続的に確認できる 意味が共有される スキーマ・履歴・利用条件がチームをまたいでそろう (Zhamak Dehghani, “Data Mesh” Data as a Product)
  5. x 分析用データ 例:Snowflake BigQuery 例えばある会社にこんなデータ基盤があるとします 14 Copyright © 2026, Oracle

    and/or its affiliates Before:目的別にデータ基盤を持っている 基幹データ 例:Oracle 顧客管理データ 例:Salesforce … 部署毎の DWHなど リアルタイムデータ 加工済みデータ AIを活用して こんな分析をしたい! 統合したデータ活用
  6. 分析用データ 例:Snowflake BigQuery Open Table Formatの利用を前提とするオープンなデータ基盤 15 Copyright © 2026,

    Oracle and/or its affiliates After:データを移動・複製せず、低コストなストレージに置いたデータを複数エンジンから柔軟に活用できる 基幹データ 例:Oracle 顧客管理データ 例:Salesforce … AIを活用して こんな分析をしたい! 部署毎の DWHなど 柔軟なデータ基盤 Open Table Format (例:Iceberg) Object Storage 処理エンジン 統合したデータ活用
  7. データ基盤の変遷を振り返ってみよう 17 Copyright © 2026, Oracle and/or its affiliates 集めて分析する基盤から、複数エンジンで同じデータを活用する基盤へ

    DWH専用機 RDB / DWH ビッグデータ データレイク レイクハウス 業務アプリに分散したデータを、集計して中央に集約。データサイロ を解消し、全社横断の分析を実現。 データレイクの「柔軟な蓄積能力」と、DWHの「高度な信頼性・管理性」を統合。Open Table Format により、データガバナンスを担保しつつ、一貫性のあるトランザクション管理を実現。 Netezza等など大量データを高速に処理するため、専用アプライア ンスや並行処理技術(MPP)が普及。DWHの性能課題を克服。 Webログ・位置情報・センサー・画像など、大量かつ多様なデータ が急増。従来DWHでは対応が困難に。 構造化・非構造化データを生データのまま安価なクラウドスト レージに蓄積。柔軟性は高いが、運用・品質管理が課題。 レイクハウスが出てきた 経緯を深堀り
  8. DWH・データレイクの課題 DWHに閉じると… • 大量・多様なデータを入れるとコストが上がる • ログ、半構造化データ、機械学習用データを扱いにくいことが ある • 特定のDWHエンジンに処理が寄りやすい •

    別エンジンで使いたいときにコピーが増える • 将来、製品や基盤を変えづらい データレイクだけだと… • どのファイルが最新か分からない • 更新や削除の整合性を保ちにくい • スキーマや履歴管理が人手による • 複数エンジンが同時に読む・書くと壊れやすい 18 Copyright © 2026, Oracle and/or its affiliates 柔軟の保存先と、DWHのようなテーブル管理を両立させたい どちらかを選ぶというよりは鍵はオープン性 だから必要なのは、保存先の選択ではなく、オープンなテーブル管理。同じデータを安全に共有できる状態にすること。
  9. 求められる基盤の変化:どのDWHに載せるか → どう共有するか DWHかデータレイクか、ではなく、同じテーブル状態をどう共有するか 19 Copyright © 2026, Oracle and/or

    its affiliates 同じデータを並行して活用できる柔軟な基盤へ アプリ・ファイルから中央へデータを集める ↓ 主な用途はBI / レポート ↓ 別用途の度にコピーや再加工が増える 論点:どのDWHを選ぶか Object Storage に置く + OTF と Catalog で意味を共有 + 複数エンジンから使う 論点:どう共有し、どう信頼するか 従来:データを集める これから:テーブル状態を共有する 次は、「複数エンジンから使う」をもう一段具体化します。
  10. 複数エンジンから参照するとは? 20 Copyright © 2026, Oracle and/or its affiliates オープンなデータアーキテクチャの全体

    クエリエンジン カタログ テーブル フォーマット ファイル フォーマット ストレージ AWS Glue Data Catalog json csv
  11. 「テーブルフォーマット」の果たす役割 21 Copyright © 2026, Oracle and/or its affiliates オープンなデータアーキテクチャの全体

    クエリエンジン カタログ テーブル フォーマット ファイル フォーマット ストレージ AWS Glue Data Catalog json csv ↑↓ Open Table Formatでの読み書き ↑↓ メタデータの管理、効率的なデータ操作など
  12. 複数エンジン時代に必要なのは “同じテーブルに見えること” 22 Copyright © 2026, Oracle and/or its affiliates

    同じ場所にファイルがあるだけでは不十分。最新性・整合性・意味を、メタデータとして共有。 schema partition snapshot metadata history / rollback Oracle / SQL Spark Trino BI Open Table Formatが「同じテーブル」として成立させる どの schema が正しいのか、どの partition ルールで管理されているのか、どの snapshot が現在の状態なのか、どのファイル群がテーブルを構成しているのか AI データ(Object Storage) +テーブルとしての意味
  13. Open Table Formatとは OTFは、クラウドストレージにあるデータレイク上のファイル群に「テーブルとしての意味」を与える共通ルール 23 Copyright © 2026, Oracle and/or

    its affiliates オープン化と相互運用性を実現する、テーブルの共通ルール DWH・データレイクの難しさ OTFにて改善 コピーが増える 加工や結合が大変 最新性がわからない ツールに閉じ込められる 同じデータを複数エンジンから参照しやすくする テーブルとして扱えるメタデータを持つ スナップショット管理で状態を明確にできる オープンフォーマットでエンジン選択の自由度を高める DWHのテーブルのように安全かつ一貫性を保ち、複数エンジンからの同じデータを利用できるようする
  14. Open Table Format の代表的な仕様:Apache Iceberg ファイル群そのものではなく、スキーマ・パーティション・スナップショットなどの「テーブル状態」を標準化 25 Copyright © 2026,

    Oracle and/or its affiliates Iceberg は、Object Storage 上のファイル群を、複数エンジンから安全に扱える「テーブル」として管理 Schema evolution 列の追加・削除・リネームなどを安全に管理 Hidden partitioning 利用者がパーティションを意識しなくても最適化しやすい Partition evolution データ量やクエリに応じてパーティション設計を変えられる Snapshot / time travel 履歴・ロールバック・再現性をテーブル単位で扱える 実データはクラウドストレージへ Iceberg メタデータ テーブルとしての意味を持たせる層 同じテーブルを複数エンジンから利用 Spark Trino Flink DWH / Analytics
  15. Icebergの実体と解決する課題 • どのファイルが現在有効か分からない • 更新・削除・同時書き込みの整合性を保ちにくい → テーブルとして管理しずらく、データスワンプ化 26 Copyright ©

    2026, Oracle and/or its affiliates メタデータファイルとデータファイルの構成 • Catalogが現在のmetadataを指す • metadataがSnapshot / Manifestを通じて有効なファイルを管理 • データファイルはそのまま利用 OTF / Icebergで改善する世界 従来のデータレイク(データファイルのみ) → テーブルとして安全に扱える
  16. OCI / Oracle の Iceberg対応 28 Copyright © 2026, Oracle

    and/or its affiliates Icebergを中心としたオープンなデータ活用の世界に、 Oracle / OCI も対応を広げています。 読む Autonomous AI Lakehouse から Iceberg テーブルを参照 見つける Catalog でカタログ・スキーマ ・テーブルを横断的に発見 活用する SQL / AI / BI / 分析ワーク ロードにつなげる 作る Autonomous AI Lakehouse からカタログ経由で Icebergを作成する Autonomous AI Lakehouse でできること
  17. 実際の活用イメージ:データを動かさず横断的に検索・分析 32 Copyright © 2026, Oracle and/or its affiliates 基幹データと分析用データを、移動せずに同じ問いへつなげる

    外部 Iceberg(分析データ)と Oracle DB 内の業務データを統合したビューに対して、自然言語から SQL を生成・実行する 基幹データ上の リアルタイムデータ 加工された 分析用データ
  18. デモ全体の流れ 34 Copyright © 2026, Oracle and/or its affiliates 読む

    見つける 1 ADBにIcebergカタログを追加し参照 2 データの変更を追えるか確認 3 ADBからIcebergを作成 作る デモのステップ 活用する 4
  19. デモ①:カタログを接続して、ADBからSnowflake Icebergを読む 35 Copyright © 2026, Oracle and/or its affiliates

    読む 見つける 1 ADBにIcebergカタログを追加し参照 2 データの変更を追えるか確認 3 ADBからIcebergを作成 作る デモのステップ
  20. Copyright © 2026, Oracle and/or its affiliates 38 Demo ①

    | Catalog から Iceberg テーブルを発見
  21. デモ②: ADB から 最新Snapshotを参照する 39 Copyright © 2026, Oracle and/or

    its affiliates Catalog と Iceberg のメタデータにより、同じテーブルとして参照できることを確認します。 ②-2. テーブルのデータ追加をADBから参照できるか ②-3. 新しくテーブルが追加された時に参照できるか 読む 見つける 1 ADBにIcebergカタログを追加し参照 2 データの変更を追えるか確認 3 ADBからIcebergを作成 作る デモのステップ ②-1. カタログ経由でまずはSelectしてみる
  22. Copyright © 2026, Oracle and/or its affiliates 40 Demo ②-1

    | Oracle SQL から外部 Iceberg を SELECT
  23. Copyright © 2026, Oracle and/or its affiliates 41 Demo ②-2

    |データ追加後の最新 Snapshot が反映されるか確認
  24. Copyright © 2026, Oracle and/or its affiliates 42 Demo ②-3

    |新規テーブルを Catalog 経由で発見
  25. デモ③:ADB上で集計した表をIceberg表としてデータプロダクト化する 43 Copyright © 2026, Oracle and/or its affiliates 読む

    見つける 1 ADBにIcebergカタログを追加し参照 2 データの変更を追えるか確認 3 ADBからIcebergを作成 作る デモのステップ
  26. 44 Copyright © 2026, Oracle and/or its affiliates Demo ③|

    ADBの集計結果を Iceberg 表として書き出す
  27. デモ④:見つけたデータをSQL / AI活用へつなげる 45 Copyright © 2026, Oracle and/or its

    affiliates Select AI(NL2SQL)で外部データと業務データを同じ問いへ ここからはIcebergで読めるようになった外部データと、業務データを同じ問いにつなげます。 • 例:マーケティング効果を分析し営業フォロー候補を、基幹データと分析データを組み合わせて探す • ポイント:データをコピーしてから分析するのではなく、必要なデータを同じ分析導線に乗せる 活用する 4 読む 見つける 1 ADBにIcebergカタログを追加し参照 2 データの変更を追えるか確認 3 ADBからIcebergを作成 作る
  28. Copyright © 2026, Oracle and/or its affiliates 46 Demo ④|

    AIプロファイルを作成し参照させるテーブルを指定する
  29. Copyright © 2026, Oracle and/or its affiliates 47 Demo ④|

    自然言語でのSQL生成を確認 「契約更新が90日以内で、製品利用が拡大+マーケティング好反応、未解決サポートや請求遅延がない顧客」
  30. Copyright © 2026, Oracle and/or its affiliates 48 Demo ④|

    自然言語で問い合わせ 「キャンペーンに反応があり、ナーチャリング対象(=すぐに営業提案ではなく、情報提供を続ける)となる顧客を特定」
  31. デモのまとめ:オープンなデータをOracleの実行基盤で活用する 従来 49 Copyright © 2026, Oracle and/or its affiliates

    Iceberg のオープン性と、Oracle の性能・信頼性・SQL / AI / 分析機能を組み合わせる オープンで柔軟な データレイク Oracle Database ・Exadata のような 高性能・高信頼な データ基盤 Oracle Autonomous AI Lakehouse 「Iceberg のオープン性」と 「Oracle の性能・信頼性・AI/分析機能」を 両方を1つの Lakehouse で実現 • オープン性 • 相互運用性 • 低コストなオブジェク トストレージ活用 • エンタープライズ向けの 信頼性 • SQL・AI・分析 • Exa性能 • 運用機能 オープンなデータをエンタープライズの実行基盤へつなげる 「どちらを選ぶか」 になりがち vs
  32. クエリエンジン カタログ テーブル フォーマット ファイル フォーマット ストレージ AWS Glue Data

    Catalog json csv レイヤで見る Oracle AI Lakehouse の位置づけ 50 Copyright © 2026, Oracle and/or its affiliates Autonomous AI Lakehouse Iceberg / Catalog / SQL・AI分析を橋渡し Iceberg は テーブル状態の共通ルール 位置づけ:Oracle AI Lakehouse は、Open Table Format の上に SQL / AI 活用の入口をつくる OCI Object Storage
  33. AI Lakehouse の先に広がる活用 51 Copyright © 2026, Oracle and/or its

    affiliates Oracle Vectors on Ice • Apache Iceberg テーブルに保存されたベクトルデータを Oracle で扱えるようになり、データレイク上のデータに対 してベクトル検索を実行可能 • Object Storage 上のIceberg テーブル上のベクトル データを直接読み取り • ベクトル索引を作成し、ベクトル検索の高速化を実現 • データベース内の業務データと、データレイク上のベクト ルデータをまたいで統合検索可能 Oracle AI Data Platform • オープンなレイクハウス・統合カタログ・Oracleデータ ベース・生成AI・AIエージェント・AI開発者ツールを 一体化した、AI-readyな基盤 • AIエージェントやアプリケーション構築、管理を加速 させる、統一された操作環境
  34. まとめ:Open Table FormatがAI時代の共通ルールになる Open Table Format (OTF)は保存形式ではなく、「テーブル状態」を共有するルール Schema、Partition、Snapshot、Metadataを共有し、複数エンジンから同じテーブルとして扱いやすくします。 52 Copyright

    © 2026, Oracle and/or its affiliates 1 2 3 データを特定エンジンに閉じ込めないことで、AI活用に向けた自由度を高める Object Storage上のオープンなデータを、Oracle、Spark、Trino、BI、AIなど用途に応じて活用します。 Oracle はオープンなデータをSQL・AI・分析へつなげる Apache Iceberg と外部カタログで、クラウド・オンプレに散らばるデータをそのまま活用。Iceberg のオープン性に、Oracle の 性能・セキュリティ・信頼性・AI/分析機能を重ねられます。
  35. 7月15日開催 ◼ 開催日 :2026年7月15日(水) ◼ 開催時間:19:00 スタート *18:50 接続開始 (Zoom)

    *18:30 受付開始 (東京会場) Open Table Format の仕組みの基本から活用イメージまで、 具体例やデモを交えながら、理解を深めていただける内容でお届けします! ▶︎ https://ochacafe.connpass.com/event/393529/ Lakehouse の要! Open Table Format 深堀り Copyright © 2026, Oracle and/or its affiliates 53