Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Databricksワークショップ - 生成AIとDWH

Takaaki Yayoi
October 24, 2024

Databricksワークショップ - 生成AIとDWH

Databricksにおける生成AI関連機能とデータウェアハウスの活用を通じて日本語主体のデータ分析を体験いただくワークショップの資料です。前半は座学で後半は以下の機能のワークショップを実施しました。

- AI Playground
- Databricks SQL + Databricksアシスタント
- Databricks AI/BI

ハンズオンの詳細な流れをこちらにまとめました。

生成AIとDWHを用いたDatabricksワークショップ https://qiita.com/taka_yayoi/items/3ed5287290b3e6f7ccb7

Takaaki Yayoi

October 24, 2024
Tweet

More Decks by Takaaki Yayoi

Other Decks in Technology

Transcript

  1. アジェンダ • スケジュール • 座学 ◦ Databricksとは ◦ Databricksにおける生成AIとDWHの活用 •

    ハンズオン ◦ AI Playground ◦ Databricks SQL + Databricksアシスタント ◦ Databricks AI/BI 2
  2. ©2024 Databricks Inc. — All rights reserved スケジュール # 時間枠(午前)

    時間枠(午後) 時間枠 アジェンダ 1 9:00-9:10 14:00-14:20 20分 開会のご挨拶・イントロダクション 2 9:20-9:50 14:20-14:50 30分 座学(Databricksとは、機能概要) 3 9:50-10:00 14:50-15:00 10分 休憩 4 10:00-10:20 15:00-15:20 20分 ハンズオン - AI Playground 5 10:20-11:10 15:20-16:10 50分 ハンズオン - Databricks SQL(Databricksアシスタント) 6 11:10-12:00 16:10-17:00 50分 ハンズオン - Databricks AI/BI 3 各ハンズオン枠の冒頭で使用する機能の詳細説明を行います
  3. ©2024 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明

    (やよい たかあき) Databricks ソリューションアーキテクト ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサル、日立製作所にて データ分析・Webサービス構築 などに従事。インド赴任経験あり。 ▪ Databricks Certified (Data Engineer | Machine Learning) Professional, Generative AI Engineer Associate ▪ Qiitaでいろいろ書いています。 4 @taka_aki
  4. ©2024 Databricks Inc. — All rights reserved 10,000+ のグローバル顧客 $1.5B+

    の収益 $4B の投資 レイクハウス の発明者 & 生成AIのパイオニア Gartnerに認知されるリーダー Database Management Systems Data Science and Machine Learning Platforms データ & AIカンパニー のクリエイター 5
  5. ©2024 Databricks Inc. — All rights reserved データ + AI

    カンパニー がすべての業界で勝者に 6
  6. ©2024 Databricks Inc. — All rights reserved 多くの企業はこのビジョンの 実現に苦戦しています データレイク

    オーケストレーション & ETL データ ウェアハウス ガバナンス 機械学習 ストリーミング BI データサイエンス 生成 AI 7
  7. ©2024 Databricks Inc. — All rights reserved 多くの企業はこのビジョンの 実現に苦戦しています データレイク

    オーケストレーション & ETL データ ウェアハウス ガバナンス 機械学習 ストリーミング BI データサイエンス 生成 AI サイロ化された データ、AI ガバナンス AIがもたらすデータ プライバシー& コントロールの課題 高度に技術的な スタッフへの依存 8
  8. ©2024 Databricks Inc. — All rights reserved データレイクハウス すべてのデータに対するオープンで統合された基盤 統合セキュリティ、ガバナンス、カタログ

    信頼性と共有のための統合データストレージ オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像) データ サイエンス & AI ETL & リアル タイム分析 オーケストレーショ ン データ ウェアハウス 9
  9. ©2024 Databricks Inc. — All rights reserved すべてのデータに対するオープンで 統合された基盤 データレイクハウス

    データとAIを容易にスケール、活用 生成AI 皆様の組織全体のデータ + AIを民主化 データインテリジェンス プラットフォーム 10
  10. ©2024 Databricks Inc. — All rights reserved すべての生データ (ログ、テキスト、音声、動画、画像 )

    ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog 信頼性と共有のための統合データストレージ Delta Lake Databricksデータインテリジェンスプラットフォーム オープンデータレイク 11
  11. ©2024 Databricks Inc. — All rights reserved ETL & リアルタイム分析

    オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog Databricksデータインテリジェンスプラットフォーム 信頼性と共有のための統合データストレージ Delta Lake あなたのデータのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 ) 12
  12. ©2024 Databricks Inc. — All rights reserved ETL & リアルタイム分析

    オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog Databricksデータインテリジェンスプラットフォーム 信頼性と共有のための統合データストレージ Delta Lake あなたのデータのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像) Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウトを最適化 Databricks SQL テキストからSQL Workflows 過去の処理に基づく ジョブコストの最適化 Delta Live Tables データ品質の自動化 Mosaic AI カスタムLLMの作成チュー ニング、提供 13
  13. ©2024 Databricks Inc. — All rights reserved ETL & リアルタイム分析

    オーケストレーション データウェアハウス データサイエンス & AI Databricks AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog Databricksデータインテリジェンスプラットフォーム 信頼性と共有のための統合データストレージ Delta Lake あなたのデータのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像) Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウトを最適化 Databricks SQL テキストからSQL Workflows 過去の処理に基づく ジョブコストの最適化 Delta Live Tables データ品質の自動化 Mosaic AI カスタムLLMの作成チュー ニング、提供 ハンズオンでカバー する範囲 14
  14. ©2024 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム あなたのデータのセマンティクスを理解するために データインテリジェンスエンジ

    オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 Workflo 過去の処理に ジョブコストの Delta Live Tables データ品質の自動化 Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウト Mosaic AI カスタムLLMの作成チュー ニング、提供 オペレーション 財務 マーケティング カスタマー サービス どうすれば 組織の皆に データとAIを展開 できるのか? “Genie” 自然言語で誰でもデータや AIを活用 15
  15. ©2024 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム あなたのデータのセマンティクスを理解するために データインテリジェンスエンジ

    オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 Workflo 過去の処理に ジョブコストの Delta Live Tables データ品質の自動化 Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウト Mosaic AI カスタムLLMの作成チュー ニング、提供 オペレーション 財務 マーケティング カスタマー サービス “Genie” 自然言語で誰でもデータや AIを活用 ハンズオンでカバーする範囲 16
  16. ©2024 Databricks Inc. — All rights reserved Databricksにおける生成AIとDWHの活用 Databricksの生成AIとDWHを活用することで、SQLを(ほとんど)記述することなしにデータウェアハ ウスに対する操作が可能となります。

    テーブル AI/BIダッシュボード アナリスト ビジネスユーザー AI/BI Genie SQLエディタ Unity Catalog AI Playground Databricks アシスタント 日本語を用いた 生成AIとのチャット 日本語を用いたテーブル への問い合わせ SQL SQL SQL SQLを用いたテーブル への問い合わせ 日本語、 SQLを用いた ダッシュボードの構築 日本語を解する AIアシスタント 18 Databricks SQL
  17. ©2024 Databricks Inc. — All rights reserved Delta Lake UniForm

    データサイエンス AI ETL リアルタイム分析 オーケスト レーション データ ウェアハウス オープンデータレイク 全ての生データ (ログ、テキスト、音声、動画、画像) Unity Catalog あなたのデータのセマンティクスを理解するAIを活用したデータインテリジェンスエンジン DatabricksIQ Databricks SQL データインテリジェンス プラットフォームにおける インテリジェントなデータウェアハ ウス 20
  18. ©2024 Databricks Inc. — All rights reserved SQLエディタ AI/BIダッシュボード AI/BI

    Genie 自然言語によるインテリジェントな体験 データサイエンス / エンジニア アナリスト ビジネスユーザー 21
  19. ©2024 Databricks Inc. — All rights reserved Unity Catalog アクセス制御

    リネージ データ共有 モニタリング 検索 監査 テーブル ファイル ダッシュボード/ ノートブック 他のデータ システム ユーザー アプリ モデル オープンAPI においては、統合されたガバナンス、セ キュリティ、コラボレーションが 基盤となります Databricks Unity Catalog データインテリジェンスプ ラットフォーム 23
  20. ©2024 Databricks Inc. — All rights reserved 24 3レベルの名前空間 SELECT

    * FROM main.paul.red_wine; -- <catalog>.<schema>.<table> SELECT * FROM hive_metastore.default.customers; Unity Catalog カタログ 2 カタログ 1 スキーマ 2 スキーマ 1 External Table ビュー 外部 テーブル マネージド テーブル hive_metastore (レガシー) default (データベース) customers (テーブル) Unity Catalogにおいてはカタログ→スキーマ→テーブルという構造でテーブルが管理されます。 スキーマはデータベースと同じです。
  21. ©2024 Databricks Inc. — All rights reserved ノートブック、 SQLエディタ、 ファイルエディタでネイティブに

    動作する文脈を解する AIアシスタント コードやクエリーの生成、オートコンプリート 問題の説明と修正 企業の知識グラフを用いてお使いのデータ資産に適した文脈 考慮の結果を取得 26 Databricksアシスタント アシスタントはあくまでアシストしてくれる存在です。 結果はご自身で確認しましょう。
  22. ©2024 Databricks Inc. — All rights reserved Mosaic AI Playground

    • Databricks内外でホストされている 基盤モデルと容易にチャット • 複数のモデルの出力、スピード、その 他のパフォーマンス特性を 比較 • プロンプトエンジニアリングと テキスト生成パラメータのチューニン グに対するクイックな実験 様々な基盤モデルとのチャットを比較 28
  23. ©2024 Databricks Inc. — All rights reserved Databricks AI/BI 現実世界のデータに対するイ

    ンテリジェントな分析 ダッシュ ボード Genie Unity Catalogによる管理と保護 Generally Available Public Preview 30
  24. ©2024 Databricks Inc. — All rights reserved AI/BI Genieのご紹介 自然言語による分析

    直接的なガイド /コントロール 時間と共に学習 31
  25. ©2024 Databricks Inc. — All rights reserved AI/BI Genieの基礎 データチームがトピック固有

    の Genieスペースをセットアップ ビジネスユーザーは全く新しい データの質問 に対する回答を取得 できます データインテリジェンスプラット フォームを活用することで、 Genieは時間と共に学習します 32
  26. ©2024 Databricks Inc. — All rights reserved AI/BI Genieのセットアップ トピックとデータへの

    フォーカス 指示の追加 精度の検証 • それぞれのGenieスペース は トピック固有であるべきで す • 適切に文書化され、 クリーンなUnity Catalog のテーブルとメタデータを 取り込みます • 作成者はGenieをガイド、 教育することができます • 一般的な指示とサンプルの SQL文 • 作成者や信頼できる ビジネスユーザーは期待さ れる回答をテストすること ができます • 指示に対して必要な改善を 行います 33
  27. ©2024 Databricks Inc. — All rights reserved ハンズオンの準備(参加者向け) 以下の準備をお願いします。 1.

    御社Databricks環境にログインできることを確認ください。 2. ログイン後、GUIが英語の場合、日本語に変更ください。 38
  28. ©2024 Databricks Inc. — All rights reserved 画面のオリエンテーション 39 サイドメニュー

    アシスタント 設定 ホーム画面 (この画面) へのリンク
  29. ©2024 Databricks Inc. — All rights reserved ワークスペースメニュー 41 ワークスペース上のプログラム資産

    (ノートブック、クエリー、ダッシュ ボードなど)はフォルダで管理されます。ご自 身専用のホームフォルダがありますので、そ の中で資産を整理・管理してください。
  30. ©2024 Databricks Inc. — All rights reserved 画面構成 使用するモデル サンプル

    プロンプト (英語) プロンプトボックス 4 4 今回は使用しません
  31. ©2024 Databricks Inc. — All rights reserved ハンズオン - AI

    Playground 提供されている生成AIに問い合わせを行いましょう。 1. モデル「Meta Llama 3.1 70B Instruct」を選択します。 2. 「カレーの作り方を教えてください 」という質問をしてみます。 ◦ その他のプロンプトの例 i. PythonでATMのプログラムを書いてください(Write an atm program using python) ii. 日本の国歌を英語に翻訳してください(Translate Japanese anthem to English) 3. ご自身で思い浮かぶ質問をしてみましょう。他のモデルの出力を比較したり、 システムプロンプト(関西弁で回答します、など)を追加してみましょう。 47
  32. ©2024 Databricks Inc. — All rights reserved 関連マニュアル • AI

    プレイグラウンドを使用して LLM とチャットし、GenAI アプリのプロトタイプを作成する - Azure Databricks | Microsoft Learn 48
  33. ©2024 Databricks Inc. — All rights reserved SQLとは SQLが何かをお話しする前にデータやデータベースの話をさせてください •

    データとは • データベースとは データとは1人または複数の人や物や事象に関する定性的または定量的な値の集まりである。 データ - Wikipedia コンピューティングにおいて、 データベース は、電子的に保存され、 アクセスできる組織化された データの集合 である。 データベース - Wikipedia 氏名:やまだ たろう 年齢:25 性別:男 氏名:いしかわ はな 年齢:23 性別:女 ・・・ 51
  34. ©2024 Databricks Inc. — All rights reserved SQLとは 大量データを管理するデータベースに問い合わせるための言語がSQLです •

    SQL(Structured Query Language)とは SQLは、関係データベース管理システム (RDBMS) において、データの操作や定義を行うための データベース言 語(問い合わせ言語) 、ドメイン固有言語である。プログラミングにおいてデータベースへのアクセスのために、 他 のプログラミング言語と併用される 。 SQL - Wikipedia 顧客データベースから特定の 顧客のデータを取り出したい 口座データベースの残高を更 新したい ユーザーが退会したのでユー ザーデータを削除したい SQLを使います SQLを使います SQLを使います 52
  35. ©2024 Databricks Inc. — All rights reserved SQLとは データベースにあるデータをどの様に処理するのかをSQLで記述します 行(row/record)

    列(column) • 列「Prefecture」のデータをすべてください。 • 列「pref_no」の昇順で並び替えたデータをください。 • 列「Prefecture」が「Hokkaido」であるすべての行をください。 • 列「date_timestamp」から年月を取り出し、「Prefecture」と年月ごとの「Cases」の合計をください。 テーブル「 covid_cases」 53
  36. ©2024 Databricks Inc. — All rights reserved SQLエディタ AI/BIダッシュボード AI/BI

    Genie しかし、Databricksなら日本語による データ分析が可能です! データサイエンス / エンジニア アナリスト ビジネスユーザー 55 Databricksアシスタント
  37. ©2024 Databricks Inc. — All rights reserved ハンズオン - データの取り込み

    CSVファイルを取り込んでテーブルを作成しましょう。 • SQLエディタにアクセスして、以下のSQLを実行します。あなたのメールアドレスの名前の データベースが作成されます。 • SQLエディタの下部に、カタログ.データベース が表示されますのでメモします。 DECLARE database_name = "202411_handson_catalog." || regexp_replace(current_user(), '[\.@]', '_'); CREATE DATABASE IF NOT EXISTS IDENTIFIER(database_name); SELECT database_name; 57
  38. ©2024 Databricks Inc. — All rights reserved ハンズオン - データの取り込み

    CSVファイルを取り込んでテーブルを作成しましょう。 • サイドメニューでデータ取り込み をクリックします。テーブルを作成または変更 を クリックします。 58
  39. ©2024 Databricks Inc. — All rights reserved ハンズオン - データの取り込み

    CSVファイルを取り込んでテーブルを作成しましょう。 • 中央のボックスにCSVファイルをドラッグ&ドロップします。この際、右上でSQLウェアハウス が選択されていることを確認してください。 59
  40. ©2024 Databricks Inc. — All rights reserved 関連マニュアル • ファイルのアップロードを使用してテーブルを作成または変更する

    - Azure Databricks | Microsoft Learn • Azure Databricks にファイルをアップロードする - Azure Databricks | Microsoft Learn • Unity Catalog ボリュームにファイルをアップロードする - Azure Databricks | Microsoft Learn • カタログ エクスプローラーとは - Azure Databricks | Microsoft Learn 63
  41. ©2024 Databricks Inc. — All rights reserved ハンズオン - アシスタント+SQLエディタ

    アシスタントの助けを借りながらテーブルへの問い合わせを行ってみましょう。 1. SQLエディターにアクセスしてアシスタントを開きます。 2. 「samples.nyctaxi.tripsをpickup_zipでグルーピングした件数 」と入力して送信 します。 3. 表示されたクエリーを確認して「承認」をクリックします。 4. SQLウェアハウスが選択されていることを確認の上、クエリーを実行します。 5. 色々なプロンプトを試してみましょう。 76
  42. ©2024 Databricks Inc. — All rights reserved 関連マニュアル • SQL

    エディターでのクエリの作成とデータの探索 - Azure Databricks - Databricks SQL | Microsoft Learn • Databricks アシスタントを使用する - Azure Databricks | Microsoft Learn • SQL ウェアハウスに接続する - Azure Databricks | Microsoft Learn • Databricks SQL での視覚化 - Azure Databricks - Databricks SQL | Microsoft Learn • ダッシュボードを作成する - Azure Databricks | Microsoft Learn • Unity Catalog でデータ ガバナンスを使用する - Azure Databricks | Microsoft Learn 77
  43. ©2024 Databricks Inc. — All rights reserved Genieスペースの作成 80 (1)

    タイトルと説明文 (2) SQLウェアハウス Shared_Warehouse (3) 分析対象のテーブル
  44. ©2024 Databricks Inc. — All rights reserved 一般的な指示 • データチームが直接的なガイド

    を提供できるように支援 • ユニークな専門用語、ロジッ ク、 コンセプト、KPIなどを定義 • 時間経過と共に指示を見直しま しょう あなたは日本における [データの名称]に関する 日本人のエキスパートです。与えられた質問に 対して英語を使わずに日本語で回答します。 お勧めの指示 82
  45. ©2024 Databricks Inc. — All rights reserved サンプルのSQL文 • サンプルのSQL文はモデルに対して

    特定の質問に回答すべきかを直接 教育します • 検証したSQL文を“指示として保存” することで、Genieが今後の質問に 適応するようになります 83
  46. ©2024 Databricks Inc. — All rights reserved Genieによるフォローアップ • 質問が明確でない場合、Genieは

    フォローアップや明確化の質問を行う ように設計されています • 今後の質問に対応できるようにユーザー はGenieの新たなセマンティックの知識 を追加、保存することができます 84
  47. ©2024 Databricks Inc. — All rights reserved AI/BIダッシュボード 91 シンプルで美麗

    UXシンプルなコンテンツモデル、改善された ビジュアライゼーション、AI拡張UX 配布に最適化 ビジネスユーザーやグループへの公開、共有 埋め込み プラットフォームへのインテグレーション AI functions Unity Catalogによるデータセット検索とリネージ
  48. ©2024 Databricks Inc. — All rights reserved ハンズオン - Databricks

    AI/BI 準備されているデータを対象に以下の分析を行いましょう。 1. AI/BI Genieによるデータ分析 ◦ Genieスペースを作成する ◦ 必要な設定を行う(指示、サンプル質問など) ◦ 繰り返しGenieに問い合わせを行いデータへの理解を深める 2. AI/BI Dashboardによるデータの可視化 ◦ ダッシュボードを作成する ◦ 日本語で可視化の指示を行う ◦ 必要に応じて手動で調整する ◦ ダッシュボードから得られるパターンについて洞察を得る ◦ 必要に応じてGenieに戻り問い合わせを行う 109
  49. ©2024 Databricks Inc. — All rights reserved 関連マニュアル • Databricks

    AI/BI とは - Azure Databricks | Microsoft Learn • ダッシュボード - Azure Databricks | Microsoft Learn • AI/BI Genie スペースを操作する - Azure Databricks | Microsoft Learn • 効果的な Genie スペースをキュレーションする - Azure Databricks | Microsoft Learn 110