Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ分析を支える技術 生成AI再入門

データ分析を支える技術 生成AI再入門

Developers IO 2024
データ分析を支える技術 生成AI再入門

生成AIの基本とその活用事例を紹介し、プロンプトエンジニアリングの重要性とテクニックを解説します。次に、RAG(Retrieval-Augmented Generation) の仕組みと利点を説明し、生成AIの活用に欠かせない大量で質の高いデータを提供するデータ分析基盤の構築ポイントを示します。また、生成AIによるデータ分析やデータエンジニアリングを支援するサービスについて具体例を交えて紹介します。最後に生成AIを通じてデータ分析基盤の今後の展望と分析業務の変化を予測します。

■アジェンダ
・生成AI(Generative AI)
・プロンプトエンジニアリング
・RAG(Retrieval-Augmented Generation)
・生成AIを支えるデータ分析基盤
・データ分析基盤を支える生成AI
・生成AIとデータ分析基盤の今後

■セッションの紹介ブログ
https://dev.classmethod.jp/articles/devio2024-primer-of-generative-ai-20240720/

■DevelopersIO 2024の詳細はこちら
「DevelopersIO 2024」公式サイト
https://event.classmethod.jp/odyssey-offline

■出演者プロフィール
石川覚
クラスメソッド株式会社
ソリューションアーキテクト
Blog→https://dev.classmethod.jp/author/ishikawa-satoru/
Twitter→https://twitter.com/ishikawa_one

■動画内でご紹介したURL
データ分析を支える技術 DWH再入門
https://www.youtube.com/watch?v=G7weKwUE6KY

データ分析を支える技術 データ分析基盤 再入門
https://www.youtube.com/watch?v=-emu8f7POAk

データ分析を支える技術 データモデリング 再入門
https://www.youtube.com/watch?v=xIHbDgVyeSI&t

クラスメソッド データアナリティクス通信(AWSデータ分析編)
https://dev.classmethod.jp/referencecat/classmethod-da-news-aws-analytics/

Satoru Ishikawa

July 23, 2024
Tweet

More Decks by Satoru Ishikawa

Other Decks in Technology

Transcript

  1. 6 アジェンダ • 生成AI(Generative AI) • プロンプトエンジニアリング • RAG(Retrieval-Augmented Generation)

    • 生成AIを支えるデータ分析基盤 • データ分析基盤を支える生成AI • 生成AIとデータ分析基盤の今後
  2. 9 生成AI、基盤モデル、大規模言語モデル 生成AIは、新しいコンテンツを生成できるAI技術全般を指します。 一方、基盤モデル(FM: Foundation Model)は、大規模なデータで事 前学習された汎用的なAIモデルを指します。 生成AIアプリを開発する際に特 定の基盤モデルを利用します。 基盤モデルの中で、特に自然言語

    処理に特化した大規模モデルを大 規模言語モデル(LLM: Large Language Models)呼びます。 AI(人工知能) 生成AI ML(機械学習) ニューラルネットワーク ディープラーニング (深層学習) AIモデル(基盤モデル)
  3. 10 AIサービスとAIモデル 例. ChatGPTの場合 ChatGPTというAIサービスの中に、AIモデルのGPT-4oが存在します。 • ChatGPTはAIサービス全体の名称 • GPT-4oはそのAIサービス内で提供される特定のAIモデル(基盤モデル) です。

    ※ AIサービスでは、複数のAIモデルがあり、それぞれ異なる特性と用途に応 じて使い分けることができます。 AIサービス AIモデル(基盤モデル) 提供元 ChatGPT GPT-4o、GPT-4o mini OpenAI Claude Claude 3.5 Sonnet、Claude 3 Haiku Anthropic Gemini Gemini Pro 1.5、Gemini Flash 1.5 Google
  4. 12 様々な生成AIの基盤モデル • テキストからテキストを生成 • GPT-4o、GPT-4o mini • Claude 3.5

    Sonnet、Claude 3 Haiku • Gemini 1.5 Pro、Gemini 1.5 Flash • テキストから画像を生成 • DALL·E 3 • Stable Diffusion • テキストから音楽を生成 • Jukebox • MusicLM ※GPT-4o、Claude 3.5 Sonnet、Gemini 1.5はマルチモーダルです。
  5. 13 AIモデル(基盤モデル)の使い分け AIモデルを使い分ける際には、単に高性能なモデルが良いとは限りませ ん。それぞれ異なる特性と用途に応じて使い分けることが必要です。 複雑なタスク • 高性能モデル: GPT-4o, Claude 3.5

    Sonnet, Gemini Pro 1.5 単純なタスク、高速応答、コス ト効率 • 軽量モデル: GPT-4o mini, Claude 3 Haiku, Gemini Flash 1.5 モデル選定のポイント • タスクが単純、複雑であるか • 高速応答 • コスト効率 • コンテキストサイズ • 知識カットオフ • レートリミット リクエスト数/分(RPM)、トークン数/ 分(TPM)、トークン数/日(TPD)
  6. 14 AIモデル(基盤モデル)の比較(2024/7時点) AIサービス AIモデル 主な用途 価格(入力/出力 per 1M tokens) コンテキスト

    最大サイズ ChatGPT GPT-4o 高度な言語理解、マルチ モーダル処理 $5.00 / $15.00 128K GPT-4o mini 一般的な会話、単純なタ スク $0.15 / $0.60 128K Claude Claude 3.5 Sonnet 高性能とコストを両立 $3.00 / $15.00 200K (出力4K) Claude 3 Haiku 高速処理、単純なタスク $0.25 / $1.25 200K (出力4K) Gemini Gemini 1.5 Pro 高度な推論、長文処理 $3.50~ / $10.50~ 128K(~1M) Gemini 1.5 Flash 高速処理、反復的タスク $0.35~ / $1.05~ 128K(~1M) 複雑なタスク用途のモデルは10倍程度利用費が高い。また、入力トーク ンよりも出力トークンの方が高い傾向があります。 ※ Geminiはコンテキストサイズが128Kを超えると価格が倍になる
  7. 15 AIモデル(基盤モデル)の比較(2024/7時点) AIサービス AIモデル 主な用途 価格(入力/出力 per 1M tokens) コンテキスト

    最大サイズ ChatGPT GPT-4o 高度な言語理解、マルチ モーダル処理 $5.00 / $15.00 128K GPT-4o mini 一般的な会話、単純なタ スク $0.15 / $0.60 128K Claude Claude 3.5 Sonnet 高性能とコストを両立 $3.00 / $15.00 200K (出力4K) Claude 3 Haiku 高速処理、単純なタスク $0.25 / $1.25 200K (出力4K) Gemini Gemini 1.5 Pro 高度な推論、長文処理 $3.50~ / $10.50~ 128K(~1M) Gemini 1.5 Flash 高速処理、反復的タスク $0.35~ / $1.05~ 128K(~1M) 複雑なタスク用途のモデルは10倍程度利用費が高い。また、入力トーク ンよりも出力トークンの方が高い傾向があります。 ※ Geminiはコンテキストサイズが128Kを超えると価格が倍になる Google(Vertex AI) AWS(Bedrock)
  8. 19 プロンプトエンジニアリングとは プロンプトエンジニアリングは、AIモデルから期待する出力を得るため に、入力するプロンプト(指示文)を設計・最適化するプロセスです。 主に大規模言語モデル(LLM)とのコミュニケーションに使用され、AIモ デルが解釈し理解できるように指示を構造化する技術です。 • 状況・背景: タスクに関連する追加情報 •

    例. 「あなたは経験豊富なマーケティングコンサルタントです」 • 命令・指示: AIモデルに実行してほしいタスクの内容 • 例. 「次の問題に対する解決策を3つ提案してください」 • 入力データ: 具体的な処理対象となるデータ • 例. 「以下の顧客アンケート結果を分析してください:[アンケートデータ]」 • 出力形式: 期待する回答の形式や構造 • 例. 「結果を表形式で示し、各項目に対して100字以内で説明を加えてください」
  9. 21 代表的なプロンプトエンジニアリングの手法 AIモデルから正確で有用な回答を引き出すには、プロンプトエンジニア リングの手法を適切に組み合わせることが重要です。 Chain-of-Thought Prompting • 中間的な推論ステップを提供することで、複雑な推論能力を向上させる手法 このグループの奇数を合計すると偶数になります。: 4、8、9、15、12、2、1。

    A: 奇数を全て加えると(9, 15, 1)25になります。答えはFalseです。 このグループの奇数を合計すると偶数になります。: 15、32、5、13、82、7、1。 A: このグループの奇数を合計すると偶数になります。: 15、32、5、13、82、7、1。 A: 奇数を全て加えると(15, 5, 13, 7, 1) 41になります。答えはFalseです。
  10. 22 その他のプロンプト作成方法 AIモデルを効果的に使用するため、適切なプロンプトをAIモデル自身に 作成させるメタプロンプトという手法もあります。 お客様との打ち合 わせを文字起こし したテキストがあ ります。このテキ ストから議事録を 作成するための

    Claude3用のプロ ンプトを作成して ください。 あなたは経験豊富な議事録作成の専門家です。以下の文字起こしテキストを基に、簡潔で 明確な議事録を作成してください。 議事録作成の際は、以下の点に注意してください: 1. 会議の基本情報(日時、場所、参加者、目的)を冒頭に記載する 2. 主要な議題や決定事項を明確に特定し、箇条書きで記載する 3. 各議題について、主な議論のポイントや結論を簡潔にまとめる 4. 重要な行動項目やフォローアップ事項を特定し、担当者と期限を明記する 5. 技術的な用語や略語は、必要に応じて簡単な説明を付ける 6. 議論の流れや文脈を保ちつつ、冗長な部分は省略する 7. 客観的な表現を使用し、個人的な意見や感情的な表現は避ける 最後に、次回の会議日程や未解決の問題点があれば記載してください。 文字起こしテキスト: [ここに文字起こしテキストを挿入] 上記の指示に従って、プロフェッショナルな議事録を作成してください。
  11. 23 プロンプトは生成AIにおける「要件定義」 プロンプトは生成AIにとっての要件定義と言えます。要件定義で培われ たプラクティスは、生成AIのプロンプトの質の向上に活かせます。 指示の明確化 • プロンプトエンジニアリングでは生成AIが達成すべき出力を明確にし ます。 詳細な指示の提供 •

    プロンプトエンジニアリングでは具体的なプロンプトを設計して生成 AIに提供します。 反復的なプロセス • プロンプトエンジニアリングでは、最初のプロンプトは不完全である ことが多く、反復的に修正・改善が行われます。
  12. 27 AIモデルのカスタマイズする手法 AIモデルが持たない知識や古い情報に対しては、情報の追加・更新が必 要です。 方法としては 1. 独自のAIモデルを構築する 2. 既存AIモデルをファインチューニングする 3.

    AIモデルに存在しない知識の補完 1と2はAIモデルのパラメータを変更する方法。自社で独自のデータセ ットを用意して、AIモデルのトレーニングをする学習プロセスの管理が 必要です。
  13. 28 AIモデルのカスタマイズする手法 AIモデルが持たない知識や古い情報に対しては、情報の追加・更新が必 要です。 方法としては 1. 独自のAIモデルを構築する 2. 既存AIモデルをファインチューニングする 3.

    AIモデルに存在しない知識の補完(プロンプト+RAG) 検索拡張生成(RAG: Retrieval-Augmented Generation) 3の方法は、AIモデルトレーニングはせずに、実行したいタスクに関連す るAIモデルが持たない情報をプロンプトとして含めることで、知識を補 完して、タスクを実行する方法。
  14. 29 RAG(検索拡張生成)とは Retrieval (検索) ユーザーのクエリに基づ いて、膨大なデータセッ トやナレッジベースから 関連する情報を探し出し ます。 Augmentation

    (拡張) 検索によって取得した情 報をユーザーのプロンプ トに追加し、AIモデルへ の入力として送信する。 Generation (生成) 拡張された情報を基に、 AIモデルで新しいテキス トや回答を生成します。 RAG(Retrieval-Augmented Generation、検索拡張生成)は、生成AI モデルに外部の信頼性のある情報を取り入れることで、生成される回答 の精度と信頼性を向上させる技術です。
  15. 30 RAG(検索拡張生成)とは Retrieval (検索) ユーザーのクエリに基づ いて、膨大なデータセッ トやナレッジベースから 関連する情報を探し出し ます。 Augmentation

    (拡張) 検索によって取得した情 報をユーザーのプロンプ トに追加し、AIモデルへ の入力として送信する。 Generation (生成) 拡張された情報を基に、 AIモデルで新しいテキス トや回答を生成します。 RAG(Retrieval-Augmented Generation、検索拡張生成)は、生成AI モデルに外部の信頼性のある情報を取り入れることで、生成される回答 の精度と信頼性を向上させる技術です。
  16. 31 RAG(検索拡張生成)とは Retrieval (検索) ユーザーのクエリに基づ いて、膨大なデータセッ トやナレッジベースから 関連する情報を探し出し ます。 Augmentation

    (拡張) 検索によって取得した情 報をユーザーのプロンプ トに追加し、AIモデルへ の入力として送信する。 Generation (生成) 拡張された情報を基に、 AIモデルで新しいテキス トや回答を生成します。 RAG(Retrieval-Augmented Generation、検索拡張生成)は、生成AI モデルに外部の信頼性のある情報を取り入れることで、生成される回答 の精度と信頼性を向上させる技術です。
  17. 32 RAG(検索拡張生成)とは Retrieval (検索) ユーザーのクエリに基づ いて、膨大なデータセッ トやナレッジベースから 関連する情報を探し出し ます。 Augmentation

    (拡張) 検索によって取得した情 報をユーザーのプロンプ トに追加し、AIモデルへ の入力として送信する。 Generation (生成) 拡張された情報を基に、 AIモデルで新しいテキス トや回答を生成します。 RAG(Retrieval-Augmented Generation、検索拡張生成)は、生成AI モデルに外部の信頼性のある情報を取り入れることで、生成される回答 の精度と信頼性を向上させる技術です。
  18. 33 通常の Naïve RAG と Advanced RAG 通常のNaïve RAG の

    Retrieval(検索)のプ ロセスに検索前処理 (pre-retrieval) と 検 索後処理 (post- retrieval) を加え、検 索の精度の向上させる 手法を Advanced RAGという。 引用: Amazon Web Services ブログ Amazon Kendra と Amazon Bedrock で構成した RAG システムに対する Advanced RAG 手法の精度寄与検証
  19. 34 データが表す意味を表現する方法「ベクトル化」 文章のような非構造化データから「データが表す意味」を表現する方法 として、ベクトル化がありベクトル埋め込みを用いてデータを数値で表 現します。ベクトル化されたデータはベクトルDBに保存されます。 • ベクトル化では、ベクトル埋め込みを用いてデータを数値で表現する • テキスト情報を数値化、単語間の意味とその関係性を表現できる •

    ベクトル埋め込みとは、データの意味や関係性を表現した数値化され た形式のことを指す • ベクトル化されたデータは、ユーザーの入力に意味的に近い要素を検 索するのに特化したベクトルDBに保存して利用する • 意味的検索(セマンティックサーチ)と呼び、ユーザーの入力内容に 対して類似度の高いデータを返すことができる
  20. 39 生成AIによるビジネス価値の創出 ビジネスに生成AIを導入する際には、こうした全体像を踏まえたアプロ ーチが重要になります。 生成AI ストレージ データレイク データウェアハウス データベース データ統合ツール

    ガバナンスツール 大量のデータを格納するためのストレージ 非構造化データも含めた大規模データの保管するデータストア ビジネス分析に最適化されたデータ保管・管理するデータベース 構造化されたデータを効率的に管理・利用するためのデータベース 異なるデータソースを連携させるためのソリューション データの品質管理や規制遵守を確保するための仕組み
  21. 41 生成AIにおけるデータ分析基盤 ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH

    NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス
  22. 42 生成AIにおけるデータ分析基盤(RAG) ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH

    NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス
  23. 43 生成AIにおけるデータ分析基盤(フロントエンド) ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH

    NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス
  24. 44 生成AIにおけるデータ分析基盤(バックエンド) ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH

    NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス
  25. 45 生成AIにおけるデータ分析基盤(データ統合) ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH

    NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス
  26. 46 生成AIにおけるデータ分析基盤(データガバナンス) ユーザー 生成AI 生成AIモデル ストリーミング 取り込み 生成AI アプリケーション RDB/DWH

    NoSQL (会話の状態/履歴) データソース バッチ取り込み ベクトルDB データ統合 データガバナンス
  27. 48 生成AIによるデータ分析支援機能の潮流 昨年末、AWSは生成AIによるデータ分析やデータエンジニアリングを支 援するサービスが次々と提供されています。今後は他のサービスへの拡 大、機能拡充、日本語対応などが期待されます。 ロール 機能 名前 ビジネスユーザー データ分析と可視化

    Generative BI in Amazon QuickSight データアナリスト SQLクエリの生成 Amazon Q Generative SQL in Amazon Redshift Query Editor データエンジニア ETL処理の支援 Amazon Q data integration in AWS Glue データスチュワート データマネジメント Al recommendations for descriptions in Amazon DataZone
  28. 50 今後のデータ分析基盤 データ分析基盤は生成AI活用の源泉 • データは競合他社と差別化するために不可欠であるため、生成AI導入 の前提として、データ分析基盤の重要性が高まる • 生成AIを効果的に活用するためには、大量で質の高い、いつでも利用 可能なデータを準備する必要がある データ分析基盤開発においても生成AIスキルが求められる

    • 開発に生成AIを活用することで、開発効率や質の向上が期待できるた め、データエンジニアにとっても欠かせないスキルとなる 生成AIに最適化した新たなデータ分析基盤の設計・開発力 • AIが回答をするのに必要な環境、データを準備できるカが必要
  29. 54