Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Azure AI Content Understanding ~マルチモーダルソリューションの...

Daiki Kanemitsu
February 22, 2025
5

Azure AI Content Understanding ~マルチモーダルソリューションの開発の加速~

Daiki Kanemitsu

February 22, 2025
Tweet

Transcript

  1. Azure AI Content Understanding Microsoft Global Black Belt AI Daiki

    Kanemitsu マルチモーダルAIソリューションの開発を加速
  2. Azure AI Foundry Visual Studio Copilot Studio GitHub Azure AI

    Foundry SDK モデルカタログ オープンソースモデル 基本モデル タスクモデル インダストリモデル Azure AI Content Safty Azure AI Search Azure AI Agent Service Azure OpenAI Service オブザーバビリティ カスタマイズ 評価 統治 モニタリング Azure Machine Learning
  3. マルチモーダルアプリの構築と自動化の課題 多様性、規模、複雑さ テキスト、画像、ビデオ、オーディオから同時に洞察 を処理および抽出するための多様なデータ形式を 処理します。 カスタマイズ性 プロンプトのサイズと複雑さにより、 バリエーションに対応するためのプロンプトの管理が 困難になります。 大量のデータの管理と処理の非効率性による複

    雑さ。 品質と精度 複数の実行で結果に一貫性がなく、信頼性が損なわれ ます。 幻 覚の問題に対処するために値を正確に抽出し、追跡 可能でなければならない場合、接地は困難です。 信頼性スコアの欠如 は、下流のプロセスを自動化し、モ デル出力を自動化ワークフローに合わせることを困難にし ます
  4. パブリック プレビュー Azure AI Content Understanding ドキュメント、オーディオ、画像、ビデオ、テキストで構築 AI.Azure.com マルチモーダルアプリ開発の効 率化

    エージェントワークフローの タスク固有の構造化出力 開発をスピードアップするための 事前構築済みテンプレート
  5. Azure AI Content Understanding の機能 グラウンディングと信頼性 のスコア • スキーマで識別された値が正確で、 GenAI

    ツールで使用できることを確 認します。 • 基礎となるコンテンツで地面から抽 出された情報。 • 信頼度スコアを提供して、人間の 介入を減らします。 • ユーザーからのフィードバックを通じて 継続的な改善を可能にします。 情報抽出スキーマ • 抽出された結果のスキーマを定義し ます。 • インサイト、特徴、サマリーなど、出 力のタスク固有の表現を生成しま す。 • エンタープライズGenAIアプリまたは エージェントワークフローを構築して、 LLMとRAGを通じてビジネスプロセ スを自動化します。 マルチモーダル データインジェスト • ドキュメント、画像、オーディオ、ビデ オなど、さまざまなモダリティを取り 込みます。 • Azure AI でさまざまな AI モデルを 使用して、入力データを構造化形 式に変換します。 • ダウンストリームのサービスまたはアプ リケーションを通じて処理および分 析します。
  6. Content Understanding を使用して構築する利点 品質と精度 精度と信頼性: 当社のAIモデルは、正確なデータ抽出を実現する ように構築されており、エラーを減らし、効率を向上 させます。 根拠のある結果: ドキュメントで抽出されたデータをローカライズし、コン

    テンツから応答が生成されるようにして、人間によ るレビューワークフローを可能にします。 信頼度スコア: 信頼度スコアリング、スキーマ抽出、および継続的 な改善を使用して、自動化ワークフローの効率を 最大化します。 多様性、規模、複雑さ スケーラビリティ: 統合サービスを使用してデータ処理機能を簡単に 拡張し、ビジネスの増大する需要に対応します。 カスタマイズ性: 抽出モデルをお客様固有の要件に合わせて調整 し、お客様独自のワークフローに完璧に適合させま す。 複雑さの軽減: マルチモーダルアプリケーションの開発を簡素化し、 価値実現までの時間を短縮します。
  7. Content Understanding のコンポーネント インプット 書類 画像 ビデオ オーディオ テキスト コンテンツ抽出

    前処理 正規化 (解像度、形式) 向き/ 傾き補正 エンリッチメント 話者認識 レイアウトと構造 顔のグループ化 コンテンツ 抽出 アドオン ケイパビリティ フィールド抽出 GPT最適化 コンテキストウィンドウ 迅速なチューニング 後処理 信頼度スコア 接地 正常化 スキーマ 推論 信頼性 とグラウンディング アウトプット 構造 洞察 力 コンテンツ + アドオン コンシューマー 捜索 データベース Copilot アプリ Fabric
  8. フィードバックメカニズムを使用して品質と精度を向上させるための 合理的なアプローチを、ドメインエキスパートに提供します。 • TDMの • 開発者 実務家は、専門的なGenAIスキルを必要とせずに、 ドメイン固有の専門知識を提供することに集中できます。 • TDMの

    • ディベロッパー • BDMの 組織は、信頼度スコアを使用してコンテンツを処理して人間によるレ ビューをトリガーすることで、GenAI を活用したソリューションの 構築コストを削減できます。 • TDMの • ディベロッパー • BDMの 開発者は、複数のモダリティにまたがるデータ型を既存のアプリに 同時に利用し、エンタープライズ向けのカスタムモデルをデプロイできます。 • TDMの • 開発者 サービスに組み込まれた信頼度スコアを使用して、自動化のユースケース を作成します。 • TDMの • 開発者 お客様のメリット 信頼度スコアの 能力がとても気に 入っています。」 リードソフトウェアエンジニア H&R ブロック
  9. マルチモーダリティは、業界全体で採用されています 共通 産業 • ナレッジマネジメント • コンプライアンス記録 ヘルスケア • 医療レポートの生成と

    完成 • 患者との対話の改善 カスタマーサービス • コールセンター分析 • 自動通話サマリー • チャットボットの統合 ドキュメント処理 • 契約分析 • クレーム処理
  10. 通話後の分析 オーディオ + ビデオ + ドキュメント Azure AI Content Understanding

    を使用すると、通話録音 (オー ディオやビデオ) などのさまざまなコンテンツを取り込むことができます • 通話の文字起こし、通話後の内容を分析し、通話を要約します。 • コールセンターのエージェントと顧客と従業員の会話全体でコンプラ イアンスを確保します。 ASC の統合方法を見る コンテンツの理解
  11. ドキュメントの分析 ドキュメント + 画像 Azure AI Content Understanding を使用すると、抽出されたコンテ ンツを使用して情報検索や

    RAG シナリオを構築できます。 • テキスト、表、グラフの画像を含むドキュメントから情報を 抽出します。 • 基本モデルを使用して抽出された情報を分析します。 • 他の言語への翻訳を有効にして、コミュニケーションを円滑にします。 Philips の統合方法をご覧ください コンテンツの理解
  12. メディア資産管理 Azure AI Content Understanding を使用すると、分析情 報、機能、概要など、タスク固有の表現を生成できます。 • ビデオ内のチャプターとシーンを自動的に生成して、編集や リミックスを容易にします。

    • 抽出および分析されるビデオとオーディオに基づいて、コン テキスト広告を挿入します。 オーディオ + ビデオ WPP の統合方法を見る コンテンツの理解
  13. ユースケースの概要 メディアの充実 通話後の分析 オーディオ + ビデオ + ドキュメント • 音声通話やビデオ通話の録音

    など、さまざまなコンテンツを取り 込みます。 • 通話を文字起こし、分析し、 要約します。 • コールセンターのエージェントと 顧客と従業員の会話全体で コンプライアンスを確保します。 ドキュメントの分析 オーディオ + ビデオ • インサイト、特徴、サマリーなど、タス ク固有の表現を生成します。 • ビデオ内のチャプターとシーンを 自動的に生成して、 編集やリミックスを容易にします。 • 抽出および分析されるビデオと オーディオに基づいて、 コンテキスト広告を挿入します。 ドキュメント + 画像 • 抽出されたコンテンツを使用して、 情報ルックアップまたは RAGシナリオを構築します。 • テキスト、表、グラフの画像を含む ドキュメントから情報を抽出します。 • 基本モデルを使用して抽出された 情報を分析します。 • 他の言語への翻訳を有効にして、 コミュニケーションを円滑にします。
  14. 「最近まで、私たちは録音されたオーディオから抽出される洞 察を最大化するための主要なコンポーネントとしてLLMを活 用することに重点を置いてきました。 Azure AI Content Understanding を複数のモダリティで 活用することで、Numonix がお客様に代わってキャプチャす

    る記録データの価値を大幅に向上させることができました。 金融業界におけるよりスマートなコミュニケーション、コンプライ アンス、セキュリティを実現し、世界最大のコールセンターにお ける品質管理を完全に自動化します。」 エヴァン・カハン CTO 兼 CPO ヌモニックス
  15. 「Azure AI Content Understanding により、私たちは音 声から結果を得るソリューションである Philips SpeechLive をまったく新しいレベルに引き上げています。 話すと、完全に生成された正確なドキュメントが得られ、関

    連するすべてのデータソースとシームレスに連携する強力なAI 音声分析のおかげで、すぐに使用できることを想像してみて ください。」 トーマス・ワーグナー 最高技術責任者(CTO) フィリップスのディクテーションソリューション
  16. 「SJR では、Azure AI Content Understanding を活用し て、新製品である GX Manager で画像、オーディオ、ビデオ、

    テキストから情報をシームレスに抽出しています。 次に、会話型のインサイト、ブランドインテリジェンス、マルチ モーダルコンテンツを組み合わせて、よりスマートで魅力的な Webサイトエクスペリエンスをお客様に提供します。」 セレーナ・キャメロン WPP傘下のSJRのCEO
  17. リソース . アナウンスブログ https://aka.ms/content-understanding-launch-blog ブレイクアウト セッション @ Microsoft Ignite 2024

    https://youtu.be/vYjAg27aHkA?si=k73mzRiA7tgEOhoz 製品ページ https://aka.ms/content-understanding ドキュメント https://aka.ms/content-understanding-mslearn AI Foundry https://aka.ms/content-understanding-aistudio
  18. さまざまな業界のお客様 資産管理 「IPVとMicrosoftのコラボレーションにより、 Azureに保存されたメディアは、アクセスし やすく、ストリーミング可能で、検索性の 高いアクティブアーカイブに変換されます。 IPVの新世代のメディア資産管理の強力 な検索エンジンは、Azure AI Content

    Understandingを使用して、アーカイブさ れたビデオクリップを正確に表示し、ユー ザーを数秒で最高価値のコンテンツに誘 導します。 ダニエル・マシュー 最高収益責任者 IPVの ドキュメント処理 Azure AI Content Understanding に より、Philips SpeechLive は、音声から 結果を得るソリューションであり、まったく 新しいレベルに引き上げられます。 話すこと、そして完全に生成された正確 なドキュメントを手に入れることを想像して みてください。 関連するすべてのデータソースとシームレス に連携する強力なAI音声分析」 トーマス・ワーグナー 最高技術責任者 フィリップスのディクテーションソリューション エンゲージメント 「SJR では、Azure AI Content Understanding を活用して、新製品で ある GX Manager で画像、オーディオ、ビ デオ、テキストから情報をシームレスに抽出 しています。次に、会話型のインサイト、ブ ランドインテリジェンス、マルチモーダルコン テンツを組み合わせて、よりスマートで魅 力的なWebサイトエクスペリエンスをお客 様に提供します。」 セレーナ・キャメロン WPP傘下のSJRのCEO
  19. 業界スポットライトコールセンター 「ASCは、コンプライアンス分析ソリューションの市場投入 までの時間を大幅に短縮できると期待しています。必要 なすべてのキャプチャモダリティを1つのリクエストに統合す ることで、さまざまなAPIや形式をカスタマイズして保守す る代わりに、幅広いユースケースをはるかに短時間でカ バーできます。」 トビアス・フェングラー チーフエンジニアリングオフィス 「最近まで、私たちは録音されたオーディオから抽出され

    る洞察を最大化するための主要なコンポーネントとして LLMを活用することに重点を置いてきました。 Azure AI Content Understanding を複数のモダリ ティで活用することで、Numonix がお客様に代わって キャプチャする記録データの価値を大幅に向上させること ができました。金融業界におけるよりスマートなコミュニケー ション、コンプライアンス、セキュリティを実現し、世界最 大のコールセンターにおける品質管理を完全に自動化し ます。」 エヴァン・カハン CTO 兼 CPO ヌモニックス