Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Azure OpenAI Service を使う際の選択肢 Provisioned について ...

Avatar for Daiki Kanemitsu Daiki Kanemitsu
November 04, 2024
1.3k

Azure OpenAI Service を使う際の選択肢 Provisioned について 20250527 update

概要
このプレゼンテーションは、Azure OpenAI Serviceのプロビジョニングオプションについて説明しています。主な内容は、デプロイメントの選択肢、PTU(Provisioned Throughput Unit)の効果的な利用方法、購入およびキャンセルに関する注意事項などです。また、Azure OpenAI Serviceの提供方法やコスト削減のためのAzure Reservationsの利用方法についても触れています。
ドキュメント
https://learn.microsoft.com/en-us/azure/ai-services/openai/concepts/provisioned-throughput?tabs=global-ptum
新機能:Spillover
https://learn.microsoft.com/en-us/azure/ai-services/openai/how-to/spillover-traffic-management

Avatar for Daiki Kanemitsu

Daiki Kanemitsu

November 04, 2024
Tweet

Transcript

  1. これまで以上にパーソナライズされたスマートなアプリ フルスタック開発環境の統合 モデルのカスタマイズ デプロイの柔軟性 エンタープライズ対応のイノベーション デザインによる信頼性 マルチモーダル生成AI Azure OpenAI Service

    大規模な優れたイノベーションと信頼性 顧客体験の向上 データレジデンシー、組み込みのセキュリティ、責任あるAI Azure での OpenAI モデルの同日提供 従量課金またはプロビジョニングされたスループット、 グローバル、データゾーンまたはリージョナル展開 テキスト、オーディオ、ビジョンモデルによるイノベーション Azure AI、アプリ、データ、インフラ+ GitHub間の統合 Fine Tuning、RAGなどのための完全な開発者ツールチェーン
  2. Azure OpenAI Service の提供オプション サービス Azure OpenAI Service オファー デプロイメント

    方法 Global Data Zones NEW Standard (従量課金) Global Data Zones Regional NEW Regional Batch (バッチ処理) Global Data Zones NEW Provisioned (PTU)
  3. Azure OpenAI Service の提供方法について Standard Provisioned Batch • ほとんどのユースケースに最適 •

    予測可能かつ、高いスループットによる 簡単かつ安定したアクセス • 大量のデータを低コストで処理 • 簡単に始めることができ、本番環境に スムーズに移行できます • 大規模で一貫したボリュームの リアルタイム処理 • さまざまなワークロードに対応できる 拡張性 • 低規模から中規模の導入に適した コスト効率 • 大規模な導入に適したコスト効率 • 大規模な導入に適したコスト効率 G O O D F O R : ✓ 運用ワークロード ✓ 開発とテスト ✓ プロトタイピングと概念実証 R E C O M M E N D E D F O R : ✓ 運用ワークロード ✓ 大量のデータ処理 ✓ スループットの高いワークロード ✓ 最小限のレイテンシでリアルタイムな アプリケーション R E C O M M E N D E D F O R : ✓ 大規模なデータ処理 ✓ 大量のコンテンツを生成する データを 大規模に変換する ✓ LLMモデルを評価し、包括的な パフォーマンスを評価
  4. あなたに適したデプロイメント方法の選択肢 Global Data Zone Regional • 最高のスループットで最低価格 • 地理的境界内のリージョン間負荷分 散

    (米国または EU) • 特定のデータ処理 • 最も幅広いモデルの可用性 • より広範囲なモデルの可用性 • 特定のモデルで利用可能 • 最も広範な容量の可用性 • より広範囲な容量の可用性 • 容量の可用性が限定的 B E S T F O R : ✓ 複数のリージョン間で一貫したエクスペ リエンスを必要とするアプリケーション ✓ 低遅延でグローバルに利用可能である 必要があるサービス ✓ コスト削減が優先事項 ✓ デプロイメントに依存しない データ所在地 B E S T F O R : ✓ データ所在地が必要な、より多くの処 理能力を必要とするアプリケーション ✓ コンプライアンス要件を満たすことによる コスト削減 ✓ 最新のAIモデルとイノベーションへの最 適なアクセス B E S T F O R : ✓ データ所在地のコンプライアンスを グローバルに低レイテンシで満たすために 必要なアプリケーション ✓ レイテンシーを短縮するためにエンドユー ザーに近づける必要があるサービス ✓ ローカライズされたデータ処理とストレージ を必要とするアプリケーション
  5. Provisioned Throughput とは? PTU は大容量または低レイテンシが求められる ワークロードを実行するために、モデルの処理能 力を事前予約できるようにする機能です。 予約された処理容量は、プロンプト・ Completion・同時 API

    リクエスト数などの一 貫した特性を持つワークロードに対して、一貫し たレイテンシーとスループットを提供します。 処理能力は「Provisioned Throughput Unit (通称: PTU)」と呼ばれる単位で定義さ れ、毎月のコミットメントに基づいて購入されま す。 購入後、お客様は PTU を使用して、コミットメ ント期間中にGPT-4o または GPT-4o mini の モデルのプロビジョニングされた Azure OpenAI Service を作成することができます。
  6. 予測可能な パフォーマンス Provisioned Throughput を活用するメリット 大規模な利用が見込まれる本番運用に最適 コスト 最適化 処理容量の 事前予約

    安定したレイテンシーと スループット 需要に見合った 処理能力の確保 トークン量に基づいた従量課金 と比較したコスト削減 • Provisioned Throughput Units (PTUs) は、プロンプトの処理と出力の生成のために予約されたモデルの処理能力です。 • より強力なモデルはより多くの処理能力を必要とするため、実行には多くの PTU が必要になります。 • PTU あたりの1分あたりのトークン (TPM) は、ワークロードによって異なります。 • Azure OpenAI Service は、シナリオの特性に基づいてデプロイのサイジングを支援するための計算ツールを提供しています。
  7. Provisioned Throughput の購入 • PTUs は毎月のコミットメントとしてご購入頂けます。 • コミットされた PTU はお客様のために予約・確保されます。

    • ご請求は購入日の1カ月前に前払いとなります。 • PTUs は月の途中で追加することが可能ですが、減らすことはできません。 • コミットメントが更新されない場合、デプロイされた PTUs は1時間あたりの超過料金として請求さ れます。
  8. 東日本リージョンでPTUを利用可能なモデル 2025/5/27 時点 東日本リージョン Azure OpenAI in Azure AI Foundry

    Models provisioned throughput - Azure AI services | Microsoft Learn Provisioned Global Regional Provisioned
  9. Provisioned Managed セルフサービス購入により、 導入を迅速化 プロビジョニングされたセルフサービスのクォータ管理: • ユーザーフレンドリーなフォームによる簡単なクォータリクエスト • 迅速な自動承認プロセスにより、導入を迅速化 柔軟なモデル使用:

    • クォータは任意のモデル/バージョンに使用でき、柔軟性が向上します • アクセスを容易にするために、サポートされているすべてのリージョンに既定のクォータが割り当 てられます リアルタイムの容量に関する洞察: • 地域サービス容量への透明性の高いアクセスにより、より良い計画を立てることができます。 • ガイド付きデプロイ エクスペリエンスでは、容量がいっぱいの場合に代替リージョンが提供され ます 新しい予約モデルを組み込む: • 月間および年額のコミットメントの割引 Azure 予約 • 時間単位の請求のオプションであり、ワークロードのテストと移行を簡素化するためのコミットメ ントはありません
  10. 初期の購入数が少ないため、簡単に始めることが可能に Provisioned デプロイの種類とモデルごとの最小購入単位/増分購入単位 o3-mini 15 5 15 5 15 5

    25 25 o1 15 5 15 5 15 5 25 50 GPT 4.1 15 5 15 5 15 5 50 50 GPT 4.1 mini 15 5 15 5 15 5 25 25 GPT 4o 15 5 15 5 15 5 50 50 GPT 4o mini 15 5 15 5 15 5 25 25 Model Global 最小 増分 Data Zone EU 最小 US 増分 Regional 最小 増分 最小 増分 最小 増分 最小 増分 ※単位: PTU Understanding costs associated with provisioned throughput units (PTU) - Azure AI services | Microsoft Learn
  11. Azure Reservations によるコスト削減 時間単位PTU (1PTUあたり) 1ヶ月・予約 /月額 (1PTUあたり) 1年・予約 /月額

    (1PTUあたり) $1.00 $260 $221 $1.10 $260 $221 $2.00 $260 $221 *Changes この価格は2024年11月1日より適用されます。より詳細な価格設定については、Azure OpenAI Service Pricing. Global Data Zone USA&EU* Data Zone Regional
  12. PTUの試算方法 簡易計算式を利用 Azure OpenAI Service の[クオータ]→[Azure OpenAI Provisioned] → [容量計算ツール]

    にて試算可能:もしくは Azure OpenAI 容量計算ツール から • モデル:使う予定の OpenAI モデル • バージョン:使う予定のモデルのバージョン • Peak calls per min:1分間のCallされる回数 • Token in prompt call: 1分間の入力トーク数 • Image input tokens:1分間の画像入力トーク数 ※利用しない際は 0 として入力すること • Tokens in Model response: 1分間の出力トークン数 試算ツールを利用 gpt-4o, 2024-05-13 & gpt-4o, 2024-08-06 gpt-4o-mini、2024- 07-18 デプロイ可能な増分 50 25 PTU あたりの入力 TPM 2,500 37,000 PTU あたりの出力 TPM 833 12,333 • デプロイにおけるTPMは、入力および出力トークン数の相関関係に基づきます。 出力トークンが多いほど、TPMは低くなるが、サービスが動的にコストバランスを 調整するため、特定の制限をユーザーが設定する必要はありません。 • GPT-4o/miniについて、PTUごとのTPMの概要を提示します。 Azure OpenAI Service のプロビジョニング スループット - Azure AI services | Microsoft Learn
  13. Provisioned の最小導入金額を試算してみる 月額のAzure予約をして、1PTU = $260 = 37,700円 ($1=145円) とした場合 o3-mini

    15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 25 94万2500円 25 94万2500円 o1 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 25 94万2500円 50 188万5000円 GPT 4.1 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 50 188万5000円 50 188万5000円 GPT 4.1 mini 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 25 94万2500円 25 94万2500円 GPT 4o 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 50 188万5000円 50 188万5000円 GPT 4o mini 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 25 94万2500円 25 97万5000円 *Note retirement dates for legacy models: Azure OpenAI Service model retirements - Azure OpenAI | Microsoft Learn. Model Global 最小 増分 Data Zone EU 最小 US 増分 Regional 最小 増分 最小 増分 最小 増分 最小 増分 ※ 単位 PTU
  14. シームレススケールのためのPTU Spillover の紹介 利点 ➢ No 429 Errors: スパイク中でもシームレス ➢

    コストの最適化:オーバープロビジョニングを伴わな い適切なサイズのPTU ➢ 自動スケーリング: ハンズフリーのトラフィック処理 ➢ データ ゾーンのすべてのモデルと、グローバル PT デプロイで使用できます。 PTU が容量に達すると、トラフィックを PAYG エンドポイントに自動的にリダイレクトし、 中断を防ぎます。 仕組み 1. PAYG スピルオーバー デプロイの設定 2. 有効にする方法を選択する o デフォルトでオンにする(推奨) o 特定のリクエストのみにヘッダーを設定する 3. PTU が容量に達すると、トラフィックはリダイレクトさ れます 4. リクエストは失敗なく処理されます 5. Azure Monitor を使用してスピルオーバー要求を 追跡する パブリック プレビュー この機能をより詳細に有効にする方法については、 プロビジョニングされたデプロイのスピルオーバーを使用してトラフィックを管理する - Azure AI サービス |マイクロソフト ラーン
  15. プロビジョニングされた デプロイメントの モニタリング • 一元化されたダッシュボード: AI Foundry AOAI Resource View

    と AOAI Azure ポータル。 • PTU に固有のビュー : 使用量、使用率、待機時間を 表示し、コストを最適化します。 • 新しいメトリクス:最後のバイトまでの時間、キャッシュトー クン、最初のバイトまでの時間、1秒あたりのトークン数、 オーディオトークンなど。 • 診断ログ: "Azure OpenAI 要求応答ログ" と呼ばれる 新しいカテゴリには、生成されたトークンと完了したトーク ン、およびさまざまな待機時間の測定値が表示されます
  16. プロビジョニングされた予約 コスト削減の達成 自分の条件でコミットする コストの合理化 管理 プロビジョニングされた予約の節約 最大割引 70%* $0.3028/時間** $221/月または

    $2,652/年 *70% の節約は、GPT-4o Global のプロビジョニング スループットの時間単価が約 1 ドル/時間であるのに対し、1 年間の予約の割引料金は約 0.3028 ドル/時間に基づいています。2025 年 1 月 1 日時点の Azure の価 格 (価格は変更される場合があります。実際の節約額は、特定の大規模言語モデルと利用可能な地域によって異なる場合があります。 **月の時間単価は、月の日数に基づいて変更される場合があります $0.356/時間** 1時間あた り1ドル $260/月 1ヶ月の予約 PTU/時間 1年間の予約 サンプル価格は、時間あたりのコストを比較したものです。このサンプル シナリオは、プレゼンテーション専用です。
  17. コスト削減の達成 Azure OpenAI Service のプロビジョニング済み予約にコミットすると、大幅な 節約が可能になります • Azure OpenAI サービスで時間単位の料金と比較して最大

    70% 節約 • 明確な初期費用構造を備えた従量課金制モデルの予測不可能性から脱却す る • 前払いと月単位の予約の合計費用は同じで、月払いまたは1年払いを選択した 場合、追加料金はかかりません
  18. コスト管理の合理化 プロビジョニングされた予約の購入と管理は、いくつかの 簡単な手順で行うことができます。 • 削減額は、購入したリージョンと予約スコープ内の一致するデプロイの種類 (リー ジョン、グローバル、またはデータ ゾーン) に自動的に適用されます。 •

    プロビジョニングされた予約はモデル固有ではなく、 デプロイの種類内のすべてのモ デルが対象となります。 • 1 つの予約は、1 つのサブスクリプション内またはサブスクリプション間で プロビジョ ニングされた使用量もカバーします。
  19. 実装計画 API Management の柔軟性 デプロイに APIM を追加すると、複数の利点がある 1. 複数のユースケースでエンドポイントを再利用し、ユースケース ごとにリダイレクト

    2. 特定のアプリケーションまたはユーザーからのトラフィックに優先 順位を付ける 3. アプリケーションを最適化するための再試行ロジックの実装 4. 社内のチャージバックを実装する Learn more via these GitHub Repo: • Azure/aoai-apim: Scaling AOAI using APIM, PTUs and TPMs (github.com) • Azure-Samples/private-openai-with-apim-for-chargeback: Open AI with Private Endpoints behind APIM and functionality to get tokens consumption for each consumer (github.com) Azure-Samples/AI-Gateway: APIM OpenAI - this repo contains a set of experiments on using GenAI capabilities of Azure API Management with Azure OpenAI and other services オススメの GitHub Repo
  20. 実装計画 コストとスケールの弾力性 Provisioned plus Standard でワーク ロードのサイズを適切に設定する方法 オプションの最適な組み合わせを選択するには、 下記の事項を検討してみてください。 1.

    ワークロードのトラフィックパターンはどのようなものか? • そのトラフィックはどの程度広く分散されているか • トラフィックのピーク時間は何時ですか?現状の従量課金のログを参照 2. このプロセスの現在の全体的な予算/支出はどれくらいか? • 現在のプロセスの総コスト:Azure OpenAI Serviceのコストを参照 • プロセス全体の節約目標 3. プロビジョニング済み容量を共有できる他のユースケース • 他のタイムゾーンにも同様のニーズと、別の時間帯にピークがあるケース • コアの利用時間外で、リアルタイム処理がバッチの使用を夜間に実施する Learn more via this blog: Right-size your PTU deployment and save big (microsoft.com)
  21. 実装計画 トラフィックのコントロール 0AM 6AM 12PM 18PM 0AM 100% 0AM 6AM

    12PM 18PM 0AM 100% 0AM 6AM 12PM 18PM 0AM 方法1 レート制御 100% 95% • レート制御ができるお客様向き • PTUを最大限活用 • 実施難度が高い • レイテンシーをやや損ねる 方法2 リトライ 方法3 PAYGへ誘導 • 不定期的なスパイク向き • 実施が容易 • レイテンシーをやや損ねる • コストセンシティブなお客様向き • TPM上限値が必要な量よりやや 下回る場合に適す • レイテンシーがかなり上がる
  22. 実装計画 信頼性とセキュリティのための優れた設計 ベスト プラクティスのランディング ゾーンを実装し て、Gen AI 実装の回復力、冗長性、セキュリ ティのニーズを満たすようにします。 また、このガイダンスは、Azure

    AI Search や Azure Machine Learning (PromptFlow) な どの重要なサービスを含むように拡張され、完 全に機能する Gen AI のユース ケースを構築し ます。 Learn more via these docs: • Azure Well-Architected Framework perspective on Azure OpenAI - Microsoft Azure Well-Architected Framework | Microsoft Learn • Baseline OpenAI end-to-end chat reference architecture - Azure Reference Architectures | Microsoft Learn)
  23. Azure OpenAI Self Service オンボードステップ https://oai.azure.com Azure OpenAIデプロイ用のサブスクリプションを準備 クォータのチェック •PTUに対するクォータの確認

    https://oai.azure.com Azure OpenAIリソースの作成 •新しいリソースの作成(必要な場合) プロビジョニングされたデプロイメントの作成 •リージョン、モデル/バージョンの選択 •AI Studioを使用して最初のデプロイを作成する Azureの予約を購入する •コミットメント期間を選択することで、長期使用の大幅な割引を適用
  24. プロビジョニングされたスループットデプ ロイの作成 – Step 1 Step 1: プロビジョニングされたデプロイを作成するには、ま ず Azure

    OpenAI Service リソースでデプロ イ ダイアログを呼び出し、モデル カタログから目的 のモデルを選択します。
  25. プロビジョニングされたスループットデプロイの作成 - Step 3 Step 3: 次のように入力します。  デプロイ名 

    モデルバージョン  デプロイの種類  デプロイする PTU の数  コンテンツ フィルター設定 クォータと容量の可用性:  プロビジョニングされたスループット サービス容量は、お客様の需要に基 づいて動的に変動します。  デプロイメントを作成するには、使用可能なクォータとサービス容量の両 方が必要です。  リージョンが要求された数の PTU をサポートできない場合、Studio は、 目的のモデルで使用可能なクォータと容量を持つ他のリージョンの一 覧を提供します。  その他のオプションには、PTU の数を減らす、新しいモデルを選択する、 別の時間にデプロイを再試行するなどがあります。
  26. プロビジョニングされたスループットクォータの表示 使用可能なプロビジョニング済みスループ ット クォータ (PTU) を表示するには、AI Studio の [クォータ] ブレードの

    [Azure OpenAI Service プロビジョニング済み] タブに移動します。 ビューには、選択したリージョンの PTU 制 限と使用量が表示されます。クォータ名を 展開すると、クォータを使用してリージョン 内のデプロイが表示されます。
  27. 予約の仕組み 予約は請求割引を提供し、リソースの実行状 態に影響を与えません。  予約に関連付けられた割引は、指定したリージョンのデプロイタ イプ*に自動的に適用されます。  割引は「使うか失うか」です。一致するリソースがどの時間にも ない場合、その時間の予約数量は失われます。 

    予約金額を超えた使用量は、時間単位の料金で請求されま す。  プロビジョニングされた予約はデプロイではありません。 *グローバル、Data Zone、およびリージョンのデプロイの予約は互換性がありません。デプロイの種 類ごとに個別の予約を購入する必要があります。
  28. プロビジョニングされた予約を購入する方法 Azure Reservations は、Azure portal から地域単位で購入でき、デプロイのグループ からの使用をカバーするように柔軟にスコープを設定できます。  Azure Portal

    の予約ブレードを使用する  対象とする Azure のリージョン、数量、デプロイの種類を選択します  Azure OpenAI Service SKU (グローバル、データ ゾーン、またはリージョン) をカートに追加します  購入するプロビジョニング済みスループット ユニットの数量を確認し、注文を完了します 購入デモを見る
  29. 容量とコストの見積もり 役立つツールには、次のようなも のがあります  Azure AI Foundry の容量計算ツールを使用して、ワークロードに必要な PTU を見積もりま

    す  Azure 料金計算ツールを使用してコストを比較する  Azure Advisor での予約に関する推奨事項を見つける  Microsoft Cost Management での支出の計画、設定、割り当て
  30. シナリオ例 100 Global Reservations 購入 ▲ 20 Global PTUs (時間単位料金で

    請求) ▼ 100のグローバルPTU 予約でカバー より低価格で • 米国西部に100のグローバルPTUを展開 • 米国西部で 100 のグローバル プロビジョニングされた予約を購入 • 予約は、米国西部の100のグローバルPTUに適用されます • 米国西部に 20 のグローバル PTU を追加でデプロイします • 米国西部にあるこれらの 20 のグローバル PTU は、時間単位で課金されます 価格は説明のみを目的としています。 1時間あたり
  31. Provisioned Managed を購入する際の注意 • Provisioned Managed を作成後は、すぐにAzure予約を行う • Azure予約から購入するは推奨しない。というのも、Azure予約でディスカウント適用済みのPTU数量を 購入したとしても、デプロイメント時に以下の理由で利用でデプロイできず、無駄な購入となることがある。

    1. PTUのクオータがなく、モデルをデプロイすることができない。 2. Azure側でリージョンのキャパシティーの制約により、モデルをデプロイすることができない。 • 任意: Provisioned Managed のデプロイメントの作成できる人の権限を絞る • Azure サブスクリプションで Provisioned のデプロイメントを作成できないように制限する必要がある場合は、 Azure Policy により利用可能なデプロイの種類を限定できます。 Microsoft Azure OpenAI Service Provisioned Reservations を使用してコストを節約する - Microsoft Cost Management | Microsoft Learn Azure OpenAI ServiceのProvisionedデプロイについて | Japan Cognitive Services Support Blog
  32. Provisioned Managed を減数・解約する際の注意 • Provisioned Managedを解約し、従量課金へ移行したい場合 • Azure 予約をしている際は、自動更新をオフにする。 •

    Azure 予約が解除される前に、つまり、Provisioned Managedが時間課金になる前に デプロイメント(モデル)を削除する。その際、モデルを残したままリソースごと削除しないこと。 ※ サービス利用有無にかかわらず、モデルをデプロイしている間は時間課金となるため。 • Provisioned Managed のPTU数量を減らしたいとき • Azure 予約の自動更新をオフにする。 • (a) Azure 予約が解約された後に、新規の数量で再び予約する。 同時に、デプロイしているモデルのPTU数も希望数量に変更する。 ※解約後から次のAzure予約が適用されるまでの時間課金料金が発生する • (b: オススメ) Azure 予約が解約される前に、新規の数量で再び予約する。 同時に、デプロイしているモデルのPTU数も希望数量に変更する。 ※前月のAzure予約分と新規のAzure予約が一部重複する。 詳細については、「削除された Azure AI サービス リソースの復旧または消去」を参 照してください。 Azure OpenAI Service プロビジョニング スループット ユニット (PTU) のオンボード - Azure AI services | Microsoft Learn
  33. 参照ドキュメント クオータの申請方法 Azure OpenAI Service: Request for Quota Increase プロビジョニングの概要

    Azure OpenAI Service のプロビジョニング スループット - Azure AI services | Microsoft Learn プロビジョニングの利用手順 クイック スタート - Azure OpenAI Service でプロビジョニングされたデプロイの使用を開始する - Azure OpenAI Service | Microsoft Learn プロビジョニングのサイジング・PTUにおける Azure予約について Azure OpenAI Service プロビジョニング スループット ユニット (PTU) のオンボード - Azure AI services | Microsoft Learn Azure予約の手順 Microsoft Azure OpenAI Service Provisioned Reservations を使用してコストを節約する - Microsoft Cost Management | Microsoft Learn