Azure OpenAI Service を使う際の選択肢 Provisioned について 20250527 update

Azure OpenAI Service を使う際の選択肢 Provisioned について Microsoft Global Black Belt
AI

目次デプロイメントの選択肢 PTUをうまく使う方法購入、キャンセルに関する注意事項

これまで以上にパーソナライズされたスマートなアプリフルスタック開発環境の統合モデルのカスタマイズデプロイの柔軟性エンタープライズ対応のイノベーションデザインによる信頼性マルチモーダル生成AI Azure OpenAI Service
大規模な優れたイノベーションと信頼性顧客体験の向上データレジデンシー、組み込みのセキュリティ、責任あるAI Azure での OpenAI モデルの同日提供従量課金またはプロビジョニングされたスループット、グローバル、データゾーンまたはリージョナル展開テキスト、オーディオ、ビジョンモデルによるイノベーション Azure AI、アプリ、データ、インフラ+ GitHub間の統合 Fine Tuning、RAGなどのための完全な開発者ツールチェーン

Azure OpenAI Service の提供オプションサービス Azure OpenAI Service オファーデプロイメント
方法 Global Data Zones NEW Standard (従量課金) Global Data Zones Regional NEW Regional Batch (バッチ処理) Global Data Zones NEW Provisioned (PTU)

Azure OpenAI Service の提供方法について Standard Provisioned Batch • ほとんどのユースケースに最適 •
予測可能かつ、高いスループットによる簡単かつ安定したアクセス • 大量のデータを低コストで処理 • 簡単に始めることができ、本番環境にスムーズに移行できます • 大規模で一貫したボリュームのリアルタイム処理 • さまざまなワークロードに対応できる拡張性 • 低規模から中規模の導入に適したコスト効率 • 大規模な導入に適したコスト効率 • 大規模な導入に適したコスト効率 G O O D F O R : ✓ 運用ワークロード ✓ 開発とテスト ✓ プロトタイピングと概念実証 R E C O M M E N D E D F O R : ✓ 運用ワークロード ✓ 大量のデータ処理 ✓ スループットの高いワークロード ✓ 最小限のレイテンシでリアルタイムなアプリケーション R E C O M M E N D E D F O R : ✓ 大規模なデータ処理 ✓ 大量のコンテンツを生成するデータを大規模に変換する ✓ LLMモデルを評価し、包括的なパフォーマンスを評価

あなたに適したデプロイメント方法の選択肢 Global Data Zone Regional • 最高のスループットで最低価格 • 地理的境界内のリージョン間負荷分散
(米国または EU) • 特定のデータ処理 • 最も幅広いモデルの可用性 • より広範囲なモデルの可用性 • 特定のモデルで利用可能 • 最も広範な容量の可用性 • より広範囲な容量の可用性 • 容量の可用性が限定的 B E S T F O R : ✓ 複数のリージョン間で一貫したエクスペリエンスを必要とするアプリケーション ✓ 低遅延でグローバルに利用可能である必要があるサービス ✓ コスト削減が優先事項 ✓ デプロイメントに依存しないデータ所在地 B E S T F O R : ✓ データ所在地が必要な、より多くの処理能力を必要とするアプリケーション ✓ コンプライアンス要件を満たすことによるコスト削減 ✓ 最新のAIモデルとイノベーションへの最適なアクセス B E S T F O R : ✓ データ所在地のコンプライアンスをグローバルに低レイテンシで満たすために必要なアプリケーション ✓ レイテンシーを短縮するためにエンドユーザーに近づける必要があるサービス ✓ ローカライズされたデータ処理とストレージを必要とするアプリケーション

Provisioned Throughput とは？ PTU は大容量または低レイテンシが求められるワークロードを実行するために、モデルの処理能力を事前予約できるようにする機能です。予約された処理容量は、プロンプト・ Completion・同時 API
リクエスト数などの一貫した特性を持つワークロードに対して、一貫したレイテンシーとスループットを提供します。処理能力は「Provisioned Throughput Unit (通称: PTU)」と呼ばれる単位で定義され、毎月のコミットメントに基づいて購入されます。購入後、お客様は PTU を使用して、コミットメント期間中にGPT-4o または GPT-4o mini のモデルのプロビジョニングされた Azure OpenAI Service を作成することができます。

予測可能なパフォーマンス Provisioned Throughput を活用するメリット大規模な利用が見込まれる本番運用に最適コスト最適化処理容量の事前予約
安定したレイテンシーとスループット需要に見合った処理能力の確保トークン量に基づいた従量課金と比較したコスト削減 • Provisioned Throughput Units (PTUs) は、プロンプトの処理と出力の生成のために予約されたモデルの処理能力です。 • より強力なモデルはより多くの処理能力を必要とするため、実行には多くの PTU が必要になります。 • PTU あたりの1分あたりのトークン (TPM) は、ワークロードによって異なります。 • Azure OpenAI Service は、シナリオの特性に基づいてデプロイのサイジングを支援するための計算ツールを提供しています。

Provisioned Throughput の購入 • PTUs は毎月のコミットメントとしてご購入頂けます。 • コミットされた PTU はお客様のために予約・確保されます。
• ご請求は購入日の1カ月前に前払いとなります。 • PTUs は月の途中で追加することが可能ですが、減らすことはできません。 • コミットメントが更新されない場合、デプロイされた PTUs は1時間あたりの超過料金として請求されます。

東日本リージョンでPTUを利用可能なモデル 2025/5/27 時点東日本リージョン Azure OpenAI in Azure AI Foundry
Models provisioned throughput - Azure AI services | Microsoft Learn Provisioned Global Regional Provisioned

Provisioned Managed セルフサービス購入により、導入を迅速化プロビジョニングされたセルフサービスのクォータ管理: • ユーザーフレンドリーなフォームによる簡単なクォータリクエスト • 迅速な自動承認プロセスにより、導入を迅速化柔軟なモデル使用:
• クォータは任意のモデル/バージョンに使用でき、柔軟性が向上します • アクセスを容易にするために、サポートされているすべてのリージョンに既定のクォータが割り当てられますリアルタイムの容量に関する洞察: • 地域サービス容量への透明性の高いアクセスにより、より良い計画を立てることができます。 • ガイド付きデプロイエクスペリエンスでは、容量がいっぱいの場合に代替リージョンが提供されます新しい予約モデルを組み込む: • 月間および年額のコミットメントの割引 Azure 予約 • 時間単位の請求のオプションであり、ワークロードのテストと移行を簡素化するためのコミットメントはありません

初期の購入数が少ないため、簡単に始めることが可能に Provisioned デプロイの種類とモデルごとの最小購入単位/増分購入単位 o3-mini 15 5 15 5 15 5
25 25 o1 15 5 15 5 15 5 25 50 GPT 4.1 15 5 15 5 15 5 50 50 GPT 4.1 mini 15 5 15 5 15 5 25 25 GPT 4o 15 5 15 5 15 5 50 50 GPT 4o mini 15 5 15 5 15 5 25 25 Model Global 最小増分 Data Zone EU 最小 US 増分 Regional 最小増分最小増分最小増分最小増分 ※単位: PTU Understanding costs associated with provisioned throughput units (PTU) - Azure AI services | Microsoft Learn

Azure Reservations によるコスト削減時間単位PTU (1PTUあたり) 1ヶ月・予約 /月額 (1PTUあたり) 1年・予約 /月額
(1PTUあたり) $1.00 $260 $221 $1.10 $260 $221 $2.00 $260 $221 *Changes この価格は2024年11月1日より適用されます。より詳細な価格設定については、Azure OpenAI Service Pricing. Global Data Zone USA&EU* Data Zone Regional

PTUの試算方法簡易計算式を利用 Azure OpenAI Service の[クオータ]→[Azure OpenAI Provisioned] → [容量計算ツール]
にて試算可能：もしくは Azure OpenAI 容量計算ツールから • モデル：使う予定の OpenAI モデル • バージョン：使う予定のモデルのバージョン • Peak calls per min：1分間のCallされる回数 • Token in prompt call: 1分間の入力トーク数 • Image input tokens：1分間の画像入力トーク数 ※利用しない際は 0 として入力すること • Tokens in Model response: 1分間の出力トークン数試算ツールを利用 gpt-4o, 2024-05-13 & gpt-4o, 2024-08-06 gpt-4o-mini、2024- 07-18 デプロイ可能な増分 50 25 PTU あたりの入力 TPM 2,500 37,000 PTU あたりの出力 TPM 833 12,333 • デプロイにおけるTPMは、入力および出力トークン数の相関関係に基づきます。出力トークンが多いほど、TPMは低くなるが、サービスが動的にコストバランスを調整するため、特定の制限をユーザーが設定する必要はありません。 • GPT-4o/miniについて、PTUごとのTPMの概要を提示します。 Azure OpenAI Service のプロビジョニングスループット - Azure AI services | Microsoft Learn

Provisioned の最小導入金額を試算してみる月額のAzure予約をして、1PTU = $260 = 37,700円 ($1=145円) とした場合 o3-mini
15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 25 94万2500円 25 94万2500円 o1 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 25 94万2500円 50 188万5000円 GPT 4.1 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 50 188万5000円 50 188万5000円 GPT 4.1 mini 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 25 94万2500円 25 94万2500円 GPT 4o 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 50 188万5000円 50 188万5000円 GPT 4o mini 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 15 56万5500円 5 18万8500円 25 94万2500円 25 97万5000円 *Note retirement dates for legacy models: Azure OpenAI Service model retirements - Azure OpenAI | Microsoft Learn. Model Global 最小増分 Data Zone EU 最小 US 増分 Regional 最小増分最小増分最小増分最小増分 ※ 単位 PTU

シームレススケールのためのPTU Spillover の紹介利点 ➢ No 429 Errors: スパイク中でもシームレス ➢
コストの最適化:オーバープロビジョニングを伴わない適切なサイズのPTU ➢ 自動スケーリング: ハンズフリーのトラフィック処理 ➢ データゾーンのすべてのモデルと、グローバル PT デプロイで使用できます。 PTU が容量に達すると、トラフィックを PAYG エンドポイントに自動的にリダイレクトし、中断を防ぎます。仕組み 1. PAYG スピルオーバーデプロイの設定 2. 有効にする方法を選択する o デフォルトでオンにする(推奨) o 特定のリクエストのみにヘッダーを設定する 3. PTU が容量に達すると、トラフィックはリダイレクトされます 4. リクエストは失敗なく処理されます 5. Azure Monitor を使用してスピルオーバー要求を追跡するパブリックプレビューこの機能をより詳細に有効にする方法については、プロビジョニングされたデプロイのスピルオーバーを使用してトラフィックを管理する - Azure AI サービス |マイクロソフトラーン

プロビジョニングされたデプロイメントのモニタリング • 一元化されたダッシュボード: AI Foundry AOAI Resource View
と AOAI Azure ポータル。 • PTU に固有のビュー : 使用量、使用率、待機時間を表示し、コストを最適化します。 • 新しいメトリクス:最後のバイトまでの時間、キャッシュトークン、最初のバイトまでの時間、1秒あたりのトークン数、オーディオトークンなど。 • 診断ログ: "Azure OpenAI 要求応答ログ" と呼ばれる新しいカテゴリには、生成されたトークンと完了したトークン、およびさまざまな待機時間の測定値が表示されます

プロビジョニングされた予約コスト削減の達成自分の条件でコミットするコストの合理化管理プロビジョニングされた予約の節約最大割引 70%* $0.3028/時間** $221/月または
$2,652/年 *70% の節約は、GPT-4o Global のプロビジョニングスループットの時間単価が約 1 ドル/時間であるのに対し、1 年間の予約の割引料金は約 0.3028 ドル/時間に基づいています。2025 年 1 月 1 日時点の Azure の価格 (価格は変更される場合があります。実際の節約額は、特定の大規模言語モデルと利用可能な地域によって異なる場合があります。 **月の時間単価は、月の日数に基づいて変更される場合があります $0.356/時間** 1時間あたり1ドル $260/月 1ヶ月の予約 PTU/時間 1年間の予約サンプル価格は、時間あたりのコストを比較したものです。このサンプルシナリオは、プレゼンテーション専用です。

コスト削減の達成 Azure OpenAI Service のプロビジョニング済み予約にコミットすると、大幅な節約が可能になります • Azure OpenAI サービスで時間単位の料金と比較して最大
70% 節約 • 明確な初期費用構造を備えた従量課金制モデルの予測不可能性から脱却する • 前払いと月単位の予約の合計費用は同じで、月払いまたは1年払いを選択した場合、追加料金はかかりません

自分の条件でコミットする Azure OpenAI Service のプロビジョニングされた予約は、ビジネスイニシアチブと実際の使用状況に基づいてコミットします。 • 過去または予測された使用量に基づくカスタムレコメンデーションに基づいて、何を購入すべきかを自信を持って把握できます。
• 1か月または1年の期間を利用して、予算目標をサポートします。 • 注文を自動的に更新して、節約を維持し、予期しないコストを回避します。

コスト管理の合理化プロビジョニングされた予約の購入と管理は、いくつかの簡単な手順で行うことができます。 • 削減額は、購入したリージョンと予約スコープ内の一致するデプロイの種類 (リージョン、グローバル、またはデータゾーン) に自動的に適用されます。 •
プロビジョニングされた予約はモデル固有ではなく、デプロイの種類内のすべてのモデルが対象となります。 • 1 つの予約は、1 つのサブスクリプション内またはサブスクリプション間でプロビジョニングされた使用量もカバーします。

Azure OpenAI Serviceを利用してみよう最適な Azure OpenAI Service モデルを評価する aka.ms/aoailatest 要件とデプロイの種類を決定する
aka.ms/aoaideployments 今すぐコスト削減を活用してみよう aka.ms/aoaipturi

PTU ベストプラクティス

実装計画 API Management の柔軟性デプロイに APIM を追加すると、複数の利点がある 1. 複数のユースケースでエンドポイントを再利用し、ユースケースごとにリダイレクト
2. 特定のアプリケーションまたはユーザーからのトラフィックに優先順位を付ける 3. アプリケーションを最適化するための再試行ロジックの実装 4. 社内のチャージバックを実装する Learn more via these GitHub Repo: • Azure/aoai-apim: Scaling AOAI using APIM, PTUs and TPMs (github.com) • Azure-Samples/private-openai-with-apim-for-chargeback: Open AI with Private Endpoints behind APIM and functionality to get tokens consumption for each consumer (github.com) Azure-Samples/AI-Gateway: APIM OpenAI - this repo contains a set of experiments on using GenAI capabilities of Azure API Management with Azure OpenAI and other services オススメの GitHub Repo

実装計画コストとスケールの弾力性 Provisioned plus Standard でワークロードのサイズを適切に設定する方法オプションの最適な組み合わせを選択するには、下記の事項を検討してみてください。 1.
ワークロードのトラフィックパターンはどのようなものか? • そのトラフィックはどの程度広く分散されているか • トラフィックのピーク時間は何時ですか?現状の従量課金のログを参照 2. このプロセスの現在の全体的な予算/支出はどれくらいか? • 現在のプロセスの総コスト：Azure OpenAI Serviceのコストを参照 • プロセス全体の節約目標 3. プロビジョニング済み容量を共有できる他のユースケース • 他のタイムゾーンにも同様のニーズと、別の時間帯にピークがあるケース • コアの利用時間外で、リアルタイム処理がバッチの使用を夜間に実施する Learn more via this blog: Right-size your PTU deployment and save big (microsoft.com)

実装計画トラフィックのコントロール 0AM 6AM 12PM 18PM 0AM 100% 0AM 6AM
12PM 18PM 0AM 100% 0AM 6AM 12PM 18PM 0AM 方法1 レート制御 100% 95% • レート制御ができるお客様向き • PTUを最大限活用 • 実施難度が高い • レイテンシーをやや損ねる方法2 リトライ方法3 PAYGへ誘導 • 不定期的なスパイク向き • 実施が容易 • レイテンシーをやや損ねる • コストセンシティブなお客様向き • TPM上限値が必要な量よりやや下回る場合に適す • レイテンシーがかなり上がる

実装計画信頼性とセキュリティのための優れた設計ベストプラクティスのランディングゾーンを実装して、Gen AI 実装の回復力、冗長性、セキュリティのニーズを満たすようにします。また、このガイダンスは、Azure
AI Search や Azure Machine Learning (PromptFlow) などの重要なサービスを含むように拡張され、完全に機能する Gen AI のユースケースを構築します。 Learn more via these docs: • Azure Well-Architected Framework perspective on Azure OpenAI - Microsoft Azure Well-Architected Framework | Microsoft Learn • Baseline OpenAI end-to-end chat reference architecture - Azure Reference Architectures | Microsoft Learn)

仕組み購入と使用

Azure OpenAI Self Service オンボードステップ https://oai.azure.com Azure OpenAIデプロイ用のサブスクリプションを準備クォータのチェック •PTUに対するクォータの確認
https://oai.azure.com Azure OpenAIリソースの作成 •新しいリソースの作成(必要な場合) プロビジョニングされたデプロイメントの作成 •リージョン、モデル/バージョンの選択 •AI Studioを使用して最初のデプロイを作成する Azureの予約を購入する •コミットメント期間を選択することで、長期使用の大幅な割引を適用

プロビジョニングされたスループットデプロイの作成 – Step 1 Step 1: プロビジョニングされたデプロイを作成するには、まず Azure
OpenAI Service リソースでデプロイダイアログを呼び出し、モデルカタログから目的のモデルを選択します。

プロビジョニングされたスループットデプロイの作成 - Step 2 Step 2: モデルを選択すると、デプロイダイアログが表示されます。

プロビジョニングされたスループットデプロイの作成 - Step 3 Step 3: 次のように入力します。  デプロイ名 
モデルバージョン  デプロイの種類  デプロイする PTU の数  コンテンツフィルター設定クォータと容量の可用性:  プロビジョニングされたスループットサービス容量は、お客様の需要に基づいて動的に変動します。  デプロイメントを作成するには、使用可能なクォータとサービス容量の両方が必要です。  リージョンが要求された数の PTU をサポートできない場合、Studio は、目的のモデルで使用可能なクォータと容量を持つ他のリージョンの一覧を提供します。  その他のオプションには、PTU の数を減らす、新しいモデルを選択する、別の時間にデプロイを再試行するなどがあります。

プロビジョニングされたスループットクォータの表示使用可能なプロビジョニング済みスループットクォータ (PTU) を表示するには、AI Studio の [クォータ] ブレードの
[Azure OpenAI Service プロビジョニング済み] タブに移動します。ビューには、選択したリージョンの PTU 制限と使用量が表示されます。クォータ名を展開すると、クォータを使用してリージョン内のデプロイが表示されます。

予約の仕組み予約は請求割引を提供し、リソースの実行状態に影響を与えません。  予約に関連付けられた割引は、指定したリージョンのデプロイタイプ*に自動的に適用されます。  割引は「使うか失うか」です。一致するリソースがどの時間にもない場合、その時間の予約数量は失われます。 
予約金額を超えた使用量は、時間単位の料金で請求されます。  プロビジョニングされた予約はデプロイではありません。 *グローバル、Data Zone、およびリージョンのデプロイの予約は互換性がありません。デプロイの種類ごとに個別の予約を購入する必要があります。

プロビジョニングされた予約を購入する方法 Azure Reservations は、Azure portal から地域単位で購入でき、デプロイのグループからの使用をカバーするように柔軟にスコープを設定できます。  Azure Portal
の予約ブレードを使用する  対象とする Azure のリージョン、数量、デプロイの種類を選択します  Azure OpenAI Service SKU (グローバル、データゾーン、またはリージョン) をカートに追加します  購入するプロビジョニング済みスループットユニットの数量を確認し、注文を完了します購入デモを見る

容量とコストの見積もり役立つツールには、次のようなものがあります  Azure AI Foundry の容量計算ツールを使用して、ワークロードに必要な PTU を見積もりま
す  Azure 料金計算ツールを使用してコストを比較する  Azure Advisor での予約に関する推奨事項を見つける  Microsoft Cost Management での支出の計画、設定、割り当て

シナリオ例 100 Global Reservations 購入 ▲ 20 Global PTUs (時間単位料金で
請求) ▼ 100のグローバルPTU 予約でカバーより低価格で • 米国西部に100のグローバルPTUを展開 • 米国西部で 100 のグローバルプロビジョニングされた予約を購入 • 予約は、米国西部の100のグローバルPTUに適用されます • 米国西部に 20 のグローバル PTU を追加でデプロイします • 米国西部にあるこれらの 20 のグローバル PTU は、時間単位で課金されます価格は説明のみを目的としています。 1時間あたり

プロビジョニングされた予約のベストプラクティスデプロイの作成後に予約を購入します自動更新の設定と日付を確認するグローバル、Data Zone、およびリージョンのデプロイメントの予約は互換性がないことに注意してください。デプロイの種類ごとに個別の予約を購入する必要があります。 Azure ポータルを使用して予約の使用状況を監視し、想定している使用量を受け取っていることを確
認します Microsoft Cost Management で未使用のコミットメントや請求超過などの条件に関する使用率アラートを設定して使用する

PTU 購入の際の注意点

Provisioned Managed を購入する際の注意 • Provisioned Managed を作成後は、すぐにAzure予約を行う • Azure予約から購入するは推奨しない。というのも、Azure予約でディスカウント適用済みのPTU数量を購入したとしても、デプロイメント時に以下の理由で利用でデプロイできず、無駄な購入となることがある。
1. PTUのクオータがなく、モデルをデプロイすることができない。 2. Azure側でリージョンのキャパシティーの制約により、モデルをデプロイすることができない。 • 任意: Provisioned Managed のデプロイメントの作成できる人の権限を絞る • Azure サブスクリプションで Provisioned のデプロイメントを作成できないように制限する必要がある場合は、 Azure Policy により利用可能なデプロイの種類を限定できます。 Microsoft Azure OpenAI Service Provisioned Reservations を使用してコストを節約する - Microsoft Cost Management | Microsoft Learn Azure OpenAI ServiceのProvisionedデプロイについて | Japan Cognitive Services Support Blog

Provisioned Managed を減数・解約する際の注意 • Provisioned Managedを解約し、従量課金へ移行したい場合 • Azure 予約をしている際は、自動更新をオフにする。 •
Azure 予約が解除される前に、つまり、Provisioned Managedが時間課金になる前にデプロイメント（モデル）を削除する。その際、モデルを残したままリソースごと削除しないこと。 ※ サービス利用有無にかかわらず、モデルをデプロイしている間は時間課金となるため。 • Provisioned Managed のPTU数量を減らしたいとき • Azure 予約の自動更新をオフにする。 • (a) Azure 予約が解約された後に、新規の数量で再び予約する。同時に、デプロイしているモデルのPTU数も希望数量に変更する。 ※解約後から次のAzure予約が適用されるまでの時間課金料金が発生する • (b: オススメ) Azure 予約が解約される前に、新規の数量で再び予約する。同時に、デプロイしているモデルのPTU数も希望数量に変更する。 ※前月のAzure予約分と新規のAzure予約が一部重複する。詳細については、「削除された Azure AI サービスリソースの復旧または消去」を参照してください。 Azure OpenAI Service プロビジョニングスループットユニット (PTU) のオンボード - Azure AI services | Microsoft Learn

参照ドキュメントクオータの申請方法 Azure OpenAI Service: Request for Quota Increase プロビジョニングの概要
Azure OpenAI Service のプロビジョニングスループット - Azure AI services | Microsoft Learn プロビジョニングの利用手順クイックスタート - Azure OpenAI Service でプロビジョニングされたデプロイの使用を開始する - Azure OpenAI Service | Microsoft Learn プロビジョニングのサイジング・PTUにおける Azure予約について Azure OpenAI Service プロビジョニングスループットユニット (PTU) のオンボード - Azure AI services | Microsoft Learn Azure予約の手順 Microsoft Azure OpenAI Service Provisioned Reservations を使用してコストを節約する - Microsoft Cost Management | Microsoft Learn

Thank you

Azure OpenAI Service を使う際の選択肢 Provisioned について ...

Azure OpenAI Service を使う際の選択肢 Provisioned について 20250527 update

More Decks by Daiki Kanemitsu

Featured

Transcript