Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
o1 pro mode の調査レポート
Search
smorce
January 04, 2025
Research
0
140
o1 pro mode の調査レポート
すべてAIで生成したスライドです。レイアウトはまだ調整中です。
smorce
January 04, 2025
Tweet
Share
More Decks by smorce
See All by smorce
SHAPやLIMEなどの説明AI(XAI)のご紹介 / SHAP LIME PDP Grad-CAM
smorce
6
5.2k
Other Decks in Research
See All in Research
Poster: Feasibility of Runtime-Neutral Wasm Instrumentation for Edge-Cloud Workload Handover
chikuwait
0
430
Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment
satai
3
170
大規模言語モデルを用いたニュースデータのセンチメント判定モデルの開発および実体経済センチメントインデックスの構成
nomamist
1
150
言語モデルLUKEを経済の知識に特化させたモデル「UBKE-LUKE」について
petter0201
0
290
Gemini と Looker で営業DX をドライブする / Driving Sales DX with Gemini and Looker
sansan_randd
0
180
クラウドのテレメトリーシステム研究動向2025年
yuukit
3
730
ラムダ計算の拡張に基づく 音楽プログラミング言語mimium とそのVMの実装
tomoyanonymous
0
430
AIトップカンファレンスからみるData-Centric AIの研究動向 / Research Trends in Data-Centric AI: Insights from Top AI Conferences
tsurubee
3
2k
インドネシアのQA事情を紹介するの
yujijs
0
160
[ECCV2024読み会] 衛星画像からの地上画像生成
elith
1
1.1k
20250226 NLP colloquium: "SoftMatcha: 10億単語規模コーパス検索のための柔らかくも高速なパターンマッチャー"
de9uch1
0
220
新規のC言語処理系を実装することによる 組込みシステム研究にもたらす価値 についての考察
zacky1972
1
340
Featured
See All Featured
Dealing with People You Can't Stand - Big Design 2015
cassininazir
366
25k
Become a Pro
speakerdeck
PRO
26
5.2k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.2k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
46
2.4k
Typedesign – Prime Four
hannesfritz
41
2.6k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
2.9k
Writing Fast Ruby
sferik
628
61k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
60k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
134
33k
YesSQL, Process and Tooling at Scale
rocio
172
14k
Transcript
目次(1/6) • 1. 概要 – 1.1. o1 pro modeの基本情報 –
1.2. 料金と利用条件 – 1.3. 開発背景と目的
目次(2/6) • 2. o1 pro modeの主要機能と特徴 – 2.1. 高度な推論能力 –
2.2. マルチモーダル対応 – 2.3. 高速・正確な応答システム – 2.4. 思考時間の最適化機能
目次(3/6) • 3. o1 pro modeの性能評価 – 3.1. 数学分野での性能 –
3.2. プログラミング分野での性能 – 3.3. 科学的問題解決能力 – 3.4. 信頼性と一貫性の分析
目次(4/6) • 4. o1 pro modeの利用対象者と活用分野 – 4.1. 研究者・エンジニア向け機能 –
4.2. プログラマー向け機能 – 4.3. データサイエンティスト向け機能
目次(5/6) • 5. o1 pro modeの従来モデルとの比較 – 5.1. o1との性能差 –
5.2. GPT-4oとの違い – 5.3. 処理速度と精度の比較
目次(6/6) • 6. o1 pro modeの今後の展望 – 6.1. APIの可能性 –
6.2. 将来の開発方向性 – 6.3. 産業への影響
1. 概要
2. o1 pro modeの主要機能と特徴
3. o1 pro modeの性能評価
4. o1 pro modeの利用対象者と活用分野
5. o1 pro modeの従来モデルとの比較
6. o1 pro modeの今後の展望
1. 概要 • o1 pro modeの基本情報 – OpenAI開発の最新の推論モデル – 複雑な数学、科学、プログラミング問題に強い
– マルチモーダル対応(テキストと画像の同時解析) – 深い思考と高精度な回答を実現 – 従来モデルより高速化、誤答率削減 • 料金と利用条件 – ChatGPT Proプラン加入が必要(月額200ドル/約3 万円) – 通常のo1モデルはChatGPT Plus(月額30ドル)で利 用可能 • 開発背景と目的 – 複雑な問題に対する深い分析と正確な解答を目指 30 200 0 50 100 150 200 250 ChatGPT Plus ChatGPT Pro ChatGPT プランと料金比較 ChatGPT Plus ChatGPT Pro
2. o1 pro modeの主要機能と特徴 • 高度な推論能力 – 複雑な問題への深い思考と信頼性の高い回答生成 能力 –
データサイエンス、プログラミング、法律分野で GPT-4oを上回る正確性と包括性を外部評価で実 証済 – 数学では最適な解法を選択、科学では最新知見に 基づく回答生成、プログラミングでは効率的なア ルゴリズムとバグのないコード生成が可能 • 高速・正確な応答システム – 質問の難易度に応じた思考時間調整で、GPT-4o より速度と精度のバランスを最適化 – o1-previewより高速な回答生成 – 高度なアルゴリズムによる効率的な思考時間調整 credit by Unsplash
3. o1 pro modeの性能評価 • 数学分野での性能 – o1 pro modeはAIME
2024で86%の正答率、o1は 78% – 精度はo1 pro modeが85.8%、o1が78.3% – 4回連続正解率はo1 pro modeが80%、o1が66.7% • プログラミング分野での性能 – o1 pro modeはCodeforcesで90パーセンタイル、 o1は89パーセンタイル – 信頼性パーセンタイルはo1 pro modeが74.9%、 o1が64.2% • 科学的問題解決能力 – o1 pro modeはGPQA Diamondで79%の正答率、 o1は76% 78 78.3 67 89 64.2 64 76 75.6 67 86 85.8 80 90 74.9 75 79 79.3 74 0 20 40 60 80 100 o1とo1 pro modeの性能比較 o1 o1 pro mode
4. o1 pro modeの利用対象者と活用分野 • 研究者・エンジニア向け機能 – 高度な推論能力による複雑な課題解決 – 大阪大学入試レベルの数学問題への対応
– 安定的なコード生成とバグ削減 – 大規模データセットや複雑なシミュレーションの 高速処理 – 高度なアルゴリズム設計とエラー修正 • プログラマー向け機能 – リアルタイムコード生成とエラー修正サポート – プロトタイプ開発の高速化 – 高度なアルゴリズム設計と並列処理プログラム作 成 – 安定したコード生成と高い信頼性 – 競技プログラミングでの高正解率 credit by Unsplash
5. o1 pro modeの従来モデルとの比較 • o1との性能差 – o1 pro modeは、より多くの計算リソースを活用
し、深い思考と高精度な回答を実現する。 – AIME 2024で86%、Codeforcesで90%の正解率を 記録し、o1を上回る。 – 数学、プログラミングなど様々な分野でo1を上回 る性能 • GPT-4oとの違い – 処理速度と精度のバランスが異なる。o1 pro modeは複雑な問題に強く、GPT-4oは処理速度が 速い。 – 研究論文分析や高度な計算にはo1 pro mode、日 常的なタスクにはGPT-4oが適している。 – o1はGPT-4oより思考連鎖の深さと精度で優れ、 命令階層により制御性と安全性が向上している。 86 90 78 89 70 75 80 85 90 95 AIME 2024 Codeforces o1 pro modeとo1の正解率比較 o1 pro mode o1
6. o1 pro modeの今後の展望 • APIの可能性 – o1 Pro ModeのAPI提供により、スタートアップ企
業はProレベルのAI機能を自社製品に組み込める 。 – 高品質なデータ解析やインテリジェントな提案が 可能になり、カスタマーサービスロボットの構築 も効率化される。 – ECプラットフォームは、自動生成されたコンテン ツで運用効率とコンバージョン率を向上できる。 – OpenAIは構造化出力、関数呼び出し、画像理解 APIなどの新機能を追加する計画。 – 中国の起業家は、新しいSaaSツールや海外市場向 けサービス構築に活用できる。 • 将来の開発方向性 – OpenAIはo1モデルとChatGPT Proの機能改善を 継続。ChatGPT Proはより長い時間、多くの処理 credit by Unsplash