先日の、「12 Days of OpenAI: Day 12」にて、「o1」及び「o1 Mini」の後継モデルである「o3」「o3 Mini」がリリースされることが発表されました。「o3」「o3 Mini」ともに、前モデルよりも推論力が向上しており、「o3」に関しては各ベンチマークで圧倒的な性能を見せています。
「o3」について
- プログラミング能力の向上
・CodeForce(競技プログラミングサイト)のスコアが大幅に向上(o1は約1891に対し、o3は2700以上)
・FreeBench Verified(ソフトウェアタスク解決のベンチマーク)で71.7%の正確性を達成(o1より20%以上向上) - 数学・化学力の向上
・アメリカの数学オリンピック(AME)のような厳しいテストで96.7%の正確性(o1の83.3%を超える)
・GPQA Diamond(PhDレベルの科学質問)で87.7%の正確性を達成(o1の78%を超える) - 新しいベンチマークへの挑戦
・Epic AI Frontier Math(数学の最難関とされるベンチマーク)
プロの数学者が数時間~数日かかる問題に対し、o3は25%以上の正確性を達成
・ARC AGIベンチマーク(汎用的な知能を測るためのタスク)
75.7%のスコアを達成。高い推論能力を要する設定では85.7%に達し、人間の85%と並ぶ画期的な結果を示した - o3 mini公開後にリリース予定
「o3 Mini」について
- low、midium、highの3段階で推論の深さを調整可能
- 「o1 Mini」以下の低コストで、それ以上の性能を発揮
- 2025年1月末に公開予定
この発表では、プログラミング面や数学的課題面での性能が強調されており、一般的な活用に関する示唆はありませんでした。今後のリリースに伴って、ユースケースの公開を待ちたいと思います。
参考動画

