2024.12.26 「o3」「o3 Mini」のリリースが決定!

先日の、「12 Days of OpenAI: Day 12」にて、「o1」及び「o1 Mini」の後継モデルである「o3」「o3 Mini」がリリースされることが発表されました。「o3」「o3 Mini」ともに、前モデルよりも推論力が向上しており、「o3」に関しては各ベンチマークで圧倒的な性能を見せています。

「o3」について

  • プログラミング能力の向上
    ・CodeForce(競技プログラミングサイト)のスコアが大幅に向上(o1は約1891に対し、o3は2700以上)
    ・FreeBench Verified(ソフトウェアタスク解決のベンチマーク)で71.7%の正確性を達成(o1より20%以上向上)
  • 数学・化学力の向上
    ・アメリカの数学オリンピック(AME)のような厳しいテストで96.7%の正確性(o1の83.3%を超える)
    ・GPQA Diamond(PhDレベルの科学質問)で87.7%の正確性を達成(o1の78%を超える)
  • 新しいベンチマークへの挑戦
    ・Epic AI Frontier Math(数学の最難関とされるベンチマーク)
     プロの数学者が数時間~数日かかる問題に対し、o3は25%以上の正確性を達成
    ・ARC AGIベンチマーク(汎用的な知能を測るためのタスク)
     75.7%のスコアを達成。高い推論能力を要する設定では85.7%に達し、人間の85%と並ぶ画期的な結果を示した
  • o3 mini公開後にリリース予定

「o3 Mini」について

  • low、midium、highの3段階で推論の深さを調整可能
  • 「o1 Mini」以下の低コストで、それ以上の性能を発揮
  • 2025年1月末に公開予定

この発表では、プログラミング面や数学的課題面での性能が強調されており、一般的な活用に関する示唆はありませんでした。今後のリリースに伴って、ユースケースの公開を待ちたいと思います。

参考動画

目次