1/31にOpenAI o3-miniが無料を含む全ユーザーに提供されはじめました。概要は以下のとおりです。
o3-miniの概要
o2は商標権の問題でスキップ
推論(Reasoning)をサポート
Webブラウジング機能をサポート
推論方法は、Low, medium, Highの3段階がある
現時点でAPIはTier3以降で利用可能
webでは1日あたり使用回数は150回(1o-miniの3倍になった)
知識のカットオフは2023年10月で変わりなし
今回は、3o-miniの発表記事を読み、以下に要点とぼくなりの視点をコメントします。
✍️Table of Contents
API価格比較
STEM特化のo3-mini
ハルシネーションのモデル比較
まとめ
[予告]ニュースレターの移行計画について
Butterfly 🦋📩 未読メールのストレス、ニュースレターの消化不良から読者を解放するアプリ
Butterflyは、あなたの未読メールのストレス、ニュースレターの消化不良を解消し、必要なインサイトを提供するAIアシスタント搭載のメールクライアントです。ウェイトリストの登録を開始しました。詳細はこのニュースレターを御覧ください🦋📩
Lawrence's Newsletter is a reader-supported publication. To receive new posts and support my work, consider becoming a free or paid subscriber.
OpenAIからo3-miniがリリース、他のモデルと比較して実際どう?
API価格比較
o3-miniはo1-miniと同じです。以下に性能比較などの詳細を触れますが、ほとんどのケースでo1-miniよりも高い性能となっているため、o1-miniの上位互換と言えそうです。
モデルのコンテキストは20万トークン、MAXアウトプットは10万です。
ちなみに、DeepSeekは以下のようなモデルとプライシングになってます。アウトプットプライスを見るとどちらのモデルでもo3-miniよりコストが低いです。ただし、コンテキスト、MAXアウトプットは3o-miniより劣るようです。
o3-miniとo1-miniとを比較するとMAXアウトプットが桁違い(o1-miniはMAXアウトプット6.5万)になっていますので、より高品質なアウトプットをo1-miniと同じコストで利用できるようになった影響はかなり大きいように思います。
STEM特化のo3-mini
o3-miniは、STEM:Science、Technology、Engineering、Mathematicsの領域に特化されており、この領域のみのパフォーマンス(mediumの推論)で、o1に匹敵するパフォーマンス・インテリジェンスが備えられているそうです。
例えば、数学では3o-mini(High)ではこれまでのモデルすべてを凌駕する性能です。
ただし、Low推論ではo1-miniを下回っている点は興味深いです。
コーディングでは、3-miniはすべての推論レベルで優れた性能を報告しており、AIドリブンでの開発には、o3-miniは現状最適なモデルになるかもしれません。
SWE-bench Verified(GitHubの問題解決タスク)で61%のスコアを記録し、現実的なプログラム修正が可能とのことです。以下は、o3-miniのシステムカードに記載されたSWE-benchの例です。
ハルシネーションのモデル比較
ハルシネーション(AIの幻覚、誤情報生成)に関して、OpenAIは PersonQA ベンチマークを使用して評価しています。
3o-miniは、ハルシネーションの抑制が優れており、o1-miniのハルシネーション率は 27.4% であり、o3-miniは 14.8% と顕著に低下しています。
GPT-4o-miniと比較すると、o3-miniの方が誤情報が少ない
GPT-4o-miniのハルシネーション率は 52.4% と高く、o3-miniはその 約1/3 に抑えられている。ただし、GPT-4o-miniのハルシネーション精度(28.4%)の方が高いため、正しい情報も多く提供できる点は、注目に値します。
ハルシネーション率が低いことは誤情報を減らす点で有利だが、過度な情報制限によって正しい情報の提供力が若干下がる可能性があります。
o3-miniは安全性を優先し、誤情報を抑えるが、正確な情報の提供力はGPT-4o-miniよりも若干低い、ということだと思います。
マルチリンガルパフォーマンス、日本語ではどうか?
MMLU(Multilingual Massive Language Understanding)は、14の言語でモデルの知識と理解力を評価するテストです。評価基準としては、さまざまな分野(科学、歴史、倫理など)に関する質問への正答率が測定されます(0-shotとは、事前学習なしという意味)。
o3-miniは、o1-miniよりも全体的に優れたパフォーマンスを記録し、GPT-4oにはわずかに及ばないが、主要言語(日本語・フランス語・中国語)では高い精度を示しています。
ただし、このテストで日本語に関しては、
o3-mini: 0.8227
o3-mini pre-mitigation: 0.8214
GPT-4o: 0.8349
o1-mini: 0.8129
となっており、日本語の理解・問題解決においては、GPT-4oが優れているという点も注目に値します。
ただし、GPT-4oは推論を行わないので論理的な思考を前提にした利用であれば、おそらくo3-miniが優れた回答を示す可能性が高いと思います。
恐らくSTEM領域以外では、GPT-4oもなかなか優れているということを再確認することができたので、これは意外でした。
なお、pre-mitigationでは、モデルはまだ安全対策や調整が施されていない状態です。つまり、誤動作やリスクに対して完全に保護されていない状態のものになります。
その他の指標を含め以下にまとめます。
まとめ
o3-miniは、特にSTEM分野(科学、技術、工学、数学)に特化しており、これらの領域でのパフォーマンスが非常に優れています。
特に数学やコーディングのタスクにおいては、高い推論能力を発揮し、他のモデルを凌駕しています。ハルシネーション率が低く、安全性を重視した利用にも適しています。
ただし、汎用性に関してはGPT-4oに劣る部分があり、特に幅広いタスクや多様な応用が求められる場合には、GPT-4oの方が適していることがあります。
o3-miniはSTEM特化型で、特定分野での利用において非常に有望ですが、汎用的なニーズにおいては、GPT-4oが依然として有力な選択肢となります。
[予告]ニュースレターの移行計画について
近々、ニュースレタープラットフォームの移行を考えています。
もし移行することになっても、読者の皆様は、特別にやるべきことはありません。
理由は以下です。
SubstackのリンクがXで冷遇される(substackリンクのある投稿がタイムラインにほとんど表示されない、検索にもヒットしない)
もし記事をX上でシェアしていただいても気づきにくい
Substackではニュースレターの文面にXの埋め込みができない
コンテンツの方針を変更したのでクリプトに強いSubstack ネットワーク経由の購読フローの必要性が減った
Substackでカスタムドメインを契約し直すことを検討しましたが、ニュースレターをより多くの人に届けるためにはハードルが複数あり、移行した方が良さそうだなと思いました。
暫定ですが、
note
を候補にしています。
移行日が確定したらお知らせします。プラットフォーム移行でメールアドレスが移行されてしまうのに抵抗のある方は、お手数ですが購読解除をお願いいたします。
以上です!
では、また👋
コンテンツの方向性、文量などは読者の反応を見て改善させていただきます。