GPT-OSS は、生のツール呼び出しを必要とするベンチマークでもパフォーマンスが低下します。たとえば、CORE-Benchでは、エージェントが科学論文を再現するためにbashコマンドを実行する必要があります。 DeepSeek V3 のスコアは 18% です。 GPT-OSS のスコアは 11% です。
Nathan Lambert
Nathan Lambert8月12日 23:44
GPT-OSSはツール処理/推論エンジンのみです。使用するハードオープンモデルのようなものです。牽引力は制限されます。 牽引力を得る最善の方法は、柔軟性があり、ツールなしで使いやすく、信頼性の高いモデルをリリースすることです。そして、後でツールを使用するような面白いモデルを特注します
6.09K