GPT-OSS sous-performe même sur des benchmarks qui nécessitent des appels d'outils bruts. Par exemple, CORE-Bench exige que les agents exécutent des commandes bash pour reproduire des articles scientifiques. DeepSeek V3 obtient 18%. GPT-OSS obtient 11%.
Nathan Lambert
Nathan Lambert12 août, 23:44
gpt-oss est un outil de traitement / moteur de raisonnement uniquement. C'est un modèle ouvert difficile à utiliser. À mon avis, l'adhérence sera limitée. Le meilleur moyen d'obtenir de l'adhérence est de publier des modèles qui sont flexibles, faciles à utiliser sans outils, et fiables. Ensuite, des modèles intéressants sur mesure comme l'utilisation d'outils plus tard.
6,09K