GPT-OSS are performanțe slabe chiar și la benchmark-uri care necesită apelarea instrumentelor brute. De exemplu, CORE-Bench cere agenților să ruleze comenzi bash pentru a reproduce lucrări științifice. DeepSeek V3 are un scor de 18%. GPT-OSS are un scor de 11%.
Nathan Lambert
Nathan Lambert12 aug., 23:44
GPT-OSS este doar un motor de procesare / raționament al instrumentelor. Un fel de model greu deschis de utilizat. Tracțiunea va fi limitată. Cel mai bun mod de a obține tracțiune este să lansați modele flexibile, ușor de utilizat fără unelte și fiabile. Apoi, modele interesante personalizate, cum ar fi utilizarea uneltelor mai târziu
6,1K