GPT-OSS sottoperforma anche su benchmark che richiedono chiamate a strumenti grezzi. Ad esempio, CORE-Bench richiede agli agenti di eseguire comandi bash per riprodurre articoli scientifici. DeepSeek V3 ottiene il 18%. GPT-OSS ottiene l'11%.
Nathan Lambert
Nathan Lambert12 ago, 23:44
gpt-oss è uno strumento di elaborazione / motore di ragionamento solo. È un modello open source piuttosto difficile da usare. A mio avviso, la trazione sarà limitata. Il modo migliore per ottenere trazione è rilasciare modelli che siano flessibili, facili da usare senza strumenti e affidabili. Poi, modelli interessanti su misura come l'uso degli strumenti in seguito.
6,08K