Cum se compară GPT-5 cu Claude Opus 4.1 pe sarcinile agentice? De la lansarea lor, am evaluat aceste modele pe sarcini provocatoare de știință, web, servicii și cod. Rezultat principal: Deși rentabil, până acum GPT-5 nu se află niciodată în fruntea clasamentelor agențice. Mai multe evaluări 🧵
Multe dintre aceste rezultate ne-au surprins și intenționăm să le investigăm mai îndeaproape. Dar tendințele acestor benchmark-uri confirmă că GPT-5 nu este o schimbare radicală și nu îmbunătățește celelalte modele OpenAI. Dar strălucește în compromisurile cost-acuratețe - adesea venind mult mai ieftin decât modelele comparabile.
68,22K