La riduzione delle allucinazioni è ottima, ma alcuni di questi parametri sembrano miglioramenti relativamente piccoli su una base di confronto diretta. Su Aider Polyglot, senza pensarci, 5 è 0,9 punti più alto di 4o. Su MMMU, 2,2 punti più alto di 4o.
Carl Vellotti
Carl Vellotti8 ago, 01:12
I benchmark di GPT-5 sono appena stati pubblicati – molto migliore nella programmazione – ragionamento visivo superiore a quello dei dottori di ricerca umani – enorme riduzione delle allucinazioni Vedremo come si comporteranno questi benchmark, ma sembrano pazzeschi
Ancora entusiasta di usarlo!
3,03K