Hallusinasjonsreduksjonen er stor, men noen av disse referansene virker som relativt små forbedringer på eple-til-eple-basis. På Aider Polyglot, uten å tenke, er 5 0.9 poeng høyere enn 4o. På MMMU, 2.2 poeng høyere enn 4o.
Carl Vellotti
Carl Vellotti8. aug., 01:12
GPT-5-referanser falt nettopp – mye bedre til å kode – Visuelt resonnement høyere enn menneskelige doktorgrader – stort fall i hallusinasjoner Vi får se hvordan disse referansene utspiller seg, men de ser sprø ut
Fortsatt spent på å bruke!
3K