Die Reduzierung von Halluzinationen ist großartig, aber einige dieser Benchmarks scheinen im direkten Vergleich relativ kleine Verbesserungen zu sein. Auf Aider Polyglot ist 5 ohne Nachdenken 0,9 Punkte höher als 4o. Auf MMMU ist es 2,2 Punkte höher als 4o.
Carl Vellotti
Carl Vellotti8. Aug. 2025
Die GPT-5-Benchmarks sind gerade veröffentlicht worden – viel besser im Programmieren – visuelles Denken höher als bei menschlichen Doktoranden – drastischer Rückgang von Halluzinationen Wir werden sehen, wie sich diese Benchmarks entwickeln, aber sie sehen verrückt aus.
Immer noch aufgeregt, es zu benutzen!
3,08K