Snížení halucinací je skvělé, ale některé z těchto benchmarků se zdají být relativně malými zlepšeními na základě jablek s jablky. Na Aider Polyglot, bez přemýšlení, je 5 o 0,9 bodu více než 4o. Na MMMU je o 2,2 bodu více než 4o.
Carl Vellotti
Carl Vellotti8. 8. 01:12
Benchmarky GPT-5 právě padly – mnohem lepší v kódování – vizuální uvažování vyšší než u lidí s doktorátem – obrovský pokles halucinací Uvidíme, jak se tyto benchmarky projeví, ale vypadají šíleně
Stále nadšený z používání!
3K