Зменшення галюцинацій чудове, але деякі з цих контрольних показників здаються відносно невеликими покращеннями за принципом «яблуко до яблука». На Aider Polyglot, не замислюючись, 5 на 0,9 бала вище, ніж 4о. На МММУ на 2,2 бала вище, ніж на 4о.
Carl Vellotti
Carl Vellotti8 серп., 01:12
Бенчмарки GPT-5 щойно впали – набагато краще кодувати – візуальне мислення вище, ніж у докторів наук – величезне падіння галюцинацій Подивимося, як складуться ці бенчмарки, але вони виглядають божевільними
Все ще в захваті від використання!
3,05K