dus na hier de hele dag mee gespeeld te hebben, kon geen van beiden het doen (verwacht) maar gpt5 via codex gaf veel op en zou gewoon crashen (voorbeeld hieronder). Dat gezegd hebbende, wat uiteindelijk werkte, was dat GPT5 de gedetailleerde specificatie op basis van het arxiv-papier maakte en vervolgens de opus-code beoordeelde.
xjdr
xjdr10 aug, 00:50
"Hoe benchmark je nieuwe modellen?"
je moet weten wat je doet om verkeer te sturen en ik moest zelf de testomgevingen en acceptatiecriteria creëren, maar hun gecombineerde krachten maakten iets dat rivaliseert met mijn bestaande versie. best indrukwekkende initiële test als ik eerlijk ben ...
23,88K