Så efter att ha lekt med detta under större delen av dagen kunde ingen av dem göra det (förväntat) men GPT5 via Codex gav upp mycket och skulle bara krascha (exempel nedan). Med det sagt, det som till slut fungerade var att GPT5 skapade den detaljerade specifikationen baserat på arxiv-dokumentet och sedan granskade opuskoden
xjdr
xjdr10 aug. 2025
"How do you benchmark new models?"
Du måste veta vad du gör för att dirigera trafik och jag var tvungen att skapa testselarna och klara kriterierna själv, men deras krafter tillsammans skapade något som konkurrerar med min befintliga version. ganska imponerande första test om jag ska vara ärlig ...
24,92K