Donc, après avoir joué avec ça pendant la majeure partie de la journée, aucun des deux n'a pu le faire (prévisible), mais GPT-5 via Codex a abandonné beaucoup et se plantait juste (exemple ci-dessous). Cela dit, ce qui a finalement fonctionné, c'est de faire créer à GPT-5 la spécification détaillée basée sur l'article arxiv, puis de revoir le code opus.
xjdr
xjdr10 août, 00:50
"Comment évaluez-vous les nouveaux modèles ?"
vous devez savoir ce que vous faites pour diriger le trafic et j'ai dû créer les bancs d'essai et les critères de réussite moi-même, mais leurs pouvoirs combinés ont créé quelque chose qui rivalise avec ma version existante. un test initial assez impressionnant si je suis honnête ...
23,87K