Nachdem ich den ganzen Tag damit gespielt habe, konnte es keiner von beiden (erwartet), aber GPT-5 über Codex hat viel aufgegeben und ist einfach abgestürzt (Beispiel unten). Das, was letztendlich funktioniert hat, war, dass GPT-5 die detaillierte Spezifikation basierend auf dem arxiv-Papier erstellt hat und dann den Opus-Code überprüft hat.
xjdr
xjdr10. Aug., 00:50
"Wie bewerten Sie neue Modelle?"
Man muss wissen, was man tut, um den Verkehr zu lenken, und ich musste die Testumgebungen und die Kriterien selbst erstellen, aber ihre kombinierten Kräfte haben etwas geschaffen, das mit meiner bestehenden Version konkurriert. Ziemlich beeindruckender erster Test, wenn ich ehrlich bin ...
23,88K