所以在玩這個大部分時間後,兩者都無法做到(預期中),但 GPT5 通過 Codex 放棄了很多,並且會崩潰(下面是例子)。話雖如此,最終有效的方法是讓 GPT5 根據 arxiv 論文創建詳細規範,然後審查 opus 代碼。
xjdr
xjdr8月10日 00:50
"你如何對新模型進行基準測試?"
你必須知道自己在做什麼才能引導流量,而我不得不自己創建測試工具和通過標準,但它們的結合產生了與我現有版本相媲美的東西。如果我誠實的話,這是一個相當令人印象深刻的初步測試...
23.86K