所以在玩这个大部分时间后,两个都没能做到(预期中),但通过 Codex 的 GPT5 放弃了很多,结果只是崩溃(下面是例子)。也就是说,最终有效的是让 GPT5 根据 arxiv 论文创建详细规格,然后审查 opus 代码。
xjdr
xjdr8月10日 00:50
"你如何对新模型进行基准测试?"
你必须知道自己在做什么才能引导流量,我不得不自己创建测试工具和通过标准,但它们的结合产生了一个与我现有版本相媲美的东西。如果我诚实地说,这初步测试相当令人印象深刻...
23.86K