Así que después de jugar con esto durante la mayor parte del día, ninguno pudo hacerlo (lo esperado), pero GPT-5 a través de Codex se rindió mucho y simplemente se bloqueaba (ejemplo abajo). Dicho esto, lo que terminó funcionando fue hacer que GPT-5 creara la especificación detallada basada en el artículo de arxiv y luego revisar el código de opus.
xjdr
xjdr10 ago, 00:50
"¿Cómo evalúas nuevos modelos?"
tienes que saber lo que estás haciendo para dirigir el tráfico y tuve que crear los arneses de prueba y los criterios de aprobación yo mismo, pero sus poderes combinados crearon algo que rivaliza con mi versión existente. una prueba inicial bastante impresionante si soy honesto ...
23,88K