GPT-5 no está listo para trabajos de producción agentivos. Kimi podría estarlo. Más recibos (como con cualquier buena contabilidad) Ejecuté GPT-5 con Opus 4.1, pero tomó tanto tiempo que terminé ejecutando 3 modelos mientras esperaba que GPT-5 terminara. Las ejecuciones aquí son un poco hipervocales, así que mi rápida anotación: 1. Seguimiento de instrucciones Se pidió "usar el espacio de trabajo de TypeScript proporcionado" entre otras cosas -GPT-5: Ignoró durante 15 minutos, escribió 31 comandos de shell primero -Kimi: Intentó TypeScript de inmediato (falló 3 veces en las rutas pero siguió intentando) -Opus: TypeScript en el minuto 2 -Sonnet: TypeScript en el minuto 7 2. Manejo de errores -GPT-5: comando de 500 caracteres falla → se expande a más de 2000 caracteres → aún falla → sigue expandiéndose -Kimi: error de ruta 3 veces → finalmente simplifica → funciona -Opus: 95% de trabajo a la primera -Sonnet: herramienta faltante → cambia de enfoque → continúa 3. Hallazgos únicos (nuestro trabajo central - vale un post propio) -GPT-5: cambios de esquema (RIDRETH2→RIDRETH3), patrones de nombres (_J sufijo) -Kimi: validación básica - SEQN existe, 9966 participantes -Sonnet: salud mental oculta en Other/, archivos de 1.4M de filas -Opus: 86% de escasez diseñada, rango de 2-323 columnas 4. Código producido -GPT-5: inventory.ts con bash de más de 2000 caracteres incrustado -Kimi: simple_validate.ts - mínimo pero funciona -Sonnet: comprehensive_analysis.ts - separación limpia -Opus: 3 archivos modulares - marco extensible 5. Recursos -Kimi: 14 min, $1.59 -Sonnet: 6 min, $1.87 -GPT-5: 27 min, $5.04 -Opus: 10 min, $10.46 Dicho esto, puedo ver que GPT-5 sabe muchos trucos técnicos y es un actor bastante capaz en su base - pero viene con un alto margen de error y riesgo de desviarse del punto (lo cual hizo múltiples veces con esta tarea). Podría usarlo para depuración rápida, pero para una base de código masiva o tarea de análisis, preferiría a Kimi con muchas barandillas como estamos.
58.27K