Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GPT-5 no está listo para trabajos de producción agentivos. Kimi podría estarlo. Más recibos (como con cualquier buena contabilidad)
Ejecuté GPT-5 con Opus 4.1, pero tomó tanto tiempo que terminé ejecutando 3 modelos mientras esperaba que GPT-5 terminara.
Las ejecuciones aquí son un poco hipervocales, así que mi rápida anotación:
1. Seguimiento de instrucciones
Se pidió "usar el espacio de trabajo de TypeScript proporcionado" entre otras cosas
-GPT-5: Ignoró durante 15 minutos, escribió 31 comandos de shell primero
-Kimi: Intentó TypeScript de inmediato (falló 3 veces en las rutas pero siguió intentando)
-Opus: TypeScript en el minuto 2
-Sonnet: TypeScript en el minuto 7
2. Manejo de errores
-GPT-5: comando de 500 caracteres falla → se expande a más de 2000 caracteres → aún falla → sigue expandiéndose
-Kimi: error de ruta 3 veces → finalmente simplifica → funciona
-Opus: 95% de trabajo a la primera
-Sonnet: herramienta faltante → cambia de enfoque → continúa
3. Hallazgos únicos (nuestro trabajo central - vale un post propio)
-GPT-5: cambios de esquema (RIDRETH2→RIDRETH3), patrones de nombres (_J sufijo)
-Kimi: validación básica - SEQN existe, 9966 participantes
-Sonnet: salud mental oculta en Other/, archivos de 1.4M de filas
-Opus: 86% de escasez diseñada, rango de 2-323 columnas
4. Código producido
-GPT-5: inventory.ts con bash de más de 2000 caracteres incrustado
-Kimi: simple_validate.ts - mínimo pero funciona
-Sonnet: comprehensive_analysis.ts - separación limpia
-Opus: 3 archivos modulares - marco extensible
5. Recursos
-Kimi: 14 min, $1.59
-Sonnet: 6 min, $1.87
-GPT-5: 27 min, $5.04
-Opus: 10 min, $10.46
Dicho esto, puedo ver que GPT-5 sabe muchos trucos técnicos y es un actor bastante capaz en su base - pero viene con un alto margen de error y riesgo de desviarse del punto (lo cual hizo múltiples veces con esta tarea).
Podría usarlo para depuración rápida, pero para una base de código masiva o tarea de análisis, preferiría a Kimi con muchas barandillas como estamos.
58.27K
Populares
Ranking
Favoritas