O GPT-5 não está pronto para trabalho de agente em produção. O Kimi pode estar. Mais recibos (como em qualquer boa contabilidade) Executei o GPT-5 com o Opus 4.1, mas demorou tanto que acabei executando 3 modelos enquanto esperava o GPT-5 terminar. As execuções aqui são um pouco hipervocais, então minha rápida anotação: 1. Seguir instruções Pediu para "usar o espaço de trabalho TypeScript fornecido" entre outras coisas -GPT-5: Ignorou por 15 minutos, escreveu 31 comandos shell primeiro -Kimi: Tentou TypeScript imediatamente (falhou 3x em caminhos, mas continuou tentando) -Opus: TypeScript no minuto 2 -Sonnet: TypeScript no minuto 7 2. Tratamento de erros -GPT-5: comando de 500 caracteres falha → expande para mais de 2000 caracteres → ainda falha → continua expandindo -Kimi: erro de caminho 3x → finalmente simplifica → funciona -Opus: 95% de trabalho na primeira vez -Sonnet: ferramenta ausente → muda de abordagem → continua 3. Descobertas únicas (nosso trabalho principal - vale um post próprio) -GPT-5: mudanças de esquema (RIDRETH2→RIDRETH3), padrões de nomenclatura (_J sufixo) -Kimi: validação básica - SEQN existe, 9966 participantes -Sonnet: saúde mental oculta em Other/, arquivos de 1.4M de linhas -Opus: 86% de esparsidade projetada, faixa de 2-323 colunas 4. Código produzido -GPT-5: inventory.ts com bash embutido de mais de 2000 caracteres -Kimi: simple_validate.ts - mínimo, mas funciona -Sonnet: comprehensive_analysis.ts - separação limpa -Opus: 3 arquivos modulares - estrutura extensível 5. Recursos -Kimi: 14 min, $1.59 -Sonnet: 6 min, $1.87 -GPT-5: 27 min, $5.04 -Opus: 10 min, $10.46 Dito isso, posso ver que o GPT-5 conhece muitos truques técnicos e é um ator bastante capaz em sua base - mas vem com uma alta margem de erro e risco de se desviar do ponto (o que ele fez várias vezes com esta tarefa). Posso usá-lo para depuração rápida, mas para uma base de código massiva ou tarefa de análise, eu preferiria o Kimi com muitas proteções, como estamos.
37,37K