GPT-5 não está pronto para o trabalho agencial de produção. Kimi pode ser. Mais recibos (como em qualquer boa contabilidade) Executei o GPT-5 com o Opus 4.1, mas demorou tanto que acabei executando 3 modelos enquanto esperava o GPT-5 terminar. As corridas aqui são um pouco hiper-verbais, então minha anotação rápida: 1. Seguimento de instruções Solicitado a "usar o espaço de trabalho TypeScript fornecido", entre outras coisas -GPT-5: Ignorado por 15 minutos, escreveu 31 comandos shell primeiro -Kimi: Tentei TypeScript imediatamente (falhou 3x nos caminhos, mas continuou tentando) -Opus: TypeScript no minuto 2 -Soneto: TypeScript no minuto 7 2. Tratamento de erros -GPT-5: o comando de 500 caracteres falha → se expande para 2000+ caracteres → ainda falha → continua expandindo -Kimi: Erro de caminho 3x → finalmente simplifica → funciona -Opus: 95% trabalham pela primeira vez -Soneto: Ferramenta ausente → muda de abordagem → continua 3. Descobertas únicas (nosso trabalho principal - vale a pena postar) -GPT-5: Mudanças de esquema (RIDRETH2→RIDRETH3), padrões de nomenclatura (_J sufixo) -Kimi: Validação básica - SEQN existe, 9966 participantes -Soneto: Saúde mental escondida em Outros/, 1,4 milhão de arquivos de linha -Opus: 86% de esparsidade projetada, faixa de 2-323 colunas 4. Código produzido -GPT-5: inventory.ts com 2000+ char bash embutido -Kimi: simple_validate.ts - mínimo, mas funciona -Soneto: comprehensive_analysis.ts - separação limpa -Opus: 3 arquivos modulares - estrutura extensível 5. Recursos -Kimi: 14 min, $ 1,59 -Soneto: 6 min, $ 1,87 -GPT-5: 27 min, $ 5.04 -Opus: 10 min, $ 10,46 Dito isso, posso ver que o GPT-5 conhece muitos truques técnicos e um ator bastante capaz na linha de base - mas vem com alta margem de erro e risco de se desviar do ponto (o que fez várias vezes com esta tarefa). Eu poderia usá-lo para depuração rápida, mas uma enorme base de código ou tarefa de análise, eu preferiria kimi com muitas proteções como estamos.
61,78K