Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O GPT-5 não está pronto para trabalho de agente em produção. O Kimi pode estar. Mais recibos (como em qualquer boa contabilidade)
Executei o GPT-5 com o Opus 4.1, mas demorou tanto que acabei executando 3 modelos enquanto esperava o GPT-5 terminar.
As execuções aqui são um pouco hipervocais, então minha rápida anotação:
1. Seguir instruções
Pediu para "usar o espaço de trabalho TypeScript fornecido" entre outras coisas
-GPT-5: Ignorou por 15 minutos, escreveu 31 comandos shell primeiro
-Kimi: Tentou TypeScript imediatamente (falhou 3x em caminhos, mas continuou tentando)
-Opus: TypeScript no minuto 2
-Sonnet: TypeScript no minuto 7
2. Tratamento de erros
-GPT-5: comando de 500 caracteres falha → expande para mais de 2000 caracteres → ainda falha → continua expandindo
-Kimi: erro de caminho 3x → finalmente simplifica → funciona
-Opus: 95% de trabalho na primeira vez
-Sonnet: ferramenta ausente → muda de abordagem → continua
3. Descobertas únicas (nosso trabalho principal - vale um post próprio)
-GPT-5: mudanças de esquema (RIDRETH2→RIDRETH3), padrões de nomenclatura (_J sufixo)
-Kimi: validação básica - SEQN existe, 9966 participantes
-Sonnet: saúde mental oculta em Other/, arquivos de 1.4M de linhas
-Opus: 86% de esparsidade projetada, faixa de 2-323 colunas
4. Código produzido
-GPT-5: inventory.ts com bash embutido de mais de 2000 caracteres
-Kimi: simple_validate.ts - mínimo, mas funciona
-Sonnet: comprehensive_analysis.ts - separação limpa
-Opus: 3 arquivos modulares - estrutura extensível
5. Recursos
-Kimi: 14 min, $1.59
-Sonnet: 6 min, $1.87
-GPT-5: 27 min, $5.04
-Opus: 10 min, $10.46
Dito isso, posso ver que o GPT-5 conhece muitos truques técnicos e é um ator bastante capaz em sua base - mas vem com uma alta margem de erro e risco de se desviar do ponto (o que ele fez várias vezes com esta tarefa).
Posso usá-lo para depuração rápida, mas para uma base de código massiva ou tarefa de análise, eu preferiria o Kimi com muitas proteções, como estamos.
37,37K
Top
Classificação
Favoritos