Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GPT-5 non è pronto per lavori agentici in produzione. Kimi potrebbe esserlo. Più ricevute (come in ogni buona contabilità)
Ho eseguito GPT-5 con Opus 4.1, ma ci è voluto così tanto tempo che ho finito per eseguire 3 modelli mentre aspettavo che GPT-5 finisse.
Le esecuzioni qui sono un po' iper-verbali, quindi la mia rapida annotazione:
1. Seguire le istruzioni
Chiesto di "utilizzare lo spazio di lavoro TypeScript fornito" tra le altre cose
-GPT-5: Ignorato per 15 minuti, ha scritto prima 31 comandi shell
-Kimi: Ha provato subito TypeScript (fallito 3 volte sui percorsi ma ha continuato a provare)
-Opus: TypeScript al minuto 2
-Sonnet: TypeScript al minuto 7
2. Gestione degli errori
-GPT-5: comando di 500 caratteri fallisce → si espande a oltre 2000 caratteri → fallisce ancora → continua ad espandersi
-Kimi: errore di percorso 3 volte → alla fine semplifica → funziona
-Opus: 95% di lavoro al primo tentativo
-Sonnet: strumento mancante → cambia approccio → continua
3. Risultati unici (il nostro lavoro principale - merita un post a parte)
-GPT-5: cambiamenti di schema (RIDRETH2→RIDRETH3), schemi di denominazione (_J suffisso)
-Kimi: validazione di base - SEQN esiste, 9966 partecipanti
-Sonnet: salute mentale nascosta in Other/, file da 1,4M righe
-Opus: 86% di scarsità progettata, intervallo di colonne 2-323
4. Codice prodotto
-GPT-5: inventory.ts con bash incorporato di oltre 2000 caratteri
-Kimi: simple_validate.ts - minimale ma funziona
-Sonnet: comprehensive_analysis.ts - separazione pulita
-Opus: 3 file modulari - framework estensibile
5. Risorse
-Kimi: 14 min, $1.59
-Sonnet: 6 min, $1.87
-GPT-5: 27 min, $5.04
-Opus: 10 min, $10.46
Detto ciò, posso vedere che GPT-5 conosce molti trucchi tecnici ed è un attore piuttosto capace come base - ma viene con un alto margine di errore e rischio di deviare dal punto (cosa che ha fatto più volte con questo compito).
Potrei usarlo per un rapido debugging, ma per un vasto codice sorgente o un compito di analisi, preferirei Kimi con molte protezioni mentre ci troviamo.
12,81K
Principali
Ranking
Preferiti