Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GPT-5 n'est pas prêt pour un travail agentique en production. Kimi pourrait l'être. Plus de preuves (comme avec toute bonne comptabilité)
J'ai exécuté GPT-5 avec Opus 4.1, mais cela a pris tellement de temps que j'ai fini par exécuter 3 modèles en attendant que GPT-5 termine.
Les exécutions ici sont un peu hyper-verbales, donc ma rapide annotation :
1. Suivi des instructions
Demandé de "utiliser l'espace de travail TypeScript fourni" parmi d'autres choses
-GPT-5 : Ignoré pendant 15 minutes, a d'abord écrit 31 commandes shell
-Kimi : A essayé TypeScript immédiatement (a échoué 3 fois sur les chemins mais a continué d'essayer)
-Opus : TypeScript à la minute 2
-Sonnet : TypeScript à la minute 7
2. Gestion des erreurs
-GPT-5 : commande de 500 caractères échoue → s'étend à plus de 2000 caractères → échoue toujours → continue de s'étendre
-Kimi : erreur de chemin 3 fois → finit par simplifier → fonctionne
-Opus : 95% de travail du premier coup
-Sonnet : outil manquant → change d'approche → continue
3. Découvertes uniques (notre travail principal - ça vaut un post à part)
-GPT-5 : changements de schéma (RIDRETH2→RIDRETH3), motifs de nommage (_J suffixe)
-Kimi : validation de base - SEQN existe, 9966 participants
-Sonnet : santé mentale cachée dans Other/, fichiers de 1,4M de lignes
-Opus : 86% de sparsité conçue, plage de colonnes 2-323
4. Code produit
-GPT-5 : inventory.ts avec 2000+ caractères de bash intégrés
-Kimi : simple_validate.ts - minimal mais fonctionne
-Sonnet : comprehensive_analysis.ts - séparation claire
-Opus : 3 fichiers modulaires - cadre extensible
5. Ressources
-Kimi : 14 min, 1,59 $
-Sonnet : 6 min, 1,87 $
-GPT-5 : 27 min, 5,04 $
-Opus : 10 min, 10,46 $
Cela dit, je peux voir que GPT-5 connaît beaucoup de trucs techniques et est un acteur assez capable à la base - mais cela vient avec une grande marge d'erreur et un risque de s'écarter du sujet (ce qu'il a fait plusieurs fois avec cette tâche).
Je pourrais l'utiliser pour un débogage rapide, mais pour une base de code massive ou une tâche d'analyse, je préférerais Kimi avec de nombreuses protections comme nous en avons.
58,27K
Meilleurs
Classement
Favoris