Discussion approfondie sur les agents, gpt-5 et l'évaluation des modèles 👇
Amp — Research Preview
Amp — Research Preview22 août, 01:27
Élever un Agent - Épisode 8 Dans cet épisode, @beyang s'assoit avec @camden_cheek pour discuter de la manière dont l'équipe Amp évalue les nouveaux modèles : pourquoi l'appel d'outils est le facteur clé de différenciation, comment les modèles ouverts comme K2 et Qwen se comparent, quels changements apporte GPT-5, et comment les "vibe checks" qualitatifs comptent souvent plus que les benchmarks. Ils plongent également dans les sous-agents, les alliages de modèles, et à quoi ressemble l'avenir du codage agentique au sein d'Amp. Horodatages : 0:00 Intro — Pourquoi l'évaluation des modèles est importante 1:06 La philosophie multi-modèle d'Amp 3:16 Pourquoi Gemini Pro n'a pas fonctionné 4:55 Échecs d'appel d'outils & perturbation des utilisateurs 6:09 Décroissance d'itération vs auto-correction 10:08 Hype des modèles ouverts (K2, Qwen) 11:22 L'ère des agents "56k" 18:01 Premières impressions de GPT-5 20:35 Alliage de modèles & Oracle comme solution de secours 24:26 Comment GPT-5 se sent différent (personnalité & orientabilité) 29:10 Franchir le seuil d'utilisabilité 38:13 Pourquoi les vibes > benchmarks 44:18 Tests de régression & philosophie d'évaluation 46:21 Avenir multi-modèle > gagnant unique 52:38 Dernières réflexions
2,59K