Dypdykkdiskusjon om agenter, gpt-5 og modellevalueringer 👇
Amp — Research Preview
Amp — Research Preview22 timer siden
Å oppdra en agent - Episode 8 I denne episoden setter @beyang seg ned med @camden_cheek for å diskutere hvordan Amp-teamet evaluerer nye modeller: hvorfor verktøykall er den viktigste differensiatoren, hvordan åpne modeller som K2 og Qwen stabler seg, hva GPT-5 endrer, og hvordan kvalitative "vibe-sjekker" ofte betyr mer enn benchmarks. De dykker også ned i underagenter, modelllegeringer og hvordan fremtiden for agentkoding ser ut i Amp. Tidsstempler: 0:00 Intro — Hvorfor modellevaluering er viktig 1:06 Amps filosofi om flere modeller 3:16 Hvorfor Gemini Pro ikke festet seg 4:55 Verktøyanropsfeil og brukeravbrudd 6:09 Iterasjonsforfall vs selvkorreksjon 10:08 Åpne modeller hype (K2, Qwen) 11:22 "56k æraen av agenter" 18:01 Førsteinntrykk av GPT-5 20:35 Legeringsmodeller og Oracle som reserve 24:26 Hvordan GPT-5 føles annerledes (personlighet og styrbarhet) 29:10 Krysser brukervennlighetsterskelen 38:13 Hvorfor vibber > benchmarks 44:18 Regresjonstesting og evalueringsfilosofi 46:21 Multi-modell fremtidig > singelvinner 52:38 Avsluttende tanker
2,34K