Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dypdykkdiskusjon om agenter, gpt-5 og modellevalueringer
👇

22 timer siden
Å oppdra en agent - Episode 8
I denne episoden setter @beyang seg ned med @camden_cheek for å diskutere hvordan Amp-teamet evaluerer nye modeller: hvorfor verktøykall er den viktigste differensiatoren, hvordan åpne modeller som K2 og Qwen stabler seg, hva GPT-5 endrer, og hvordan kvalitative "vibe-sjekker" ofte betyr mer enn benchmarks. De dykker også ned i underagenter, modelllegeringer og hvordan fremtiden for agentkoding ser ut i Amp.
Tidsstempler:
0:00 Intro — Hvorfor modellevaluering er viktig
1:06 Amps filosofi om flere modeller
3:16 Hvorfor Gemini Pro ikke festet seg
4:55 Verktøyanropsfeil og brukeravbrudd
6:09 Iterasjonsforfall vs selvkorreksjon
10:08 Åpne modeller hype (K2, Qwen)
11:22 "56k æraen av agenter"
18:01 Førsteinntrykk av GPT-5
20:35 Legeringsmodeller og Oracle som reserve
24:26 Hvordan GPT-5 føles annerledes (personlighet og styrbarhet)
29:10 Krysser brukervennlighetsterskelen
38:13 Hvorfor vibber > benchmarks
44:18 Regresjonstesting og evalueringsfilosofi
46:21 Multi-modell fremtidig > singelvinner
52:38 Avsluttende tanker
2,34K
Topp
Rangering
Favoritter