Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Discussione approfondita su agenti, gpt-5 e valutazioni dei modelli
👇

18 ore fa
Raising An Agent - Episodio 8
In questo episodio, @beyang si siede con @camden_cheek per discutere di come il team di Amp valuta i nuovi modelli: perché la chiamata agli strumenti è il fattore chiave di differenziazione, come si confrontano modelli aperti come K2 e Qwen, quali sono le novità di GPT-5 e come i "vibe checks" qualitativi spesso contano più dei benchmark. Si approfondiscono anche i subagenti, le leghe di modelli e quale sarà il futuro della programmazione agentica all'interno di Amp.
Timestamp:
0:00 Introduzione — Perché la valutazione dei modelli è importante
1:06 La filosofia multi-modello di Amp
3:16 Perché Gemini Pro non ha avuto successo
4:55 Fallimenti nella chiamata agli strumenti e interruzione degli utenti
6:09 Decadenza dell'iterazione vs autocorrezione
10:08 Hype dei modelli aperti (K2, Qwen)
11:22 L'era dei "56k agents"
18:01 Prime impressioni su GPT-5
20:35 Legare modelli e Oracle come fallback
24:26 Come GPT-5 si sente diverso (personalità e guidabilità)
29:10 Superare la soglia di usabilità
38:13 Perché le vibrazioni > benchmark
44:18 Test di regressione e filosofia di valutazione
46:21 Futuro multi-modello > vincitore singolo
52:38 Pensieri finali
2,14K
Principali
Ranking
Preferiti