Dogłębna dyskusja na temat agentów, gpt-5 i oceny modeli 👇
Amp — Research Preview
Amp — Research Preview22 sie, 01:27
Raising An Agent - Odcinek 8 W tym odcinku @beyang rozmawia z @camden_cheek o tym, jak zespół Amp ocenia nowe modele: dlaczego wywoływanie narzędzi jest kluczowym czynnikiem różnicującym, jak otwarte modele takie jak K2 i Qwen wypadają w porównaniu, jakie zmiany wprowadza GPT-5 oraz jak jakościowe „sprawdzanie wibracji” często ma większe znaczenie niż benchmarki. Zajmują się również subagentami, stopami modeli oraz tym, jak wygląda przyszłość kodowania agentów w Amp. Czas: 0:00 Wprowadzenie — Dlaczego ocena modeli ma znaczenie 1:06 Wielomodelowa filozofia Amp 3:16 Dlaczego Gemini Pro nie przetrwał 4:55 Niepowodzenia w wywoływaniu narzędzi i zakłócenia dla użytkowników 6:09 Deklinacja iteracji vs samokorekcja 10:08 Hype wokół otwartych modeli (K2, Qwen) 11:22 „Era 56k agentów” 18:01 Pierwsze wrażenia z GPT-5 20:35 Łączenie modeli i Oracle jako plan awaryjny 24:26 Jak GPT-5 wydaje się inny (osobowość i kierowalność) 29:10 Przekraczanie progu użyteczności 38:13 Dlaczego wibracje > benchmarki 44:18 Testowanie regresji i filozofia oceny 46:21 Przyszłość wielomodelowa > pojedynczy zwycięzca 52:38 Ostateczne przemyślenia
2,59K