Många människor gillar att jämföra olika klasser av modeller som "resonemang" eller "icke-resonemang" där de i själva verket nu alla är tränade med en bra mängd av samma tekniker för förstärkningsinlärning (och andra saker). Den korrekta uppfattningen är att se varje modellrelease på ett spektrum av resonemangsinsatser. Många säger att Claude är en icke-resonerande modell, men de var en av de första som hade speciella tokens och en UX för att "tänka djupt, stand by" (långt före deras utökade tankeläge). Detsamma kan gälla för DeepSeek v3.1 som är släppt men ännu inte lätt att använda. Vi har ingen aning om hur många token per svar som används i chattversionerna av dessa modeller som standard. API:er med exakta tokenantal är den enda källan till sanning och de bör kommuniceras mycket oftare. Sedan finns det inom resonemangsmodeller en enorm variation i antalet tokens som används. Priset på modellerna bör vara det slutliga övervägandet av ansträngningen, en blandning av de totala aktiva parametrarna och antalet tokens som används. När jag lyssnar på Dylan Patel på a16z podcast verkar det som om en av de stora vinsterna med GPT-5 i det tankeläge som jag älskar (liknande o3) var att få något bättre resultat med nästan 50% färre tokens. Jag har känt av detta lite, det är bara mer på uppgift än o3. En annan punkt är att den andra generationen av R1, R1-0528 förbättrade poängen genom att använda mycket mer resonemang. Qwen har varit liknande. Detta är inte alltid supervärdefullt för användaren. På en teknisk nivå löser vi detta genom att rapportera antalet tokens som används per modell i utvärderingsresultat (särskilt i förhållande till peers). Problemet är att AI-lanseringar nu är ganska vanliga och det är en nyanserad teknisk detalj att kommunicera. På forskningssidan kan du till exempel på ett meningsfullt sätt öka dina utvärderingsresultat genom att utvärdera din resonemangsmodell i ett längre sammanhang än dina kamrater. Resonemang i tokens, och ibland i systemprompten, är nu en komplex variabel men inte ett enkelt ja/nej i alla dessa versioner. Nedan är en skärmdump från ett inlägg som diskuterar detta innan o1 släpptes (12 september förra året) och en skärmdump av en reddit-användare som avslöjade Claudes tankebeteende. Sparar denna rant för framtida referens eftersom jag måste upprepa den hela tiden.
25,61K