Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Multor oameni le place să compare diferite clase de modele, cum ar fi "raționamentul" sau "non-raționamentul", unde în realitate acum toți sunt antrenați cu o cantitate bună de aceleași tehnici de învățare prin întărire (și alte lucruri).
Punctul de vedere corect este să vezi fiecare eliberare de model pe un spectru de efort de raționament. Mulți spun că Claude este un model non-rațional, dar au fost printre primii care au avut jetoane speciale și un UX pentru "a gândi profund, a sta deoparte" (cu mult înainte de modul lor de gândire extins). Același lucru ar putea fi valabil și pentru DeepSeek v3.1, care este lansat, dar nu este încă ușor de utilizat. Nu avem idee câte jetoane pe răspuns sunt utilizate în mod implicit în versiunile de chat ale acestor modele.
API-urile cu numărul exact de token-uri sunt singura sursă de adevăr și ar trebui comunicate mult mai frecvent.
Apoi, în cadrul modelelor de raționament, există o variație uriașă în numărul de jetoane utilizate. Prețul modelelor ar trebui să fie considerația finală a efortului, o combinație a parametrilor activi totali și a numărului de jetoane utilizate. Ascultându-l pe Dylan Patel în podcastul a16z, se pare că unul dintre marile câștiguri ale GPT-5 în modul de gândire pe care îl iubesc (similar cu o3) a fost să obțină rezultate puțin mai bune cu aproape 50% mai puține jetoane. Am simțit puțin asta, este doar mai mult pe sarcină decât o3.
Un alt punct este a doua generație de R1, R1-0528 a îmbunătățit scorurile folosind mult mai mult raționament. Qwen a fost similar. Acest lucru nu este întotdeauna foarte valoros pentru utilizator.
La nivel tehnic, rezolvăm acest lucru raportând numărul de token-uri utilizate pe model în rezultatele evaluării (în special în raport cu colegii). Problema este că lansările AI sunt acum destul de populare și este un detaliu tehnic nuanțat de comunicat.
Pe partea de cercetare, de exemplu, vă puteți crește semnificativ scorurile de evaluare evaluând modelul de raționament într-un context mai lung decât colegii dvs.
Efortul de raționament în token-uri și, uneori, în promptul de sistem, este acum o variabilă complexă, dar nu un simplu da/nu în toate aceste versiuni.
Mai jos este o captură de ecran dintr-o postare care discută acest lucru înainte de lansarea o1 (12 septembrie anul trecut) și o captură de ecran a unui utilizator reddit care a descoperit comportamentul de gândire al lui Claude.
Păstrez acest discurs pentru referințe viitoare pentru că trebuie să-l repet tot timpul.


25,5K
Limită superioară
Clasament
Favorite