Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Prime Intellect
Prime Intellect a repostat
.@willccbb (Research Lead, Prime Intellect) despre cum funcționează cu adevărat mediile RL:
"Un mediu este în esență o evaluare. Ai sarcini de intrare, un ham și, la final, evaluează performanța modelului sau agentului tău. Aceasta este configurația pe care o folosim atât pentru evaluări, cât și pentru antrenamentul RL."
El adaugă că viitorul nu este doar despre "obținerea a 100.000 de GPU-uri într-un cluster gigantic".
15,03K
Prime Intellect a repostat
În epoca pretraining-ului, ceea ce conta era textul de pe internet. Ați dori în primul rând o colecție mare, diversă și de înaltă calitate de documente de pe internet din care să învățați.
În epoca reglajelor fine supravegheate, erau conversațiile. Lucrătorii contractuali sunt angajați pentru a crea răspunsuri la întrebări, un pic ca ceea ce ați vedea pe Stack Overflow / Quora sau etc., dar orientat către cazurile de utilizare LLM.
Niciunul dintre cele două de mai sus nu va dispărea (imo), dar în această eră a învățării prin întărire, acum sunt medii. Spre deosebire de cele de mai sus, ele oferă LLM oportunitatea de a interacționa efectiv - de a lua măsuri, de a vedea rezultatele etc. Aceasta înseamnă că puteți spera să faceți mult mai bine decât imitația experților statistici. Și pot fi folosite atât pentru antrenamentul modelelor, cât și pentru evaluare. Dar, la fel ca înainte, problema de bază acum este nevoie de un set mare, divers și de înaltă calitate de medii, ca exerciții împotriva cărora LLM să exerseze.
Într-un fel, îmi amintesc de primul proiect OpenAI (gym), care a fost exact un framework care spera să construiască o colecție mare de medii în aceeași schemă, dar asta a fost cu mult înainte de LLM-uri. Deci mediile erau simple sarcini de control academic ale vremii, cum ar fi cărucior, ATARI etc. Hub-ul de medii @PrimeIntellect (și depozitul "verificatori" de pe GitHub) construiește versiunea modernizată care vizează în mod specific LLM-urile și este un efort/idee grozav. Am propus ca cineva să construiască ceva asemănător la începutul acestui an:
Mediile au proprietatea că, odată ce scheletul cadrului este la locul său, în principiu, comunitatea / industria poate paraleliza în multe domenii diferite, ceea ce este interesant.
Gând final - personal și pe termen lung, sunt optimist în ceea ce privește mediile și interacțiunile agentice, dar sunt pesimist în ceea ce privește învățarea prin întărire în mod specific. Cred că funcțiile de recompensă sunt super sus, și cred că oamenii nu folosesc RL pentru a învăța (poate o fac pentru unele sarcini motorii etc., dar nu pentru sarcini de rezolvare a problemelor intelectuale). Oamenii folosesc diferite paradigme de învățare care sunt semnificativ mai puternice și mai eficiente în eșantionare și care nu au fost încă inventate și scalate în mod corespunzător, deși există schițe și idei timpurii (ca doar un exemplu, ideea de "învățare promptă a sistemului", mutarea actualizării la tokenuri/contexte nu la greutăți și, opțional, distilarea la greutăți ca un proces separat, un pic ca somnul).
427,09K
Limită superioară
Clasament
Favorite