Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Prime Intellect
Prime Intellect delade inlägget
.@willccbb (Research Lead, Prime Intellect) om hur RL-miljöer verkligen fungerar:
"En miljö är i grund och botten en utvärdering. Du har indatauppgifter, en sele och i slutet poängsätter den hur din modell eller agent presterar. Det är det upplägget vi använder för både evals och RL-träning."
Han tillägger att framtiden inte bara handlar om att "få 100 000 GPU:er i ett gigantiskt kluster".
15,06K
Prime Intellect delade inlägget
I förträningens tidevarv var det internettext som gällde. Du vill i första hand ha en stor, mångsidig samling av internetdokument av hög kvalitet att lära dig av.
I en tid av övervakad finjustering var det samtal. Kontraktsarbetare anställs för att skapa svar på frågor, lite som vad du skulle se på Stack Overflow / Quora, eller etc., men inriktat på LLM-användningsfall.
Ingen av de två ovanstående kommer att försvinna (imo), men i denna era av förstärkningsinlärning är det nu miljöer. Till skillnad från ovanstående ger de LLM en möjlighet att faktiskt interagera - vidta åtgärder, se resultat etc. Det betyder att du kan hoppas på att göra mycket bättre än statistisk expertimitation. Och de kan användas både för modellträning och utvärdering. Men precis som tidigare är kärnproblemet nu att behöva en stor, mångsidig, högkvalitativ uppsättning miljöer, som övningar för LLM att öva mot.
På något sätt påminns jag om OpenAI:s allra första projekt (gym), som var exakt ett ramverk i hopp om att bygga en stor samling miljöer i samma schema, men det här var långt före LLM:er. Så miljöerna var enkla akademiska kontrolluppgifter på den tiden, som cartpole, ATARI, etc. Hubben för @PrimeIntellect miljöer (och lagringsplatsen "verifierare" på GitHub) bygger den moderniserade versionen specifikt riktad mot LLM:er, och det är en stor ansträngning/idé. Jag pitchade att någon skulle bygga något liknande tidigare i år:
Miljöer har den egenskapen att när stommen till ramverket väl är på plats så kan i princip communityn/branschen parallellisera över många olika domäner, vilket är spännande.
Slutlig tanke - personligen och på lång sikt är jag hausse på miljöer och agentiska interaktioner men jag är baisse på förstärkningsinlärning specifikt. Jag tror att belöningsfunktioner är superbra, och jag tror att människor inte använder RL för att lära sig (kanske gör de det för vissa motoriska uppgifter etc, men inte intellektuella problemlösningsuppgifter). Människor använder olika inlärningsparadigm som är betydligt kraftfullare och mer proveffektiva och som inte har uppfunnits och skalats ordentligt ännu, även om tidiga skisser och idéer finns (som bara ett exempel, idén om "systemsnabb inlärning", att flytta uppdateringen till tokens/kontexter inte vikter och eventuellt destillera till vikter som en separat process lite som sömn gör).
427,11K
Topp
Rankning
Favoriter