In het tijdperk van pretraining was internettekst belangrijk. Je zou voornamelijk een grote, diverse, hoogwaardige verzameling internetdocumenten willen hebben om van te leren. In het tijdperk van gesuperviseerde finetuning waren het gesprekken. Contractwerkers worden ingehuurd om antwoorden te creëren op vragen, een beetje zoals je zou zien op Stack Overflow / Quora, of iets dergelijks, maar gericht op LLM-gebruikscases. Geen van beide bovenstaande gaat verdwijnen (imo), maar in dit tijdperk van versterkend leren zijn het nu omgevingen. In tegenstelling tot het bovenstaande geven ze de LLM de kans om daadwerkelijk te interageren - acties te ondernemen, uitkomsten te zien, enz. Dit betekent dat je kunt hopen veel beter te presteren dan statistische expertimitatie. En ze kunnen zowel voor modeltraining als evaluatie worden gebruikt. Maar net als voorheen is het kernprobleem nu dat er een grote, diverse, hoogwaardige set omgevingen nodig is, als oefeningen voor de LLM om tegen te oefenen. In sommige opzichten word ik herinnerd aan OpenAI's allereerste project (gym), dat precies een framework was dat hoopte een grote verzameling omgevingen in hetzelfde schema op te bouwen, maar dit was lang voordat LLM's bestonden. Dus de omgevingen waren eenvoudige academische controle taken van die tijd, zoals cartpole, ATARI, enz. De @PrimeIntellect omgevingenhub (en de `verifiers` repo op GitHub) bouwt de gemoderniseerde versie specifiek gericht op LLM's, en het is een geweldige inspanning/idee. Ik heb eerder dit jaar voorgesteld dat iemand iets dergelijks zou bouwen: Omgevingen hebben de eigenschap dat zodra het skelet van het framework op zijn plaats is, in principe de gemeenschap / industrie kan paralleliseren over veel verschillende domeinen, wat spannend is. Laatste gedachte - persoonlijk en op lange termijn ben ik optimistisch over omgevingen en agentische interacties, maar ik ben pessimistisch over versterkend leren specifiek. Ik denk dat beloningsfuncties super verdacht zijn, en ik denk dat mensen RL niet gebruiken om te leren (misschien doen ze dat voor sommige motorische taken, maar niet voor intellectuele probleemoplossingstaken). Mensen gebruiken verschillende leerparadigma's die aanzienlijk krachtiger en monsterlijk efficiënter zijn en die nog niet goed zijn uitgevonden en opgeschaald, hoewel vroege schetsen en ideeën bestaan (als slechts één voorbeeld, het idee van "systeem prompt leren", waarbij de update naar tokens/contexten gaat en niet naar gewichten en optioneel distilleren naar gewichten als een apart proces, een beetje zoals slaap dat doet).
Prime Intellect
Prime Intellect18 uur geleden
Introductie van de Omgevingen Hub RL-omgevingen zijn de belangrijkste bottleneck voor de volgende golf van AI-vooruitgang, maar grote laboratoria sluiten ze af. We hebben een communityplatform gebouwd voor het crowdsourcen van open omgevingen, zodat iedereen kan bijdragen aan open-source AGI.
427,1K