Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Prime Intellect
Użytkownik Prime Intellect udostępnił ponownie
.@willccbb (Lider Badań, Prime Intellect) o tym, jak naprawdę działają środowiska RL:
„Środowisko to w zasadzie ewaluacja. Masz zadania wejściowe, system testowy, a na końcu ocenia, jak działa twój model lub agent. To jest konfiguracja, której używamy zarówno do ewaluacji, jak i szkolenia RL.”
Dodaje, że przyszłość nie polega tylko na „zdobyciu 100 000 GPU w jednym ogromnym klastrze.”
12,32K
Użytkownik Prime Intellect udostępnił ponownie
W erze wstępnego uczenia, to, co miało znaczenie, to teksty z internetu. Głównie chciałbyś mieć dużą, różnorodną, wysokiej jakości kolekcję dokumentów internetowych, z których można się uczyć.
W erze nadzorowanego dostrajania, to były rozmowy. Zatrudniani są pracownicy kontraktowi do tworzenia odpowiedzi na pytania, trochę jak to, co można zobaczyć na Stack Overflow / Quora, czy innych, ale skierowane w stronę zastosowań LLM.
Żadne z powyższych nie zniknie (moim zdaniem), ale w tej erze uczenia przez wzmocnienie, to teraz środowiska. W przeciwieństwie do powyższych, dają LLM możliwość rzeczywistej interakcji - podejmowania działań, obserwowania wyników itd. Oznacza to, że można mieć nadzieję na znacznie lepsze wyniki niż statystyczna imitacja ekspertów. Mogą być używane zarówno do treningu modelu, jak i oceny. Ale tak jak wcześniej, podstawowym problemem jest teraz potrzeba dużego, różnorodnego, wysokiej jakości zestawu środowisk, jako ćwiczeń dla LLM do praktyki.
W pewnym sensie przypomina mi to pierwszy projekt OpenAI (gym), który był dokładnie ramą mającą na celu zbudowanie dużej kolekcji środowisk w tym samym schemacie, ale to było dużo przed LLM. Tak więc środowiska były prostymi akademickimi zadaniami kontrolnymi tamtych czasów, takimi jak cartpole, ATARI itd. Hub środowisk @PrimeIntellect (i repozytorium `verifiers` na GitHubie) buduje zmodernizowaną wersję, skierowaną specjalnie na LLM, i to jest świetny wysiłek/pomysł. Zasugerowałem, że ktoś zbuduje coś podobnego na początku tego roku:
Środowiska mają tę właściwość, że gdy szkielet ramy jest na miejscu, w zasadzie społeczność/branża może równolegle działać w wielu różnych dziedzinach, co jest ekscytujące.
Ostatnia myśl - osobiście i długoterminowo, jestem optymistyczny co do środowisk i interakcji agentowych, ale pesymistyczny co do uczenia przez wzmocnienie w szczególności. Uważam, że funkcje nagrody są bardzo podejrzane, i myślę, że ludzie nie używają RL do nauki (może robią to w przypadku niektórych zadań motorycznych itd., ale nie w zadaniach rozwiązywania problemów intelektualnych). Ludzie używają różnych paradygmatów uczenia, które są znacznie potężniejsze i bardziej efektywne pod względem próbkowania i które nie zostały jeszcze odpowiednio wynalezione i skalowane, chociaż istnieją wczesne szkice i pomysły (jako jeden przykład, pomysł "uczenia się z podpowiedzi systemowych", przenosząc aktualizację na tokeny/konteksty, a nie wagi i opcjonalnie destylując do wag jako osobny proces, trochę jak sen).
372,61K
Użytkownik Prime Intellect udostępnił ponownie
Następna generacja startupów z wyceną 10B+ będzie budowana poprzez skalowanie treningu w wewnętrznym środowisku RL.
Żyjemy w obfitości możliwości, a mimo to mamy tylko dwa główne produkty AI: chatgpt i agenta kodującego, co mnie głęboko frustruje.
Obecny łańcuch dostaw sztucznej inteligencji jest strukturalnie zepsuty, z jednym dostawcą sprzętu, kilkoma gigantami AI posiadającymi wszystkie rafinerie inteligencji, a deweloperzy zostają z dostępem do API, mając ledwie jakąkolwiek kontrolę.
Jakby era internetu była zbudowana z Intelem sprzedającym CPU czterem gigantom chmurowym, którzy posiadają całą infrastrukturę i stos oprogramowania z tajemnicami i NDA wszędzie, a dającym WordPress jako zestaw narzędzi do rozwoju dla startupów.
Dlaczego perplexity nie wynalazło głębokich badań? Po prostu nie mogło, ponieważ jest trenowane z RL.
Moja prognoza na następne lata:
RL stanie się najpotężniejszym narzędziem do budowania produktów AI przez startupy. Zobaczymy setki historii sukcesu, takich jak cursor i lovable. Użytkownicy końcowi skorzystają na tym najbardziej.
Wielkie laboratoria będą ewoluować w kierunku firm produktowych, oai skupi się na rynku konsumenckim, Antropic na agencie kodującym, deepmind zintegrował AI we wszystkich biznesach Google, a meta i XAI będą walczyć o media społecznościowe.
Zobaczymy pojawienie się ekosystemu startupów infrastruktury AI, sprzedających moc obliczeniową, trenujących modele bazowe, kuratorów danych, budujących środowisko RL, oferujących tanie wnioskowanie i trening, napędzanych przez otwartą naukę i oprogramowanie open source.
@PrimeIntellect jest pionierem tego ekosystemu, a wizja otwartego źródła AGI, hub środowiska RL jest jednym z pierwszych kluczowych elementów.
3,23K
Użytkownik Prime Intellect udostępnił ponownie
otwarte środowiska RL mogą być najważniejszym brakującym elementem do skalowania do otwartej AGI.
Stworzyliśmy centrum społecznościowe, aby crowdsourcować je na otwartym rynku.
Jesteśmy wdzięczni wszystkim niesamowitym współtwórcom, którzy już stworzyli środowiska w ciągu ostatnich kilku dni.

14,43K
Użytkownik Prime Intellect udostępnił ponownie
Następna generacja startupów z wyceną 10B+ będzie budowana poprzez skalowanie treningu w wewnętrznym środowisku RL.
Żyjemy w obfitości możliwości, a jednak mamy tylko dwa główne produkty AI: chatgpt i agenta kodującego, co mnie głęboko frustruje.
Obecny łańcuch dostaw sztucznej inteligencji jest strukturalnie zepsuty, z jednym dostawcą sprzętu, kilkoma gigantami AI posiadającymi wszystkie rafinerie inteligencji, a deweloperzy zostali z dostępem do API, mając ledwie jakąkolwiek kontrolę.
Jakby era internetu była zbudowana z Intelem sprzedającym CPU czterem gigantom chmurowym, którzy posiadają całą infrastrukturę i stos oprogramowania z tajemnicami i NDA wszędzie, a dającym WordPress jako zestaw deweloperski dla startupów.
Dlaczego perplexity nie wynalazło głębokich badań? Po prostu nie mogło, ponieważ jest trenowane z RL.
**Moja prognoza na następne lata**:
RL stanie się najpotężniejszym narzędziem do budowania produktów AI przez startupy. Zobaczymy setki historii sukcesu, takich jak cursor i lovable. Użytkownicy końcowi skorzystają na tym najbardziej.
Wielkie laboratoria będą ewoluować w kierunku firm produktowych, oai skupi się na rynku konsumenckim, Antropic na agencie kodującym, deepmind zintegrował AI we wszystkich biznesach Google, a meta i XAI będą walczyć o media społecznościowe.
Zobaczymy pojawienie się ekosystemu startupów infrastruktury AI, sprzedających moc obliczeniową, trenujących modele bazowe, kuratorów danych, budujących środowisko RL, oferujących tanie wnioskowanie i trening, napędzanych przez otwartą naukę i oprogramowanie open source.
@PrimeIntellect jest pionierem tego ekosystemu, a wizja otwartego źródła AGI, hub środowiska RL jest jednym z pierwszych kluczowych elementów.
6,49K
Teraz wspieramy Slurm (a wkrótce Kubernetes) dla naszych konfiguracji wielowęzłowych H100, H200 i B200:


Jannik27 sie, 00:15
wsparcie dla slurm właśnie zostało wprowadzone na prime dla naszych konfiguracji multi-node h100, h200 i b200

8,6K
Teraz wspieramy Slurm (a wkrótce Kubernetes) dla naszych konfiguracji wielowęzłowych H100, H200 i B200.


Jannik27 sie, 00:15
wsparcie dla slurm właśnie zostało wprowadzone na prime dla naszych konfiguracji multi-node h100, h200 i b200

130
Najlepsze
Ranking
Ulubione