Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Jason Wei

Badacz sztucznej inteligencji @meta Superintelligence Labs, przeszłość: OpenAI, Google 🧠

Nowy post na blogu o asymetrii weryfikacji i "prawie weryfikatora": Asymetria weryfikacji – idea, że niektóre zadania są znacznie łatwiejsze do zweryfikowania niż do rozwiązania – staje się ważnym pomysłem, ponieważ mamy RL, które w końcu działa ogólnie. Świetnymi przykładami asymetrii weryfikacji są takie rzeczy jak łamigłówki sudoku, pisanie kodu dla strony internetowej takiej jak Instagram oraz problemy BrowseComp (zajmuje ~100 stron internetowych, aby znaleźć odpowiedź, ale łatwo to zweryfikować, gdy już masz odpowiedź). Inne zadania mają bliską symetrię weryfikacji, jak sumowanie dwóch 900-cyfrowych liczb lub niektóre skrypty przetwarzania danych. Jeszcze inne zadania są znacznie łatwiejsze do zaproponowania wykonalnych rozwiązań niż do ich weryfikacji (np. weryfikacja faktów długiego eseju lub stwierdzenie nowej diety, jak "jedz tylko bizon"). Ważną rzeczą do zrozumienia w kontekście asymetrii weryfikacji jest to, że można poprawić asymetrię, wykonując pewną pracę wcześniej. Na przykład, jeśli masz klucz odpowiedzi do problemu matematycznego lub jeśli masz przypadki testowe dla problemu Leetcode. To znacznie zwiększa zestaw problemów z pożądaną asymetrią weryfikacji. "Prawo weryfikatora" stwierdza, że łatwość trenowania AI do rozwiązania zadania jest proporcjonalna do tego, jak weryfikowalne jest to zadanie. Wszystkie zadania, które można rozwiązać i łatwo zweryfikować, będą rozwiązane przez AI. Zdolność do trenowania AI do rozwiązania zadania jest proporcjonalna do tego, czy zadanie ma następujące cechy: 1. Obiektywna prawda: wszyscy zgadzają się, jakie są dobre rozwiązania 2. Szybka weryfikacja: każda dana odpowiedź może być zweryfikowana w kilka sekund 3. Skalowalna weryfikacja: wiele rozwiązań może być weryfikowanych jednocześnie 4. Niski szum: weryfikacja jest jak najbardziej skorelowana z jakością rozwiązania 5. Ciągła nagroda: łatwo jest ocenić jakość wielu rozwiązań dla jednego problemu Jednym oczywistym przykładem prawa weryfikatora jest fakt, że większość benchmarków proponowanych w AI jest łatwa do weryfikacji i jak dotąd zostały rozwiązane. Zauważ, że praktycznie wszystkie popularne benchmarki w ciągu ostatnich dziesięciu lat spełniają kryteria #1-4; benchmarki, które nie spełniają kryteriów #1-4, miałyby trudności z zyskiwaniem popularności. Dlaczego weryfikowalność jest tak ważna? Ilość uczenia się w AI, która zachodzi, jest maksymalizowana, gdy powyższe kryteria są spełnione; można wykonać wiele kroków gradientowych, gdzie każdy krok ma dużo sygnału. Szybkość iteracji jest kluczowa – to powód, dla którego postęp w świecie cyfrowym był znacznie szybszy niż postęp w świecie fizycznym. AlphaEvolve z Google jest jednym z największych przykładów wykorzystania asymetrii weryfikacji. Skupia się na ustawieniach, które spełniają wszystkie powyższe kryteria i doprowadziło to do wielu postępów w matematyce i innych dziedzinach. Różni się to od tego, co robiliśmy w AI przez ostatnie dwie dekady, to nowy paradygmat, w którym wszystkie problemy są optymalizowane w ustawieniu, gdzie zbiór treningowy jest równy zbiorowi testowemu. Asymetria weryfikacji jest wszędzie i ekscytujące jest rozważanie świata poszarpanej inteligencji, gdzie wszystko, co możemy zmierzyć, zostanie rozwiązane.

Nie mamy jeszcze AI, które samodzielnie się poprawia, a kiedy już je będziemy mieć, będzie to przełom. W porównaniu do czasów GPT-4, z większą mądrością teraz, oczywiste jest, że nie będzie to "szybki start", lecz raczej niezwykle stopniowy proces rozciągający się na wiele lat, prawdopodobnie dekadę. Pierwszą rzeczą, którą należy wiedzieć, jest to, że samodoskonalenie, tj. modele trenujące same siebie, nie jest binarne. Rozważmy scenariusz, w którym GPT-5 trenuje GPT-6, co byłoby niesamowite. Czy GPT-5 nagle przejdzie od braku możliwości trenowania GPT-6 do trenowania go w sposób niezwykle biegły? Zdecydowanie nie. Pierwsze uruchomienia treningowe GPT-6 prawdopodobnie będą niezwykle nieefektywne pod względem czasu i obliczeń w porównaniu do ludzkich badaczy. I dopiero po wielu próbach, GPT-5 rzeczywiście będzie w stanie trenować GPT-6 lepiej niż ludzie. Po drugie, nawet jeśli model mógłby trenować sam siebie, nie poprawiłby się nagle we wszystkich dziedzinach. Istnieje gradient trudności w tym, jak trudno jest poprawić siebie w różnych dziedzinach. Na przykład, może samodoskonalenie działa tylko na początku w dziedzinach, które już wiemy, jak łatwo naprawić po treningu, takich jak podstawowe halucynacje czy styl. Następnie będą matematyka i kodowanie, co wymaga więcej pracy, ale ma ustalone metody poprawy modeli. A na skraju, można sobie wyobrazić, że są pewne zadania, które są bardzo trudne do samodoskonalenia. Na przykład, umiejętność mówienia w Tlingit, języku rdzennych Amerykanów, którym posługuje się około 500 osób. Będzie bardzo trudno modelowi samodzielnie poprawić się w mówieniu w Tlingit, ponieważ nie mamy jeszcze sposobów na rozwiązanie problemów z językami o niskich zasobach, poza zbieraniem większej ilości danych, co zajmie czas. Dlatego z powodu gradientu trudności samodoskonalenia, nie wszystko wydarzy się naraz. Na koniec, może to być kontrowersyjne, ale ostatecznie postęp w nauce jest ograniczony przez eksperymenty w rzeczywistym świecie. Niektórzy mogą wierzyć, że przeczytanie wszystkich prac z biologii ujawni nam lekarstwo na raka, lub że przeczytanie wszystkich prac z ML i opanowanie całej matematyki pozwoli na idealne trenowanie GPT-10. Gdyby tak było, to osoby, które przeczytały najwięcej prac i studiowały najwięcej teorii, byłyby najlepszymi badaczami AI. Ale to, co naprawdę się wydarzyło, to to, że AI (i wiele innych dziedzin) stało się zdominowane przez bezwzględnych badaczy empirycznych, co odzwierciedla, jak wiele postępu opiera się na eksperymentach w rzeczywistym świecie, a nie na czystej inteligencji. Więc mój punkt widzenia jest taki, że chociaż super inteligentny agent może zaprojektować eksperymenty 2x lub nawet 5x lepsze niż nasi najlepsi ludzcy badacze, na końcu i tak muszą czekać na przeprowadzenie eksperymentów, co byłoby przyspieszeniem, ale nie szybkim startem. Podsumowując, istnieje wiele wąskich gardeł dla postępu, nie tylko czysta inteligencja czy system samodoskonalenia. AI rozwiąże wiele dziedzin, ale każda dziedzina ma swoją własną szybkość postępu. A nawet najwyższa inteligencja nadal będzie wymagała eksperymentów w rzeczywistym świecie. Więc będzie to przyspieszenie, a nie szybki start, dziękuję za przeczytanie mojej tyrady.

Najlepsze

Ranking

Ulubione

Trendy onchain

Trendy na X

Niedawne największe finansowanie

Najbardziej godne uwagi