Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kiedy pracowałem w Google, miałem szczęście współpracować z niektórymi z najjaśniejszych inżynierów zajmujących się uczeniem maszynowym (ML). Pracowali nad inżynierią cech. Wybierając czynniki, które miały prowadzić model ML, ich osiągnięcia mogły generować dziesiątki do setek milionów dodatkowych przychodów.
Wyobraź sobie arkusz kalkulacyjny Excel z setkami kolumn danych. Dodaj dwie kolumny, pomnóż dwie, podziel przez inną i odejmij czwartą. Każda z tych operacji to cecha. Modele ML używały cech do przewidywania najlepszej reklamy do wyświetlenia.
Zaczęło się to jako rzemiosło, odzwierciedlające atmosferę tamtej epoki. Z biegiem czasu zmechanizowaliśmy tę sztukę w maszynę zwaną AutoML, która znacznie przyspiesza odkrywanie odpowiednich cech.
Dziś uczenie przez wzmocnienie (RL) znajduje się w tym samym miejscu, w którym inżynieria cech była 15 lat temu.
Czym jest RL? To technika nauczania AI osiągania celów.
Wyobraź sobie odważnego Roombę. Wchodzi do brudnego pokoju.
Następnie musi stworzyć plan sprzątania i go zrealizować. Stworzenie planu to krok 1. Aby zrealizować plan, jak każdy dobry pracownik, nagrodzi się, nie przerwą na piłkarzyki, ale punktami.
Jej funkcja nagrody może wyglądać następująco: +0,1 za każdy nowy czterokątny stopień sprzątania, -5 za uderzenie w ścianę i +100 za powrót do stacji dokującej z pełnym pojemnikiem na kurz. Zachowanie tego nieustającego odkurzacza kształtowane jest przez tę prostą arytmetykę. (NB: Uproszczam to tutaj.)
Dziś AI może stworzyć plan, ale jeszcze nie potrafi opracować funkcji nagrody. Ludzie to robią, podobnie jak rozwijaliśmy cechy 15 lat temu.
Czy zobaczymy AutoRL? Nie przez jakiś czas. Techniki RL są wciąż przedmiotem debaty. Andrej Karpathy podkreślił tę debatę w niedawnym podcaście.
Ta obecna fala poprawy AI może zależeć od sukcesu RL. Dziś jest to w dużej mierze rzemiosło. Potencjał do automatyzacji tego—w pewnym stopniu lub całkowicie—zmieni sposób, w jaki budujemy systemy agentowe.

Najlepsze
Ranking
Ulubione