Když jsem pracoval pro Google, měl jsem štěstí, že jsem spolupracoval s některými z nejchytřejších inženýrů strojového učení (ML). Pracovali na vývoji funkcí. Výběrem faktorů, které budou řídit model ML, by jejich pokroky mohly generovat desítky až stovky milionů dodatečných příjmů. Představte si excelovou tabulku se stovkami sloupců dat. Sečtěte dva sloupce, vynásobte dva, vydělte dalším a odečtěte čtvrtý. Každý z nich je funkce. Modely ML používaly funkce k předvídání nejlepší reklamy, která se zobrazí. Začalo to jako řemeslo, odrážející vibrace té doby. Postupem času jsme toto umění zmechanizovali do stroje zvaného AutoML, který masivně urychluje objevování správných funkcí. Dnes je zpětnovazební učení (RL) na stejném místě jako feature engineering před 15 lety. Co je RL? Je to technika učení umělé inteligence k dosahování cílů. Vezměme si odvážnou Roombu. Tlačí se do špinavé místnosti. Poté musí vytvořit plán čištění a provést jej. Vytvoření plánu je krokem 1. Aby dokončil plán, jako každý dobrý pracovník, odmění se ne přestávkou na stolní fotbálek, ale několika body. Jeho funkce odměny může být: +0,1 za každou nově vyčištěnou čtvereční stopu, -5 za náraz do zdi a +100 za návrat do doku s plným odpadkovým košem. Chování neúnavného vakua je utvářeno touto jednoduchou aritmetikou. (Poznámka: Trochu to zjednodušuji.) Dnes může umělá inteligence vytvořit plán, ale zatím není schopna vyvinout funkce odměny. Lidé to dělají, podobně jako jsme před 15 lety vyvinuli funkce. Dočkáme se AutoRL? Na chvíli ne. Techniky pro RL jsou stále předmětem debat. Andrej Karpathy na tuto debatu upozornil v nedávném podcastu. Tato současná vlna zlepšování umělé inteligence by mohla záviset na úspěchu RL. Dnes je to do značné míry řemeslo. Potenciál automatizovat jej – do určité míry nebo plně – změní způsob, jakým vytváříme agentní systémy.