När jag arbetade på Google hade jag turen att samarbeta med några av de smartaste maskininlärningsingenjörerna (ML). De arbetade med funktionsteknik. Genom att välja de faktorer som styr ML-modellen kan deras framsteg generera tiotals till hundratals miljoner i ytterligare intäkter. Föreställ dig ett Excel-kalkylblad med hundratals kolumner med data. Addera två kolumner, multiplicera två, dividera med en annan och subtrahera en fjärde. Var och en av dessa är en funktion. ML-modeller använde funktioner för att förutsäga vilken annons som var bäst att visa. Det började som ett hantverk som speglade den tidens vibbar. Med tiden har vi mekaniserat den här konsten till en maskin som kallas AutoML som kraftigt påskyndar upptäckten av rätt funktioner. Idag är reinforcement learning (RL) på samma plats som feature engineering för 15 år sedan. Vad är RL? Det är en teknik för att lära AI att uppnå mål. Tänk på en modig Roomba. Den pressar sig in i ett smutsigt rum. Sedan måste den göra en rengöringsplan och genomföra den. Att skapa planen är steg 1. För att slutföra planen, som vilken bra arbetare som helst, kommer den att belöna sig själv, inte med en foosball-paus, utan med några poäng. Dess belöningsfunktion kan vara: +0,1 för varje ny kvadratmeter som rengörs, -5 för att stöta emot en vägg och +100 för att återvända till sin kaj med en full soptunna. Den outtröttliga dammsugarens beteende formas av denna enkla aritmetik. (OBS: Jag förenklar en hel del här.) Idag kan AI skapa planen, men kan ännu inte utveckla belöningsfunktionerna. Människor gör detta, ungefär som vi utvecklade funktioner för 15 år sedan. Kommer vi att få se en AutoRL? Inte än på ett tag. Teknikerna för RL är fortfarande uppe för debatt. Andrej Karpathy lyfte fram debatten i en podcast nyligen. Den nuvarande vågen av AI-förbättringar kan vara beroende av RL-framgång. Idag är det i hög grad ett hantverk. Potentialen att automatisera det – till en viss grad eller helt – kommer att förändra hur vi bygger agentsystem.