Quando lavoravo a Google, sono stato fortunato a collaborare con alcuni dei più brillanti ingegneri di machine learning (ML). Lavoravano sull'ingegneria delle caratteristiche. Scegliendo i fattori per guidare il modello ML, i loro progressi potevano generare decine o centinaia di milioni di entrate aggiuntive.
Immagina un foglio di calcolo Excel con centinaia di colonne di dati. Aggiungi due colonne, moltiplica due, dividi per un'altra e sottrai una quarta. Ognuna di queste è una caratteristica. I modelli ML utilizzavano le caratteristiche per prevedere il miglior annuncio da mostrare.
È iniziato come un'arte, riflettendo le vibrazioni dell'epoca. Col tempo, abbiamo meccanizzato quest'arte in una macchina chiamata AutoML che accelera enormemente la scoperta delle giuste caratteristiche.
Oggi, l'apprendimento per rinforzo (RL) si trova nello stesso punto in cui si trovava l'ingegneria delle caratteristiche 15 anni fa.
Cos'è il RL? È una tecnica per insegnare all'AI a raggiungere obiettivi.
Considera un coraggioso Roomba. Si fa strada in una stanza sporca.
Poi deve fare un piano di pulizia e metterlo in atto. Creare il piano è il passo 1. Per completare il piano, come qualsiasi buon lavoratore, si ricompenserà, non con una pausa per il biliardino, ma con dei punti.
La sua funzione di ricompensa potrebbe essere: +0,1 per ogni nuovo piede quadrato pulito, -5 per aver urtato un muro e +100 per tornare al suo dock con un contenitore della polvere pieno. Il comportamento di questo instancabile aspirapolvere è modellato da questa semplice aritmetica. (NB: Sto semplificando un po' qui.)
Oggi, l'AI può creare il piano, ma non è ancora in grado di sviluppare le funzioni di ricompensa. Le persone fanno questo, proprio come abbiamo sviluppato le caratteristiche 15 anni fa.
Vedremo un AutoRL? Non per un po'. Le tecniche per il RL sono ancora oggetto di dibattito. Andrej Karpathy ha evidenziato il dibattito in un recente podcast.
Questa attuale ondata di miglioramento dell'AI potrebbe dipendere dal successo del RL. Oggi, è molto un'arte. Il potenziale di automatizzarlo—fino a un certo punto o completamente—trasformerà il modo in cui costruiamo sistemi agentici.