Cuando trabajé en Google, tuve la suerte de colaborar con algunos de los ingenieros de aprendizaje automático (ML) más brillantes. Trabajaron en ingeniería de características. Al elegir los factores para guiar el modelo de ML, sus avances podrían generar decenas o cientos de millones de ingresos adicionales. Imagine una hoja de cálculo de Excel con cientos de columnas de datos. Suma dos columnas, multiplica dos, divide por otra y resta una cuarta. Cada uno de estos es una característica. Los modelos de AA usaban funciones para predecir el mejor anuncio para mostrar. Comenzó como una artesanía, reflejando las vibraciones de la época. Con el tiempo, hemos mecanizado este arte en una máquina llamada AutoML que acelera enormemente el descubrimiento de las características correctas. Hoy en día, el aprendizaje por refuerzo (RL) está en el mismo lugar que la ingeniería de características hace 15 años. ¿Qué es RL? Es una técnica para enseñar a la IA a lograr objetivos. Considere un Roomba valiente. Presiona en una habitación sucia. Luego debe hacer un plan de limpieza y ejecutarlo. Crear el plan es el paso 1. Para completar el plan, como cualquier buen trabajador, se recompensará a sí mismo, no con un descanso de futbolín, sino con algunos puntos. Su función de recompensa podría ser: +0.1 por cada nuevo pie cuadrado limpiado, -5 por chocar contra una pared y +100 por regresar a su muelle con un cubo de basura lleno. El comportamiento del vacío incansable está moldeado por esta simple aritmética. (NB: Estoy simplificando bastante aquí). Hoy en día, la IA puede crear el plan, pero aún no puede desarrollar las funciones de recompensa. La gente hace esto, al igual que desarrollamos funciones hace 15 años. ¿Veremos un AutoRL? No por un tiempo. Las técnicas para RL aún están en debate. Andrej Karpathy destacó el debate en un podcast reciente. Esta ola actual de mejora de la IA podría depender del éxito de RL. Hoy en día, es en gran medida un oficio. El potencial de automatizarlo, hasta cierto punto o por completo, transformará la forma en que construimos sistemas agenciales.