Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cuando trabajé en Google, tuve la suerte de colaborar con algunos de los ingenieros de aprendizaje automático (ML) más brillantes. Trabajaron en la ingeniería de características. Al elegir los factores para guiar el modelo de ML, sus avances podían generar decenas a cientos de millones de ingresos adicionales.
Imagina una hoja de cálculo de Excel con cientos de columnas de datos. Agrega dos columnas, multiplica dos, divide por otra y resta una cuarta. Cada uno de estos es una característica. Los modelos de ML utilizan características para predecir el mejor anuncio para mostrar.
Comenzó como un arte, reflejando las vibras de la época. Con el tiempo, hemos mecanizado este arte en una máquina llamada AutoML que acelera masivamente el descubrimiento de las características correctas.
Hoy, el aprendizaje por refuerzo (RL) está en el mismo lugar que la ingeniería de características hace 15 años.
¿Qué es RL? Es una técnica para enseñar a la IA a lograr objetivos.
Considera un valiente Roomba. Se adentra en una habitación sucia.
Luego debe hacer un plan de limpieza y ejecutarlo. Crear el plan es el paso 1. Para completar el plan, como cualquier buen trabajador, se recompensará a sí mismo, no con un descanso para jugar al futbolín, sino con algunos puntos.
Su función de recompensa podría ser: +0.1 por cada pie cuadrado nuevo limpiado, -5 por chocar contra una pared, y +100 por regresar a su base con un cubo de polvo lleno. El comportamiento de la incansable aspiradora está moldeado por esta simple aritmética. (NB: Estoy simplificando bastante aquí.)
Hoy, la IA puede crear el plan, pero aún no puede desarrollar las funciones de recompensa. Las personas hacen esto, al igual que desarrollamos características hace 15 años.
¿Veremos un AutoRL? No por un tiempo. Las técnicas para RL aún están en debate. Andrej Karpathy destacó el debate en un podcast reciente.
Esta ola actual de mejora de la IA podría depender del éxito del RL. Hoy, es muy mucho un arte. El potencial para automatizarlo—en cierta medida o completamente—transformará la forma en que construimos sistemas agentes.

Parte superior
Clasificación
Favoritos

