Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

John Carmack
AGI en Keen Technologies, ex CTO de Oculus VR, fundador de Id Software y Armadillo Aerospace
#PaperADay 6
INTERCAMBIO DE CARACTERÍSTICAS LOCALES PARA LA GENERALIZACIÓN EN EL APRENDIZAJE POR REFUERZO
Hay una buena discusión sobre la generalización, tanto en general (ja) como más específicamente en el aprendizaje por refuerzo, pero la idea presentada es muy simple, y voy a intentarlo:
CLOP: Permutaciones locales consistentes en el canal
Dado un tensor 3D (4D con lote), con cierta probabilidad en cada ubicación, intercambiar aleatoriamente la posición con un vecino, intercambiando todos los canales como una unidad. Al igual que el dropout, esto reduce el sobreajuste por co-adaptación, pero no anula ningún canal, simplemente los mueve.
Estoy de acuerdo con la idea de que la augmentación de datos en el espacio latente es más eficiente para la generalización que en el espacio de entrada. Sugieren hacerlo lo más bajo posible en la jerarquía espacial, pero probablemente no sería una buena idea a un nivel de 2x2, donde solo hay cuatro permutaciones posibles y cualquiera de ellas perturba la mitad de la información espacial.
Cabe señalar que ajustaron la probabilidad de intercambio por juego, lo cual generalmente no se hace al informar resultados sobre un conjunto de juegos.
Los resultados en tareas de aprendizaje supervisado puro no fueron notables, pero podrían ser mejores con el CLOP insertado en diferentes lugares y con diferentes recetas de entrenamiento.
870
Gary Gygax estaba en mi panteón de héroes como jugador adolescente de D&D, pero realmente no sabía mucho sobre él antes de leer este libro. Lo más cercano que estuve fue preguntarle a Margaret Weis, una de las autoras de Dragonlance y conocida de mi padre, sobre él por teléfono cuando tenía 13 años.
El impacto más amplio de D&D (los juegos de Id Software se mencionaron brevemente cerca del final) superó con creces los retornos financieros para él, y su camino fue bastante difícil, pero parece que terminó encontrando un lugar bastante bueno como "rey de los nerds" al final.
Morir a los 69 años después de mucha mala salud es un recordatorio para aquellos de nosotros en nuestros 50s de cuidar de nosotros mismos.
@MikeWitwer

752
#PaperADay 3 (esperando que los enlaces incrustados reduzcan lo suficiente su visibilidad para que no demasiadas personas se molesten con este contenido)
@ylecun ha estado en el centro de la atención recientemente, así que hoy revisé:
Aprendizaje Auto-Supervisado a partir de Imágenes con una Arquitectura Predictiva de Embedding Conjunto
Estoy en gran medida de acuerdo con la idea de que las predicciones importantes son de representaciones internas, no de píxeles, por lo que los modelos generativos pueden ser algo contraproducentes, o al menos innecesariamente ineficientes para muchas tareas.
Sin embargo, tiendo a pensar que la predicción interna tiene que ocurrir a un nivel más granular que el procesamiento de imágenes completo, a nivel de minicolumna o incluso neuronal, y con más de un componente temporal que de enmascaramiento local.
El entrenamiento auto-supervisado funciona en un gran conjunto de datos sin saber qué se le pedirá al modelo más adelante, simplemente acumulando conocimiento a partir de los datos. Después, puedes entrenar un clasificador lineal simple (sonda lineal) sobre la salida y obtener un rendimiento bastante bueno. Las mejores sondas lineales en modelos auto-supervisados congelados no son tan fuertes como los clasificadores entrenados de extremo a extremo, pero el mismo SSM puede ser fuerte para muchas tareas diferentes al mismo tiempo.
El artículo señala que, en contraste con JEPA, los métodos de entrenamiento basados en invariancia que toman la misma imagen y la aumentan de dos maneras diferentes mientras mantienen la similitud representacional obtienen su rendimiento a expensas de un conjunto de aumentaciones de imagen sesgado por el investigador, lo que no se transfiere a otras modalidades como audio o texto. Señalo que JEPA es muy sensible al enmascaramiento exacto realizado (tabla 6), lo cual no se siente muy diferente.
El codificador objetivo es superficialmente similar a la formulación moderna del modelo objetivo en redes DQN RL con un EMA de los pesos en lugar de una copia ocasional, pero aunque fue una ayuda de estabilidad para RL (y no siempre es necesaria), tiene un propósito más fundamental aquí para evitar que el modelo colapse representaciones en predicciones triviales. Esto, junto con LayerNorm también siendo un elemento crucial de eso, no se detalla en el artículo, y tuve que encontrar referencias a ello en otros lugares.
Es un poco peculiar que apliquen un recorte aleatorio de 0.85-1.0 al contexto, pero solo eliminen bloques de la derecha y la parte inferior. Esperaba ver una ablación de ese recorte.
Aumentar la resolución de la imagen es una forma un poco extraña de escalar el modelo. Probablemente no sea realmente la resolución lo que ayuda, sino el conteo total de parches.
Hay un gran cuerpo de trabajo sobre auto-supervisión con el que solo estoy vagamente familiarizado, así que probablemente me estoy perdiendo algunos aspectos clave que distinguen a JEPA. Todavía estoy lidiando con la pregunta central de exactamente qué aprenden los contextos y cómo la arquitectura del modelo y el entrenamiento lo guían para evitar el colapso.
710
Parte superior
Clasificación
Favoritos
