DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

John Carmack

AGI en Keen Technologies, ex CTO de Oculus VR, fundador de Id Software y Armadillo Aerospace

#PaperADay 3 (esperando que los enlaces incrustados reduzcan lo suficiente su visibilidad para que no demasiadas personas se molesten con este contenido) @ylecun ha estado en el centro de la atención recientemente, así que hoy revisé: Aprendizaje Auto-Supervisado a partir de Imágenes con una Arquitectura Predictiva de Embedding Conjunto Estoy en gran medida de acuerdo con la idea de que las predicciones importantes son de representaciones internas, no de píxeles, por lo que los modelos generativos pueden ser algo contraproducentes, o al menos innecesariamente ineficientes para muchas tareas. Sin embargo, tiendo a pensar que la predicción interna tiene que ocurrir a un nivel más granular que el procesamiento de imágenes completo, a nivel de minicolumna o incluso neuronal, y con más de un componente temporal que de enmascaramiento local. El entrenamiento auto-supervisado funciona en un gran conjunto de datos sin saber qué se le pedirá al modelo más adelante, simplemente acumulando conocimiento a partir de los datos. Después, puedes entrenar un clasificador lineal simple (sonda lineal) sobre la salida y obtener un rendimiento bastante bueno. Las mejores sondas lineales en modelos auto-supervisados congelados no son tan fuertes como los clasificadores entrenados de extremo a extremo, pero el mismo SSM puede ser fuerte para muchas tareas diferentes al mismo tiempo. El artículo señala que, en contraste con JEPA, los métodos de entrenamiento basados en invariancia que toman la misma imagen y la aumentan de dos maneras diferentes mientras mantienen la similitud representacional obtienen su rendimiento a expensas de un conjunto de aumentaciones de imagen sesgado por el investigador, lo que no se transfiere a otras modalidades como audio o texto. Señalo que JEPA es muy sensible al enmascaramiento exacto realizado (tabla 6), lo cual no se siente muy diferente. El codificador objetivo es superficialmente similar a la formulación moderna del modelo objetivo en redes DQN RL con un EMA de los pesos en lugar de una copia ocasional, pero aunque fue una ayuda de estabilidad para RL (y no siempre es necesaria), tiene un propósito más fundamental aquí para evitar que el modelo colapse representaciones en predicciones triviales. Esto, junto con LayerNorm también siendo un elemento crucial de eso, no se detalla en el artículo, y tuve que encontrar referencias a ello en otros lugares. Es un poco peculiar que apliquen un recorte aleatorio de 0.85-1.0 al contexto, pero solo eliminen bloques de la derecha y la parte inferior. Esperaba ver una ablación de ese recorte. Aumentar la resolución de la imagen es una forma un poco extraña de escalar el modelo. Probablemente no sea realmente la resolución lo que ayuda, sino el conteo total de parches. Hay un gran cuerpo de trabajo sobre auto-supervisión con el que solo estoy vagamente familiarizado, así que probablemente me estoy perdiendo algunos aspectos clave que distinguen a JEPA. Todavía estoy lidiando con la pregunta central de exactamente qué aprenden los contextos y cómo la arquitectura del modelo y el entrenamiento lo guían para evitar el colapso.

Parte superior

Clasificación

Favoritos