DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Marvin Tong (t/acc)

Trust Machine @PhalaNetwork, @redpill_gpt privado de ChatGPT, @pakafund de inversión

han innovado la estructura de la fundación que las empresas de IA han estado utilizando durante años… ¡muy impresionado!

Lectura rápida del nuevo artículo de Deepseek sobre Conexiones Hiper-Construidas con Restricciones de Manifold: - Quieres aumentar el tamaño residual de 1×C a n×C (n flujos en lugar de 1). Actualización residual anterior: x' = x + layer(x). Haz que x sea n×C y usa x' = Ax + B layer(Cx) en su lugar. A, B, C dependen de x y son matrices pequeñas (n×n, n×1, n×1). A parece ser el más impactante. Esto son Conexiones Hiper (HC). - HC tiene el mismo problema que otros esquemas de modificación residual: eventualmente el producto de las matrices A aprendidas (a lo largo del camino de identidad) explota/desaparece. - Para solucionar esto, proyectan las matrices A en el poliedro de Birkhoff (en palabras más simples: lo transforman, después de la exp para hacer que los elementos sean positivos, en una matriz cuyas sumas de filas y columnas se convierten en 1 - llamada matriz doblemente estocástica). Esto tiene propiedades agradables: los productos de este tipo de matrices aún tienen suma de filas y columnas igual a 1 (debido a la clausura), por lo que las cosas no explotan (límite espectral), y la invariante es que la suma de pesos a través de los flujos es 1. Para n = 1, esto se convierte en el flujo residual estándar, lo cual es agradable. Su método de transformación es simple: alternativamente dividen filas y columnas por las sumas de filas y columnas respectivamente durante 20 iteraciones (converge a nuestra matriz deseada a medida que las iteraciones tienden a infinito). Encuentran que 20 es suficiente tanto para el pase hacia adelante como hacia atrás (a través de 60 capas, la ganancia máxima hacia atrás es 1.6 en lugar de 3000 del HC habitual, y 1.6 no está muy lejos de 1). - Componer estas matrices (hull convexo de todas las matrices de permutación) conduce a una mezcla de información a medida que aumenta el índice de capa, lo cual es una buena pieza de intuición y también se muestra muy claramente en su matriz compuesta para 60 capas. Creo que en general obtenemos una suma ponderada de caminos residuales (pensando en gradientes), donde los caminos lógicamente agrupables tienen pesos que suman 1. En mi opinión, es un enfoque bastante fundamentado, también hace que las ganancias (hacia adelante y hacia atrás) sean muy estables. - Algo interesante a notar: mucha mezcla "similar a pooling" en la primera mitad en comparación con la segunda mitad de las capas. La segunda mitad de las capas trata diferentes canales de manera más precisa/aguda que la primera mitad, lo cual es bastante intuitivo. - También cambian la parametrización de B y C (sigmoide en lugar de tanh, probablemente para evitar cambiar signos, y un factor de 2 delante de B, creo que para conservar el multiplicador residual medio, C no necesita esto porque la entrada ya está pre-normalizada). - Geniales optimizaciones de sistemas para hacer que esta operación sea rápida: realizan fusión de núcleos, recomputación en el pase hacia atrás de mHC, e incluso modifican DualPipe (su implementación de paralelismo de tuberías). - Solo un 6.7% de sobrecarga en el entrenamiento cuando n = 4, la pérdida disminuye en 0.02 y hay mejoras en todos los benchmarks.

Parte superior

Clasificación

Favoritos