DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Marvin Tong (t/acc)

@PhalaNetwork Trust Machine, @redpill_gpt privé ChatGPT, @pakafund d’investissement

ils ont innové la structure de fondation que les entreprises d'IA utilisent depuis des années…super impressionné !

Lecture rapide du nouveau document sur les Hyper-Connexions Contrainte par Manifold de Deepseek : - Vous voulez augmenter la taille résiduelle de 1×C à n×C (n flux au lieu de 1). Mise à jour résiduelle précédente : x' = x + layer(x). Faites en sorte que x soit n×C, et utilisez x' = Ax + B layer(Cx) à la place. A, B, C dépendent tous de x et sont de petites matrices (n×n, n×1, n×1). A semble être le plus impactant. C'est ça les Hyper-Connexions (HC). - Les HC ont le même problème que d'autres schémas de modification résiduelle - finalement, le produit des matrices A apprises (le long du chemin d'identité) explose/ disparaît. - Pour corriger cela, ils projettent les matrices A sur le polytope de Birkhoff (en termes plus simples : les transforment, après exp pour rendre les éléments positifs, en une matrice dont les sommes de lignes et de colonnes deviennent 1 - appelée matrice doubly stochastique). Cela a de belles propriétés - les produits de ces types de matrices ont toujours une somme de lignes et de colonnes égale à 1 (grâce à la fermeture), donc les choses n'explosent pas (borne spectrale), et l'invariant est que la somme des poids à travers les flux est 1. Pour n = 1, cela devient le flux résiduel standard, ce qui est bien. Leur méthode de transformation est simple - diviser alternativement les lignes et les colonnes par les sommes de lignes et de colonnes respectivement pendant 20 itérations (converge vers notre matrice désirée à mesure que les itérations vont vers l'infini). Ils trouvent que 20 est suffisant pour les passes avant et arrière (à travers 60 couches, le gain maximum en arrière est de 1.6 contre 3000 pour le HC habituel, et 1.6 n'est pas très éloigné de 1). - Composer ces matrices (enveloppe convexe de toutes les matrices de permutation) conduit à un mélange d'informations à mesure que l'indice de couche augmente, ce qui est une belle intuition et est également montré très clairement dans leur matrice composite pour 60 couches. Je crois qu'au final, nous obtenons une somme pondérée des chemins résiduels (en pensant aux gradients), où les chemins logiquement groupables ont des poids qui s'additionnent à 1. Une approche assez principielle à mon avis, qui rend également les gains (avant et arrière) très stables. - Chose intéressante à noter - beaucoup de mélange "comme un pooling" dans la première moitié par rapport à la seconde moitié des couches. La seconde moitié des couches traite les différents canaux de manière plus précise/aigüe que la première moitié, ce qui est assez intuitif. - Ils changent également la paramétrisation de B et C (sigmoïde au lieu de tanh, probablement pour éviter de changer de signe, et un facteur de 2 devant B, je crois pour conserver le multiplicateur résiduel moyen, C n'a pas besoin de cela car l'entrée est de toute façon pré-normalisée). - Optimisations système intéressantes pour rendre cette opération rapide - ils effectuent une fusion de noyaux, une recomputation dans le passage arrière mHC, et modifient même DualPipe (leur mise en œuvre de parallélisme de pipeline). - Seulement 6.7% de surcharge en formation lorsque n = 4, la perte diminue de 0.02 et des améliorations à travers les benchmarks.

Meilleurs

Classement

Favoris