🔥 Cela change tout concernant l'IA à long contexte. Un nouvel article "Every Attention Matters" a discrètement réorganisé la façon dont les transformateurs gèrent plus de 128K tokens. L'équipe Ling a construit une attention hybride "Ring-linear" qui fusionne Softmax avec l'attention linéaire. Résultat ? Inférence 10 fois moins chère sans compromis sur la précision. Mais voici ce qui m'a fait tomber la mâchoire : +50% d'efficacité d'entraînement +90% de vitesse d'inférence Optimisation RL stable sur des séquences ultra-longues Pas de nonsense à un trillion de paramètres. Pas de matériel exotique. Juste une architecture plus intelligente. L'avenir de l'IA n'est pas une attention plus grande. C'est une attention plus intelligente.