🔥 Isso muda tudo sobre a IA de contexto longo. Um novo artigo "Every Attention Matters" silenciosamente acabou de religar como os transformadores lidam com tokens 128K+. A equipe Ling construiu uma atenção híbrida "Ring-linear" que funde Softmax com Atenção Linear. Resultado? Inferência 10x mais barata com compensação de precisão zero. Mas aqui está o que fez meu queixo cair: +50% de eficiência de treinamento +90% de velocidade de inferência Otimização de RL estável em sequências ultralongas Nenhum absurdo de trilhões de parâmetros. Sem hardware exótico. Apenas uma arquitetura mais inteligente. O futuro da IA não é uma atenção maior. É uma atenção mais inteligente.