🔥 Isto muda tudo sobre a IA de longo contexto. Um novo artigo "Every Attention Matters" reconfigurou silenciosamente como os transformers lidam com 128K+ tokens. A equipe Ling construiu uma atenção híbrida "Ring-linear" que funde Softmax com Atenção Linear. Resultado? Inferência 10x mais barata sem perda de precisão. Mas aqui está o que me deixou de queixo caído: +50% de eficiência de treinamento +90% de velocidade de inferência Otimização de RL estável em sequências ultra-longas Sem besteiras de trilhões de parâmetros. Sem hardware exótico. Apenas uma arquitetura mais inteligente. O futuro da IA não é uma atenção maior. É uma atenção mais inteligente.