🔥 Це змінює все в ШІ з довгим контекстом. У новій статті «Кожна увага має значення» непомітно перероблено, як трансформатори обробляють 128K+ токенів. Команда Ling створила гібридну «кільцеву лінійку» увагу, яка поєднує Softmax з Linear Attention. Результат? У 10 разів дешевше висновування з компромісом нульової точності. Але ось що змусило мою щелепу відвиснути: +50% ефективності навчання +90% до швидкості висновків Стабільна оптимізація RL для наддовгих послідовностей Ніякої нісенітниці з трильйонними параметрами. Ніякої екзотичної фурнітури. Просто розумніша архітектура. Майбутнє штучного інтелекту – це не більша увага. Це розумніша увага.