🔥 Це змінює все в ШІ з довгим контекстом.
У новій статті «Кожна увага має значення» непомітно перероблено, як трансформатори обробляють 128K+ токенів.
Команда Ling створила гібридну «кільцеву лінійку» увагу, яка поєднує Softmax з Linear Attention.
Результат? У 10 разів дешевше висновування з компромісом нульової точності.
Але ось що змусило мою щелепу відвиснути:
+50% ефективності навчання
+90% до швидкості висновків
Стабільна оптимізація RL для наддовгих послідовностей
Ніякої нісенітниці з трильйонними параметрами.
Ніякої екзотичної фурнітури.
Просто розумніша архітектура.
Майбутнє штучного інтелекту – це не більша увага. Це розумніша увага.
Перед моїм будинком у Ріо 🇧🇷 якраз була стрілянина
Це було так близько, що я почув рикошет кулі від шматка металу.
Я вже планував виїхати з податкових причин, але це точно останній цвях у труну.
Я живу в районі з високим рівнем доходу, де я дивлюся на багатомільйонні будинки зі свого балкона, і це все одно сталося.
Ще гірше те, що ніхто не викликав поліцейських, і за п'ять хвилин все повернулося до нормального життя.
Ось наскільки вони тут нечутливі до насильницьких злочинів.