«то, что на самом деле нужно, это не внимание само по себе, а достаточно выразительный механизм геометрической эволюции для скрытых представлений» Очень справедливо. Внимание — это частный случай вращения формы. Но я думаю, что какой-то квадратичный элемент неизбежен для статических моделей.
himanshu
himanshu10 часов назад
мы завершаем этот год на высокой ноте, не так ли?
Люди тоже были бы квадратичными, если бы у нас не было глубокой иерархии обновлений памяти, что на самом деле не охватывается kv cache. Вот почему HOPE тоже интересен.
33