Я написал полную историю Attention Sinks — техническое углубление в то, как был разработан механизм и как наше исследование в конечном итоге было использовано в новых OSS моделях OpenAI. Для тех, кто заинтересован в деталях:
130,02K