Я написав повну історію Attention Sinks — технічне глибоке занурення в те, як був розроблений механізм і як наше дослідження в кінцевому підсумку було використано в нових моделях OSS від OpenAI. Для тих, хто цікавиться деталями:
175,19K