Napisałem pełną historię Attention Sinks — techniczne zgłębienie, jak mechanizm został opracowany i jak nasze badania zostały wykorzystane w nowych modelach OSS OpenAI. Dla tych, którzy są zainteresowani szczegółami:
107,46K