Dziś wprowadzamy System Nagród ATLAS, naszą nową architekturę, która ustanawia nowy SOTA na RewardBench V2 z dokładnością 93,7%. Naszym głównym pomysłem było traktowanie generowania nagród jako problemu systemowego i routingu. Wątek 👇 Pełny blog techniczny: