Nový příspěvek o škálování RL: Pečlivá analýza veřejných benchmarků OpenAI odhaluje, že škálování RL je mnohem horší než inference: aby se vyrovnalo každému 10násobnému škálování inferenčního výpočtu, potřebujete 100x více než výpočty trénování RL. Jediným důvodem, proč je to nákladově efektivní, je začít od malé základny. 🧵