SK Telecom + @AdaptiveML wytrenowało Gemma 3 4B z użyciem PPO, osiągając imponujące wyniki, szczególnie jak na model tej wielkości. Dowiedz się więcej o tym, jak to zrobili.
3K