SK Telecom 與 @AdaptiveML 共同訓練了 Gemma 3 4B,使用 PPO 獲得了令人印象深刻的結果,特別是對於這樣大小的模型 了解更多他們是如何做到的
2.99K