SK Telecom + @AdaptiveML训练有素的 Gemma 3 4B 与 PPO 取得了令人印象深刻的结果,特别是对于这种尺寸的模型 详细了解他们是如何做到这一点的