SK Telecom + @AdaptiveML 訓練有素的 Gemma 3 4B 和 PPO 取得了令人印象深刻的結果,特別是對於這種尺寸的模型 詳細了解他們是如何做到這一點的