SK Telecom+@AdaptiveML entrenó a Gemma 3 4B con PPO obteniendo resultados impresionantes, especialmente para un modelo de tal tamaño Más información sobre cómo lo hicieron
3.01K