un solo movimiento del discriminador en el auto-juego de LLM es "crear un entorno de RL realmente bueno"
8.35K