un solo movimiento del discriminador en el auto-juego de LLM es "crear un entorno de RL realmente bueno"
9,28K