een enkele zet van de discriminator in LLM zelfspel is "creëer een echt goede RL-omgeving"
9,28K