We weten offline training -- pretraining, dpo... data is van tevoren duidelijk.
We weten ook online training -- ppo, grpo... data wordt opgebouwd tijdens de training.
Nieuw: Humanline training -- elke data (offline/online) gevormd om overeen te komen met menselijke perceptie → kan online prestaties opleveren tegen lagere kosten