Sabemos que o treinamento offline -- pré-treinamento, dpo... os dados são claros antecipadamente.
Também sabemos que o treinamento online -- ppo, grpo... os dados são construídos durante o treinamento.
Novo: Treinamento Humanline -- quaisquer dados (offline/online) moldados para corresponder à percepção humana → podem gerar desempenho online a um custo mais baixo