Je suis d'accord pour dire que RLVR est définitivement beaucoup plus satisfaisant et engageant que le débogage RLHF (ou la chasse aux données humaines)