Concordo que o RLVR é definitivamente muito mais satisfatório e envolvente do que a correção de bugs do RLHF (ou a busca por dados humanos)