Estoy de acuerdo en que RLVR es definitivamente mucho más satisfactorio y atractivo que el ataque de errores de RLHF (o la persecución de datos humanos)