Estoy de acuerdo en que RLVR es definitivamente mucho más satisfactorio y atractivo que la caza de errores de RLHF (o la búsqueda de datos humanos)