Ich stimme zu, dass RLVR definitiv viel befriedigender und ansprechender ist als das Bug-Bashing von RLHF (oder das Verfolgen menschlicher Daten)