1/ LLMs, die andere LLMs bewerten, klingt effizient… bis man fragt, wer die Regeln festlegt. Vorurteile, Andeutungen und Anbieter-Effekte schleichen sich schnell ein.
2/ Bei Inference Labs glauben wir, dass die Bewertung selbst verifizierbar sein muss. Wenn KI KI bewertet, benötigen wir kryptografische Beweise, keine Vertrau-mir-Metriken.
92