1/ LLM's die andere LLM's beoordelen klinkt efficiënt... totdat je vraagt wie de regels opstelt. Vooringenomenheid, hints en leverancierseffecten sluipen snel binnen.
2/ Bij Inference Labs geloven we dat evaluatie zelf verifieerbaar moet zijn. Als AI AI beoordeelt, hebben we cryptografisch bewijs nodig, geen vertrouw-mij-metrics.
65