1/ LLM:er som bedömer andra LLM:er låter effektivt... Tills du frågar vem som sätter reglerna. Bias, hinting och leverantörseffekter smyger sig snabbt in.
2/ På Inference Labs anser vi att själva utvärderingen måste vara verifierbar. Om AI bedömer AI behöver vi kryptografiska bevis, inte lita på mig-mått.
71