1/ Avaliar outros LLMs parece eficiente... Até você perguntar quem define as regras. Vieses, dicas e efeitos de vendedores aparecem rapidamente.
2/ Na Inference Labs, acreditamos que a própria avaliação deve ser verificável. Se IA está julgando IA, precisamos de provas criptográficas, não de métricas de confiança.
59