1/ Juzgar otros LLMs suena eficiente... hasta que preguntas quién pone las reglas. El sesgo, las indirectas y los efectos de vendedor aparecen rápido.
2/ En Inference Labs, creemos que la evaluación en sí debe ser verificable. Si la IA juzga a la IA, necesitamos pruebas criptográficas, no métricas de confianza en mí.
65