1/ LLM оцінювати інші LLM звучить ефективно... Поки не запитаєш, хто встановлює правила. Упередження, підказки та ефекти продавця швидко з'являються.
2/ В Inference Labs ми вважаємо, що сама оцінка має бути перевіреною. Якщо ШІ оцінює ШІ, нам потрібні криптографічні докази, а не метрики «довірся мені».
70