1/ LLMs 评判其他 LLMs 听起来很高效……直到你问谁制定了规则。 偏见、暗示和供应商效应迅速渗入。
2/ 在推理实验室,我们相信评估本身必须是可验证的。 如果AI在评判AI,我们需要加密证明,而不是信任我的指标。
68