1/ LLMs 評判其他 LLMs 聽起來很有效率……直到你問誰制定了規則。 偏見、暗示和供應商效應迅速滲入。
2/ 在推理實驗室,我們相信評估本身必須是可驗證的。 如果 AI 在評判 AI,我們需要加密證明,而不是信任的指標。
67