"即使是前沿模型也难以超越预训练的先验,无论新的证据多么引人注目。" 我们训练博士生来做到这一点!变换器能在不改变其权重的情况下做到这一点吗?