最近,论文《分层推理模型》引起了广泛关注,在Twitter上收获了数万个赞,涉及数十个半病毒式的讨论,这对于一篇研究论文来说相当不寻常。 该论文声称在ARC-AGI-1上取得了40.3%的准确率,使用的是一个从零开始训练的小型模型(2700万个参数),没有任何外部训练数据——如果属实,这将代表一个重大的推理突破。 我刚刚对这篇论文和代码库进行了深入研究…… 这是一篇不错的读物,详细而易于理解。我认为所提出的想法相当有趣,架构可能也很有价值。 这个概念让我想起了我在2016-2018年间遇到的许多不同的想法,那是深度学习架构研究的“黄金时代”。这种类型的研究已经不再流行一段时间,所以看到对替代架构的重新关注真是令人欣慰。 然而,实验设置似乎存在严重缺陷,这意味着我们目前没有来自ARC-AGI的实证信号,无法判断该架构是否真的有帮助。 根据我对数据准备代码的理解,ARC-AGI-1实验正在进行以下操作: 1. 在876,404个任务上进行训练,这些任务是960个原始任务的增强生成变体: ... 400来自ARC-AGI-1/train ... 400来自ARC-AGI-1/eval ... 160来自ConceptARC 2. 在400个任务(ARC-AGI-1/eval)上进行测试,通过将每个任务增强为约1000个变体(实际上由于增强过程的特殊性,总共只有368,151个),为每个变体生成预测,并通过多数投票将预测减少到N=2。 简而言之:他们在测试数据上进行训练。 你可能会问,等等,为什么准确率是40%,而不是100%?模型是否严重欠拟合? 这是因为训练数据和测试数据代表的是相同原始任务的*不同变体*。数据增强是独立应用于训练数据中的评估任务和测试数据中的评估任务。 因此,实验大致测量的是模型如何成功地推广到相同任务的程序生成变体(即模型是否能够学习逆转一组固定的静态网格变换)。 所以——不要太兴奋。不过我确实认为这种架构研究是有价值的(当伴随适当的实证验证信号时),而HRM的想法非常有趣。 此外,明确一点,我不认为作者有意误导或隐瞒实验问题——他们可能没有意识到他们的训练设置实际上意味着什么。
19.61K