热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Andrej Karpathy
建筑@EurekaLabsAI。曾任人工智能总监@特斯拉,创始团队@OpenAI,CS231n/博士@斯坦福大学。我喜欢训练大型深度神经网络。
上周能参加Dwarkesh的节目我很高兴,我觉得问题和对话都非常好。
我刚刚也重新看了一遍播客。首先,是的,我知道,我很抱歉我说得太快了 :)。这对我来说是个缺陷,因为有时我的说话思路超越了我的思考思路,所以我觉得我因为这个原因搞砸了一些解释,有时我也很紧张,担心自己偏离主题或深入到一些相对无关的内容。无论如何,有几点笔记/提示:
AGI时间线。我对AGI时间线的评论似乎是早期反应中最受关注的部分。这是“代理人的十年”,是对之前推文的引用。基本上,我的AI时间线比你在邻里SF AI聚会或你的推特时间线上看到的要悲观5-10倍,但相对于不断上升的AI否认者和怀疑者来说,仍然相当乐观。表面上的冲突并不存在:在我看来,我们同时 1) 在最近几年看到LLM取得了巨大的进展,同时 2) 仍然有很多工作要做(基础工作、集成工作、传感器和执行器与物理世界的连接、社会工作、安全和保障工作(越狱、毒化等)),还有研究需要完成,才能拥有一个你愿意雇佣来做世界上任意工作的实体。我认为总体而言,10年应该是AGI非常乐观的时间线,只是在与当前的炒作对比时,它才不会显得如此。
动物与幽灵。我之前在Sutton的播客上的写作。我怀疑是否有一个简单的算法可以放在世界上,让它从零开始学习一切。如果有人构建了这样的东西,我会错,并且这将是AI领域最令人难以置信的突破。在我看来,动物根本不是这个的例子——它们是通过进化预先包装了大量的智能,而它们所做的学习总体上是相当有限的(例如:出生时的斑马)。戴上我们的工程师帽子,我们不会重新做进化。但通过LLM,我们偶然发现了一种“预包装”大量智能到神经网络中的替代方法——不是通过进化,而是通过预测互联网上的下一个标记。这种方法导致了智能领域中不同类型的实体。与动物不同,更像是幽灵或灵魂。但我们可以(并且应该)随着时间的推移使它们更像动物,在某种程度上,这就是许多前沿工作的内容。
关于RL。我已经批评过RL几次,例如。首先,你是在“通过吸管吸取监督”,所以我认为信号/每次操作的效率非常差。RL也非常嘈杂,因为一个完成可能有很多错误可能会被鼓励(如果你恰好碰巧得到了正确答案),相反,可能会有出色的见解标记被抑制(如果你恰好后来搞砸了)。过程监督和LLM评判者也有问题。我认为我们会看到替代学习范式。我对“代理互动”持乐观态度,但对“强化学习”持悲观态度。我最近看到了一些论文,认为它们在我所称的“系统提示学习”方面走在了正确的道路上,但我认为在arxiv上的想法与在LLM前沿实验室的实际大规模实施之间仍然存在差距。我总体上对我们在这一维度的剩余工作上很快会看到良好进展感到乐观,例如,我甚至会说ChatGPT的记忆等是新学习范式的原始部署示例。
认知核心。我之前关于“认知核心”的帖子:,这个想法是剥离LLM,使它们更难记忆,或者主动剥离它们的记忆,以使它们在泛化方面表现更好。否则它们会过于依赖它们所记住的内容。人类不能如此轻易地记忆,这在对比中现在看起来更像是一种特征而不是缺陷。也许无法记忆是一种正则化。此外,我之前的帖子提到模型大小的趋势是“倒退的”,以及为什么“模型必须先变大才能变小”。
时光倒流到Yann LeCun 1989。这是我在播客上描述得非常草率/糟糕的帖子:。基本上——你能用33年的算法进步知识来改善Yann LeCun的结果多少?每个算法、数据和计算对结果的限制有多大?案例研究。
nanochat。我对ChatGPT训练/推理管道的端到端实现(基本要素)。
关于LLM代理。我对行业的批评更多是在于超越了与当前能力相关的工具。我生活在我所认为的一个中间世界,我想与LLM合作,而我们的优缺点是匹配的。行业生活在一个未来,完全自主的实体并行协作编写所有代码,人类变得无用。例如,我不想要一个代理,它离开20分钟后带回1000行代码。我当然不觉得自己准备好监督10个这样的团队。我希望以我能记住的块进行工作,让LLM解释它正在编写的代码。我希望它能向我证明它所做的事情是正确的,我希望它能提取API文档并向我展示它正确使用了东西。我希望它能减少假设,并在不确定时向我询问/合作。我希望在这个过程中学习并成为更好的程序员,而不仅仅是被提供大量我被告知有效的代码。我只是认为这些工具应该更现实地反映它们的能力以及它们如何适应今天的行业,我担心如果这做得不好,我们可能会在软件中积累大量的垃圾,并增加漏洞、安全漏洞等。
工作自动化。放射科医生做得很好,哪些工作更容易被自动化以及原因。
物理学。孩子们应该在早期教育中学习物理,而不是因为他们将来会从事物理,而是因为这是最能激发大脑的学科。物理学家是智力的胚胎干细胞。我有一篇长文已经在我的草稿中写了一年多,希望能尽快完成。
再次感谢Dwarkesh邀请我!

Dwarkesh Patel10月18日 01:16
@karpathy 采访
0:00:00 – AGI 仍然需要十年
0:30:33 – LLM 认知缺陷
0:40:53 – RL 很糟糕
0:50:26 – 人类是如何学习的?
1:07:13 – AGI 将融入 2% 的 GDP 增长
1:18:24 – ASI
1:33:38 – 智力与文化的演变
1:43:43 - 为什么自动驾驶花了这么长时间
1:57:08 - 教育的未来
在 YouTube、Apple Podcasts、Spotify 等平台上查找 Dwarkesh 播客,享受吧!
2.26M
很高兴发布新的代码库:nanochat!
(这是我写过的最疯狂的之一)。
与我之前类似的代码库nanoGPT仅涵盖预训练不同,nanochat是一个从头开始的最小化全栈训练/推理管道,构建了一个简单的ChatGPT克隆,所有内容都在一个依赖最小的代码库中。你只需启动一个云GPU实例,运行一个脚本,最多4小时后,你就可以在一个类似ChatGPT的网页UI中与自己的LLM对话。
它大约有8000行我认为相当干净的代码,功能包括:
- 使用新的Rust实现训练分词器
- 在FineWeb上预训练一个Transformer LLM,评估多个指标的CORE分数
- 在SmolTalk的用户助手对话、选择题、工具使用上进行中期训练。
- SFT,评估聊天模型在世界知识选择题(ARC-E/C,MMLU)、数学(GSM8K)、代码(HumanEval)上的表现
- 可选地在GSM8K上对模型进行RL训练,使用"GRPO"
- 在引擎中高效推理模型,使用KV缓存,简单的预填充/解码,工具使用(轻量级沙箱中的Python解释器),通过CLI或类似ChatGPT的WebUI与其对话。
- 编写一份单一的markdown报告卡,总结并游戏化整个过程。
即使成本低至约100美元(在8XH100节点上约4小时),你也可以训练一个小型的ChatGPT克隆,能够进行简单对话,并能写故事/诗歌,回答简单问题。大约12小时的训练超越了GPT-2的CORE指标。当你进一步扩展到约1000美元(约41.6小时的训练)时,它会变得更加连贯,能够解决简单的数学/代码问题并参加选择题测试。例如,一个训练24小时的深度30模型(这大约等于GPT-3 Small 125M的FLOPs和GPT-3的1/1000)在MMLU上得分40分,在ARC-Easy上得分70分,在GSM8K上得分20分,等等。
我的目标是将完整的"强基线"堆栈整合到一个连贯、最小、可读、可黑客化、最大限度可分叉的代码库中。nanochat将是LLM101n的顶点项目(该项目仍在开发中)。我认为它也有潜力发展成一个研究工具或基准,类似于之前的nanoGPT。它绝不是完成、调优或优化的(实际上我认为可能还有很多低垂的果实),但我认为它的整体框架已经足够好,可以在GitHub上发布,所有部分都可以改进。
代码库链接和nanochat速跑的详细演练在回复中。

4.62M
热门
排行
收藏