热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Aaron Levie
CEO @box - 利用 AI 释放内容的力量
Karpathy在Dwarkesh播客中提到的一个关键点是AI编码代理与其他知识工作之间的区别。
显然,AI代理在编码方面发展得非常迅速。这有很多原因,包括与其他领域相比,在线上已经有大量的训练数据,开发者们迅速尝试新工具,以及实验室有很大的动力去做好这件事。
但Karpathy提到的还有一个微妙而根本的原因:这个领域几乎完全由文本组成(对LLM来说非常好!),而且我们有明确的标准化工具,这些工具本质上就是文本编辑器(IDE),几乎所有的工作都是自包含的。几乎没有其他领域能像这个领域一样为AI代理提供如此丰厚的土壤。
这部分原因解释了为什么AI代理在其他领域的扩散会更慢,但这同样是任何从事知识工作代理的人面前的机会。我们正进入一个为知识工作者提供直观而强大的与代理互动方式的新软件时代。
一些现有的公司将自然地处于构建这些解决方案的位置,但许多领域将会有机会,因为有些公司不会足够快地行动。而且同样会有许多类别没有自然的现有公司,因为这是软件首次应用于市场。
能够将这些解决方案推向市场的公司,尤其是进入需要变更管理和流程再造的企业,将是最终获胜的公司。
49.86K
这实际上是@karpathy基于可能发生的事情,从企业环境的角度来看,极其务实和现实。
我们拥有快速提升的AI模型能力,但将这些能力扩散到现实生活的工作流程中将需要时间,并且需要大量的集成、变更管理和必须构建的新解决方案。
“基本上,我的AI时间表比你在邻近的旧金山AI聚会或你的推特时间线上看到的要悲观5-10倍,但相对于不断上升的AI否认者和怀疑者来说,仍然相当乐观。表面上的冲突并不存在:在我看来,我们同时1) 在最近几年中看到LLM取得了巨大的进展,而2) 仍然有很多工作要做(基础工作、集成工作、传感器和执行器与物理世界的连接、社会工作、安全和保障工作(越狱、毒化等)),而且在我们拥有一个你愿意雇佣来替代人类完成任意工作的实体之前,还有研究需要完成。我认为总体而言,10年应该是AGI非常乐观的时间表,只是在与当前的炒作对比时,它才不会让人有这样的感觉。”

Andrej Karpathy10月19日 04:23
上周能参加Dwarkesh的节目我很高兴,我觉得问题和对话都非常好。
我刚刚也重新看了一遍播客。首先,是的,我知道,我很抱歉我说得太快了 :)。这对我来说是个缺陷,因为有时我的说话思路超越了我的思考思路,所以我觉得我因为这个原因搞砸了一些解释,有时我也很紧张,担心自己偏离主题或深入到一些相对无关的内容。无论如何,有几点笔记/提示:
AGI时间线。我对AGI时间线的评论似乎是早期反应中最受关注的部分。这是“代理人的十年”,是对之前推文的引用。基本上,我的AI时间线比你在邻里SF AI聚会或你的推特时间线上看到的要悲观5-10倍,但相对于不断上升的AI否认者和怀疑者来说,仍然相当乐观。表面上的冲突并不存在:在我看来,我们同时 1) 在最近几年看到LLM取得了巨大的进展,同时 2) 仍然有很多工作要做(基础工作、集成工作、传感器和执行器与物理世界的连接、社会工作、安全和保障工作(越狱、毒化等)),还有研究需要完成,才能拥有一个你愿意雇佣来做世界上任意工作的实体。我认为总体而言,10年应该是AGI非常乐观的时间线,只是在与当前的炒作对比时,它才不会显得如此。
动物与幽灵。我之前在Sutton的播客上的写作。我怀疑是否有一个简单的算法可以放在世界上,让它从零开始学习一切。如果有人构建了这样的东西,我会错,并且这将是AI领域最令人难以置信的突破。在我看来,动物根本不是这个的例子——它们是通过进化预先包装了大量的智能,而它们所做的学习总体上是相当有限的(例如:出生时的斑马)。戴上我们的工程师帽子,我们不会重新做进化。但通过LLM,我们偶然发现了一种“预包装”大量智能到神经网络中的替代方法——不是通过进化,而是通过预测互联网上的下一个标记。这种方法导致了智能领域中不同类型的实体。与动物不同,更像是幽灵或灵魂。但我们可以(并且应该)随着时间的推移使它们更像动物,在某种程度上,这就是许多前沿工作的内容。
关于RL。我已经批评过RL几次,例如。首先,你是在“通过吸管吸取监督”,所以我认为信号/每次操作的效率非常差。RL也非常嘈杂,因为一个完成可能有很多错误可能会被鼓励(如果你恰好碰巧得到了正确答案),相反,可能会有出色的见解标记被抑制(如果你恰好后来搞砸了)。过程监督和LLM评判者也有问题。我认为我们会看到替代学习范式。我对“代理互动”持乐观态度,但对“强化学习”持悲观态度。我最近看到了一些论文,认为它们在我所称的“系统提示学习”方面走在了正确的道路上,但我认为在arxiv上的想法与在LLM前沿实验室的实际大规模实施之间仍然存在差距。我总体上对我们在这一维度的剩余工作上很快会看到良好进展感到乐观,例如,我甚至会说ChatGPT的记忆等是新学习范式的原始部署示例。
认知核心。我之前关于“认知核心”的帖子:,这个想法是剥离LLM,使它们更难记忆,或者主动剥离它们的记忆,以使它们在泛化方面表现更好。否则它们会过于依赖它们所记住的内容。人类不能如此轻易地记忆,这在对比中现在看起来更像是一种特征而不是缺陷。也许无法记忆是一种正则化。此外,我之前的帖子提到模型大小的趋势是“倒退的”,以及为什么“模型必须先变大才能变小”。
时光倒流到Yann LeCun 1989。这是我在播客上描述得非常草率/糟糕的帖子:。基本上——你能用33年的算法进步知识来改善Yann LeCun的结果多少?每个算法、数据和计算对结果的限制有多大?案例研究。
nanochat。我对ChatGPT训练/推理管道的端到端实现(基本要素)。
关于LLM代理。我对行业的批评更多是在于超越了与当前能力相关的工具。我生活在我所认为的一个中间世界,我想与LLM合作,而我们的优缺点是匹配的。行业生活在一个未来,完全自主的实体并行协作编写所有代码,人类变得无用。例如,我不想要一个代理,它离开20分钟后带回1000行代码。我当然不觉得自己准备好监督10个这样的团队。我希望以我能记住的块进行工作,让LLM解释它正在编写的代码。我希望它能向我证明它所做的事情是正确的,我希望它能提取API文档并向我展示它正确使用了东西。我希望它能减少假设,并在不确定时向我询问/合作。我希望在这个过程中学习并成为更好的程序员,而不仅仅是被提供大量我被告知有效的代码。我只是认为这些工具应该更现实地反映它们的能力以及它们如何适应今天的行业,我担心如果这做得不好,我们可能会在软件中积累大量的垃圾,并增加漏洞、安全漏洞等。
工作自动化。放射科医生做得很好,哪些工作更容易被自动化以及原因。
物理学。孩子们应该在早期教育中学习物理,而不是因为他们将来会从事物理,而是因为这是最能激发大脑的学科。物理学家是智力的胚胎干细胞。我有一篇长文已经在我的草稿中写了一年多,希望能尽快完成。
再次感谢Dwarkesh邀请我!
158.78K
热门
排行
收藏