热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Prime Intellect
Prime Intellect 已转发
在预训练时代,重要的是互联网文本。你主要希望拥有一个大型、多样化、高质量的互联网文档集合来学习。
在监督微调时代,重要的是对话。雇佣合同工来为问题创建答案,有点像你在 Stack Overflow / Quora 等地方看到的,但更针对 LLM 的用例。
我认为上述两者都不会消失,但在这个强化学习的时代,现在重要的是环境。与上述不同,它们给 LLM 提供了实际互动的机会——采取行动、查看结果等。这意味着你可以希望比统计专家模仿做得更好。它们可以用于模型训练和评估。但就像以前一样,现在的核心问题是需要一个大型、多样化、高质量的环境集合,作为 LLM 练习的练习场。
在某种程度上,我想起了 OpenAI 的第一个项目(gym),这正是一个希望建立一个大型环境集合的框架,但那是在 LLM 之前。因此,这些环境是当时简单的学术控制任务,比如 cartpole、ATARI 等。@PrimeIntellect 环境中心(以及 GitHub 上的 `verifiers` 仓库)构建了现代化版本,专门针对 LLM,这是一个伟大的努力/想法。今年早些时候,我建议有人构建类似的东西:
环境具有这样的特性,一旦框架的骨架到位,原则上社区/行业可以在许多不同领域并行化,这令人兴奋。
最后的想法——就个人和长期而言,我对环境和代理互动持乐观态度,但对强化学习持悲观态度。我认为奖励函数非常可疑,我认为人类并不使用 RL 来学习(也许他们在某些运动任务等方面使用,但在智力问题解决任务中并不使用)。人类使用不同的学习范式,这些范式显著更强大且样本效率更高,而这些范式尚未得到适当的发明和扩展,尽管早期的草图和想法已经存在(例如,“系统提示学习”的想法,将更新移动到令牌/上下文而不是权重,并可选择将其提炼为权重,作为一个类似于睡眠的单独过程)。
302.23K
Prime Intellect 已转发
下一个估值超过100亿美元的产品初创公司将通过在内部强化学习环境中扩展训练来构建。
我们生活在能力的丰富中,但我们只有两个主要的AI产品,chatgpt和编码代理,这让我感到非常沮丧。
当前的人工智能供应链在结构上是破碎的,只有一个硬件供应商,几家巨型AI公司拥有所有的智能炼油厂,开发者仅能获得API访问权限,几乎没有控制权。
就好像互联网时代是由英特尔向四家巨型云公司出售CPU来构建的,这些公司拥有整个基础设施和软件堆栈,处处都是秘密和保密协议,并向初创公司提供WordPress作为开发工具包。
为什么Perplexity没有发明深度研究?他们根本无法做到,因为这是通过强化学习训练的。
我对未来几年的预测:
强化学习将成为构建AI产品的最强大工具包。我们将看到数百个成功故事,如Cursor和Lovable。最终用户将从中受益最多。
大型实验室将向产品公司演变,OAI将专注于消费市场,Antropic将专注于编码代理,DeepMind将把AI整合到所有谷歌业务中,Meta和XAI将在社交媒体上竞争。
我们将看到一个AI基础设施初创公司的生态系统的出现,出售计算能力,训练基础模型,策划数据,构建强化学习环境,提供廉价的推理和训练,依靠开放科学和开源软件。
@PrimeIntellect正在开创这个生态系统,开放源代码AGI的愿景,强化学习环境中心是其中的第一个关键部分。
3.2K
Prime Intellect 已转发
下一个估值超过100亿美元的产品初创公司将通过在内部强化学习环境中扩展训练来构建。
我们生活在能力的丰富中,但我们只有两个主要的AI产品,chatgpt和编码代理,这让我感到非常沮丧。
当前的人工智能供应链在结构上是破碎的,只有一个硬件供应商,几家巨型AI公司拥有所有的智能炼油厂,开发者仅能获得API访问权限,几乎没有控制权。
就好像互联网时代是由英特尔向四家巨型云公司出售CPU来构建的,这些公司拥有整个基础设施和软件堆栈,处处都是秘密和保密协议,并向初创公司提供WordPress作为开发工具包。
为什么Perplexity没有发明深度研究?他们根本无法做到,因为这是通过强化学习训练的。
**我对未来几年的预测**:
强化学习将成为构建AI产品的最强大工具包。我们将看到数百个成功故事,如Cursor和Lovable。最终用户将从中受益最多。
大型实验室将向产品公司演变,OAI将专注于消费市场,Antropic将专注于编码代理,DeepMind将把AI整合到所有谷歌业务中,Meta和XAI将在社交媒体上争夺。
我们将看到一个AI基础设施初创公司的生态系统的出现,出售计算能力,训练基础模型,策划数据,构建强化学习环境,提供廉价的推理和训练,依靠开放科学和开源软件。
@PrimeIntellect正在开创这个生态系统,开放源代码AGI的愿景,强化学习环境中心是其中的第一个关键部分。
6.39K
热门
排行
收藏