一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

当我在谷歌工作时，我很幸运能与一些最优秀的机器学习（ML）工程师合作。他们专注于特征工程。通过选择指导ML模型的因素，他们的进展可以产生数千万到数亿的额外收入。想象一下一个包含数百列数据的Excel电子表格。添加两列，乘以两列，除以另一列，然后减去第四列。每一个都是一个特征。ML模型使用特征来预测最佳广告展示。这开始时是一种手艺，反映了那个时代的氛围。随着时间的推移，我们将这种艺术机械化为一个名为AutoML的机器，极大地加速了正确特征的发现。今天，强化学习（RL）正处于15年前特征工程的同样位置。什么是RL？这是一种教AI实现目标的技术。想象一个勇敢的Roomba。它进入一个肮脏的房间。然后它必须制定清洁计划并执行。制定计划是第一步。为了完成计划，就像任何优秀的工作者一样，它会给自己奖励，不是通过玩桌上足球，而是通过获得一些积分。它的奖励函数可能是：每清洁一个新的平方英尺得+0.1，撞到墙壁得-5，满尘箱返回到充电座得+100。这台不知疲倦的吸尘器的行为由这个简单的算术决定。（注意：我在这里简化了很多。）今天，AI可以制定计划，但还不能开发奖励函数。人们做这件事，就像我们15年前开发特征一样。我们会看到AutoRL吗？还要一段时间。RL的技术仍在辩论中。Andrej Karpathy在最近的一期播客中强调了这一辩论。这波AI改进的浪潮可能依赖于RL的成功。今天，这仍然是一种手艺。自动化的潜力——部分或完全——将改变我们构建自主系统的方式。