当我在谷歌工作时,我很幸运能与一些最优秀的机器学习(ML)工程师合作。他们专注于特征工程。通过选择指导ML模型的因素,他们的进展可以产生数千万到数亿的额外收入。 想象一下一个包含数百列数据的Excel电子表格。添加两列,乘以两列,除以另一列,然后减去第四列。每一个都是一个特征。ML模型使用特征来预测最佳广告展示。 这开始时是一种手艺,反映了那个时代的氛围。随着时间的推移,我们将这种艺术机械化为一个名为AutoML的机器,极大地加速了正确特征的发现。 今天,强化学习(RL)正处于15年前特征工程的同样位置。 什么是RL?这是一种教AI实现目标的技术。 想象一个勇敢的Roomba。它进入一个肮脏的房间。 然后它必须制定清洁计划并执行。制定计划是第一步。为了完成计划,就像任何优秀的工作者一样,它会给自己奖励,不是通过玩桌上足球,而是通过获得一些积分。 它的奖励函数可能是:每清洁一个新的平方英尺得+0.1,撞到墙壁得-5,满尘箱返回到充电座得+100。这台不知疲倦的吸尘器的行为由这个简单的算术决定。(注意:我在这里简化了很多。) 今天,AI可以制定计划,但还不能开发奖励函数。人们做这件事,就像我们15年前开发特征一样。 我们会看到AutoRL吗?还要一段时间。RL的技术仍在辩论中。Andrej Karpathy在最近的一期播客中强调了这一辩论。 这波AI改进的浪潮可能依赖于RL的成功。今天,这仍然是一种手艺。自动化的潜力——部分或完全——将改变我们构建自主系统的方式。