Google で働いていたとき、幸運にも最も優秀な機械学習 (ML) エンジニアとコラボレーションすることができました。彼らは特徴エンジニアリングに取り組みました。ML モデルを導く要因を選択することで、その進歩により数千万から数億ドルの追加収益が生まれる可能性があります。 何百もの列のデータを含む Excel スプレッドシートを想像してみてください。2 つの列を加算し、2 を掛け、別の列で割り、4 分の 1 を減算します。これらはそれぞれ機能です。ML モデルは特徴量を使用して、表示するのに最適な広告を予測しました。 それは、時代の雰囲気を反映した工芸品として始まりました。時間が経つにつれて、私たちはこの芸術を AutoML と呼ばれるマシンに機械化し、適切な機能の発見を大幅に加速させました。 現在、強化学習 (RL) は 15 年前の特徴エンジニアリングと同じ場所にあります。 RLとは?これは、目標を達成するために AI に教える手法です。 勇敢なルンバを考えてみましょう。汚れた部屋に押し込まれます。 次に、清掃計画を立てて実行する必要があります。計画の作成はステップ 1 です。他の優れた労働者と同様に、計画を完了するために、フーズボールの休憩ではなく、いくつかのポイントで報酬が得られます。 その報酬関数は、新しい平方フィートを掃除するごとに +0.1、壁にぶつかると -5、ゴミ箱がいっぱいになってドックに戻ると +100 になります。たゆまぬ真空の振る舞いは、この単純な算術によって形作られます。(注意:ここではかなり単純化しています。 現在、AI は計画を作成できますが、報酬関数をまだ開発することはできません。15 年前に私たちが機能を開発したのと同じように、人々はこれを行います。 AutoRLは登場するのでしょうか?しばらくはそうではありません。RLのテクニックはまだ議論の余地があります。アンドレイ・カルパシー氏は最近のポッドキャストでこの議論を強調した。 この現在の AI 改善の波は、RL の成功にかかっている可能性があります。今日では、それは非常に工芸品です。ある程度、または完全に自動化できる可能性は、エージェントシステムの構築方法を変革するでしょう。