私たちは偶然にも自己改善型AIシステムを作りました。オックスフォード大学のこの論文がそれを証明しています。 多くの人は、モデルの改善はより大きなアーキテクチャや慎重に設計された強化学習パイプラインから来ると考えます。 この作品は、より微妙で不安を掻き立てる何かを示しています。 モデルを展開し、ユーザーが操作し、失敗を除外し、成功したトレースのみを微調整すれば、モデルは自ら計画能力を向上させ始めます。 明確な報酬はなく、手作りのカリキュラムも外部プランナーもありません。 ただの反復です。 著者らはこれを反復展開と呼び、Blocksworld、Rovers、Sokobanのような制御された計画環境でテストしています。 設定はシンプルです: 1. 計画タスクにLLMを展開する 2. 実際に機能する設計図だけを保管してください 3. 有効なトレース上で次のバージョンを微調整する 繰り返す わずか5世代で、計画の成果はすべての分野で倍以上に向上しました。場合によっては4倍から5倍も改善します。さらに興味深いのは、後の世代でベースモデルよりもはるかに長い設計図が発見され、単なるフォーマットのトリックやプロンプトの準拠ではなく、流通外での真の一般化が見られることです。 ここで重要な洞察を述べます。 この論文は、このプロセスが二値報酬信号を用いた強化学習と数学的に同等であることを証明しています。 しかし報酬関数は決して書き留められません。 ...