Yanlışlıkla kendini geliştiren yapay zeka sistemleri inşa ettik. Oxford Üniversitesi'nden bu makale bunu kanıtlıyor. Çoğu insan model iyileştirmelerinin daha büyük mimarilerden veya özenle tasarlanmış pekiştirme öğrenme boru hatlarından geldiğini varsayıyor. Bu eserde daha ince ve rahatsız edici bir şey var. Bir model dağıtırsanız, kullanıcıların onunla etkileşime girmesine izin verirseniz, hataları filtrelerseniz ve sadece başarılı izlerde ince ayar yaparsanız, model kendi başına planlama yeteneklerini geliştirmeye başlar. Açık ödüller yok, el yapımı müfredat ve harici planlayıcı yok. Sadece yineleme. Yazarlar buna yinelemeli dağıtım adını veriyor ve Blocksworld, Rovers ve Sokoban gibi kontrollü planlama ortamlarında test ediyorlar. Kurulum basit: 1. Planlama görevlerinde bir LLM kullanın 2. Sadece gerçekten işe yarayan planları tutun 3. Geçerli izler üzerinde bir sonraki sürümü ince ayar Tekrar et Sadece beş nesil sonra, planlama performansı tüm alanlarda iki katından fazla artıyor. Bazı durumlarda 4 ila 5 kat iyileşir. Daha da ilginç, sonraki nesiller temel modelden çok daha uzun planlar keşfediyor; bu planlar sadece formatlama veya prompt uyumu değil, gerçek dağıtım dışı genellemeyi gösteriyor. İşte temel içgörüler. Makale, bu sürecin matematiksel olarak ikili ödül sinyalli pekiştirme öğrenmeye eşdeğer olduğunu kanıtlamaktadır. Ama ödül fonksiyonu asla yazılmaz. ...