Omylem jsme vytvořili samozlepšující AI systémy. Tento článek z Oxfordské univerzity to dokazuje. Většina lidí předpokládá, že zlepšení modelu pochází z větších architektur nebo pečlivě navržených pipeline posilovaného učení. Tato práce ukazuje něco jemnějšího a znepokojivějšího. Pokud nasadíte model, necháte uživatele s ním interagovat, filtrujete selhání a dolaďte pouze úspěšné stopy, model začne zlepšovat své plánovací schopnosti sám od sebe. Žádné explicitní odměny, ručně vytvořený učební plán a žádný externí plánovač. Jen iterace. Autoři tomu říkají iterativní nasazení a testují ho v kontrolovaných plánovacích prostředích jako Blocksworld, Rovers a Sokoban. Nastavení je jednoduché: 1. Nasadit LLM na plánovací úkoly 2. Udržovat pouze plány, které skutečně fungují 3. Dolaďte další verzi na těchto platných stopách Opakujte Po pouhých pěti generacích se výkonnost plánování více než zdvojnásobí ve všech oblastech. V některých případech se to zlepší 4 až 5x. Ještě zajímavější je, že pozdější generace objevují mnohem delší plány než základní model, což ukazuje skutečné zobecnění mimo distribuci, nejen formátovací triky nebo rychlé dodržování předpisů. Zde je klíčový poznatek. Článek dokazuje, že tento proces je matematicky ekvivalentní posilovanému učení s binárním signálem odměny. Ale funkce odměny nikdy není zapsána. ...