Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Yanlışlıkla kendini geliştiren yapay zeka sistemleri inşa ettik. Oxford Üniversitesi'nden bu makale bunu kanıtlıyor.
Çoğu insan model iyileştirmelerinin daha büyük mimarilerden veya özenle tasarlanmış pekiştirme öğrenme boru hatlarından geldiğini varsayıyor.
Bu eserde daha ince ve rahatsız edici bir şey var.
Bir model dağıtırsanız, kullanıcıların onunla etkileşime girmesine izin verirseniz, hataları filtrelerseniz ve sadece başarılı izlerde ince ayar yaparsanız, model kendi başına planlama yeteneklerini geliştirmeye başlar.
Açık ödüller yok, el yapımı müfredat ve harici planlayıcı yok.
Sadece yineleme.
Yazarlar buna yinelemeli dağıtım adını veriyor ve Blocksworld, Rovers ve Sokoban gibi kontrollü planlama ortamlarında test ediyorlar.
Kurulum basit:
1. Planlama görevlerinde bir LLM kullanın
2. Sadece gerçekten işe yarayan planları tutun
3. Geçerli izler üzerinde bir sonraki sürümü ince ayar
Tekrar et
Sadece beş nesil sonra, planlama performansı tüm alanlarda iki katından fazla artıyor. Bazı durumlarda 4 ila 5 kat iyileşir. Daha da ilginç, sonraki nesiller temel modelden çok daha uzun planlar keşfediyor; bu planlar sadece formatlama veya prompt uyumu değil, gerçek dağıtım dışı genellemeyi gösteriyor.
İşte temel içgörüler.
Makale, bu sürecin matematiksel olarak ikili ödül sinyalli pekiştirme öğrenmeye eşdeğer olduğunu kanıtlamaktadır.
Ama ödül fonksiyonu asla yazılmaz.
...

En İyiler
Sıralama
Takip Listesi
