Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Makalah "Model Penalaran Hierarkis" telah beredar akhir-akhir ini, mengumpulkan puluhan ribu suka di Twitter di lusinan utas semi-viral, yang sangat tidak biasa untuk makalah penelitian.
Makalah ini mengklaim akurasi 40,3% pada ARC-AGI-1 dengan model kecil (27 juta parameter) yang dilatih dari awal tanpa data pelatihan eksternal - jika nyata, ini akan mewakili terobosan penalaran utama.
Saya baru saja menyelam lebih dalam pada kertas dan basis kode...
Ini bagus dibaca, detail namun mudah diikuti. Saya pikir ide-ide yang disajikan cukup menarik dan arsitekturnya kemungkinan berharga.
Konsep ini mengingatkan saya pada banyak ide berbeda yang saya temui selama "masa keemasan" penelitian arsitektur DL, sekitar 2016-2018. Jenis penelitian ini belum populer untuk sementara waktu, jadi senang melihat minat baru pada arsitektur alternatif.
Namun, pengaturan eksperimental tampaknya sangat cacat, yang berarti bahwa saat ini kita tidak memiliki sinyal empiris (setidaknya dari ARC-AGI) apakah arsitekturnya benar-benar membantu atau tidak.
Eksperimen ARC-AGI-1 melakukan hal berikut, berdasarkan pembacaan saya tentang kode persiapan data:
1. Berlatih pada 876.404 tugas, yang merupakan varian yang dihasilkan augmentasi dari 960 tugas asli:
... 400 dari ARC-AGI-1/kereta api
... 400 dari ARC-AGI-1/eval
... 160 dari ConceptARC
2. Uji pada 400 tugas (ARC-AGI-1/eval), dengan menambah setiap tugas menjadi ~1000 varian (pada kenyataannya hanya 368.151 secara total karena keanehan proses augmentasi), menghasilkan prediksi untuk setiap varian, dan mengurangi prediksi menjadi N=2 melalui pemungutan suara mayoritas.
Singkatnya: mereka berlatih pada data pengujian.
Anda mungkin bertanya, tunggu, mengapa akurasinya 40%, bukan 100%? Apakah modelnya sangat kurang bugar?
Itu karena data pelatihan dan data pengujian mewakili tugas asli yang sama *dalam variasi yang berbeda*. Augmentasi data diterapkan secara independen ke tugas evaluasi dalam data pelatihan dan tugas evaluasi dalam data pengujian.
Jadi apa yang diukur oleh eksperimen, secara kasar, adalah bagaimana model berhasil menggeneralisasi ke varian yang dihasilkan secara prosedural dari tugas yang sama (yaitu apakah model dapat belajar untuk membalikkan serangkaian transformasi grid statis yang tetap).
Jadi -- jangan terlalu bersemangat dulu. Tapi saya pikir penelitian arsitektur semacam ini berharga (bila disertai dengan sinyal validasi empiris yang tepat) dan bahwa ide HRM sangat menarik.
Juga, untuk lebih jelasnya, saya tidak berpikir penulis memiliki niat menyesatkan dan menyembunyikan masalah eksperimental - mereka mungkin tidak menyadari apa arti sebenarnya dari pengaturan pelatihan mereka.
19,61K
Teratas
Peringkat
Favorit