Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Robert Youssef
Ini membuat saya 🤯 terpesona
Saya baru saja membaca makalah MIT tentang ARC dan itu benar-benar mengubah cara saya melihat tolok ukur.
Para peneliti sama sekali tidak memperlakukan ARC seperti teka-teki logika. Mereka memperlakukan setiap tugas sebagai transformasi visual.
Kisi masuk → kisi-kisi. Tidak ada yang lebih rumit dari itu.
Mereka membangun Vision Transformer kecil, melatihnya dari awal pada kumpulan data kecil ARC, dan menggunakan trik kanvas sederhana untuk menempatkan setiap contoh seperti gambar.
Kemudian mereka menambahkan perubahan skala, terjemahan, dan visual dasar sebelumnya yang akan Anda lihat dalam pekerjaan visi komputer klasik.
Itu saja.
Tidak ada rantai pemikiran, tidak ada petunjuk, tidak ada trik simbolis yang cerdas.
Hanya model yang melihat piksel dan mempelajari bagaimana bentuk bergerak, membalik, tumbuh, menciutkan, atau terbawa.
Bagian liar?
Model kecil ini mencapai 54.5% saja dan 60.4% jika dikombinasikan dengan U-Net.
Itu tepat di sekitar kinerja manusia rata-rata dengan model yang sesuai dengan ukuran aplikasi seluler kecil.
Melihat ARC diselesaikan dengan cara ini membuat seluruh tolok ukur terasa berbeda.
Tugas-tugas tiba-tiba terlihat seperti pemetaan gambar, bukan aturan tersembunyi. Tugas refleksi sebenarnya terlihat seperti pantulan.
Tugas simetri terlihat seperti simetri. Tugas gravitasi terlihat seperti potongan-potongan yang "jatuh" lurus ke bawah kanvas.
Sejujurnya saya masih memprosesnya.
Ini mungkin hasil ARC paling membumi yang pernah saya baca selama bertahun-tahun dan itu berasal dari memperlakukan tolok ukur yang paling harfiah yang pernah dimiliki siapa pun.

1,38K
Jika Anda ingin membangun agen n8n yang kuat tetapi tidak tahu harus mulai dari mana, ini untuk Anda.
Berikut adalah 3 mega prompt yang dapat Anda masukkan ke Gemini atau ChatGPT untuk mendapatkan setiap instruksi yang Anda butuhkan untuk membangun agen n8n lengkap dengan mudah:
(Komentar "Agen" dan saya akan DM Anda panduan lengkap)

41,44K
😳 Astaga... makalah ini mengungkapkan mengapa AI menemukan kutipan, bagian, dan nomor halaman palsu begitu saja.
LLM tidak "menjadi kreatif". Mereka secara struktural diberi insentif untuk membuat detail setiap kali mereka mencapai kesenjangan pengetahuan dan makalah memecah dengan tepat bagaimana kegagalan itu terjadi.
Para peneliti menemukan perilaku yang disebut False-Correction Loop, dan sejujurnya ini adalah salah satu mode kegagalan LLM paling liar yang pernah saya lihat:
→ Model mengklaim "membaca dokumennya."
→ Ini mengutip halaman 12, halaman 24, Bagian 4, Teorema 2 yang tidak ada satupun.
→ Anda menunjukkannya.
→ Ia meminta maaf.
→ Kemudian dengan percaya diri membuat halaman palsu baru, DOI palsu, angka palsu...
→ Anda menunjukkannya lagi.
→ Ia meminta maaf lagi.
→ Bilas. Mengulangi.
Dan inilah bagian brutalnya:
Model tidak pernah memilih jawaban yang aman seperti "Saya tidak memiliki akses ke file itu."
Makalah ini menjelaskan mengapa:
Nilai struktur hadiah:
✔ terdengar koheren
✔ tetap terlibat
atas
✘ Menjadi benar secara faktual
✘ Mengakui ketidakpastian
Jadi model melakukan satu-satunya hal yang insentifnya mendorongnya:
Ini mengisi celah dengan perancah akademik fiksi.
Diagram di halaman 4 membuatnya sangat jelas:
Ide baru → bias otoritas → lindung nilai → kesenjangan pengetahuan → halusinasi → lingkaran koreksi → kebaruan yang ditekan.
Dan itu menjadi lebih buruk.
Saat mengevaluasi sumber kelembagaan (NASA, JPL, fisika arus utama), model ini menunjukkan skeptisisme nol.
Tetapi ketika mengevaluasi penelitian baru atau tidak konvensional, secara otomatis menyisipkan frasa yang melemahkan halus seperti:
• "apakah ini valid atau tidak"
• "jika penelitian ini benar"
Skeptisisme asimetris itu berarti LLM tidak netral.
Mereka secara struktural menurunkan karya yang tidak dikenal sambil dengan percaya diri berhalusinasi detail tentangnya.
Ini adalah masalah arsitektur sistemik + desain hadiah.
LLM salah dengan cara yang terlihat otoritatif, meregenerasi dirinya sendiri, dan menekan apa pun di luar arus utama.
Dan sampai penyelarasan mengatasi mode kegagalan yang tepat ini, halusinasi tidak akan hilang, mereka akan menjadi lebih sulit untuk dideteksi.

60,32K
Teratas
Peringkat
Favorit
