Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
jejak penalaran ini telah membuatku terjaga di malam hari
di sebelah kiri: model OpenAI baru yang mendapat emas IMO
di sebelah kanan: DeepSeek R1 pada soal matematika acak
Anda perlu menyadari bahwa sejak tahun lalu akademisi telah menghasilkan lebih dari SERIBU makalah tentang penalaran (mungkin lebih banyak lagi). kita praktis semua berpikir tentang penalaran
tetapi semua sistem kami menghasilkan 'jejak berpikir' yang terlihat seperti DeepSeek di sebelah kanan. mereka luar biasa, sangat menjengkelkan, membakar token pada tingkat kelalaian yang tidak berbatas. Banyak alasan yang tidak perlu dan beberapa di antaranya sama sekali salah
Tapi alasan di sebelah kiri, hal baru ini, adalah sesuatu yang sama sekali berbeda. jelas perubahan fungsi langkah. berpotensi metode yang sama sekali berbeda
Ini jauh lebih dekat dengan penalaran *aktual*. tidak ada token yang terbuang-. jika ada, itu sangat singkat; Saya kira solusi manusia lebih bertele-tele dari ini
jelas sesuatu yang sangat berbeda sedang terjadi. mungkin OpenAI mengembangkan proses pelatihan RLVR yang benar-benar baru. Mungkin ada beberapa pengumpulan data khusus dari para ahli. mungkin mereka mulai menghukum model karena berpikir berlebihan dengan cara yang benar-benar menguntungkannya entah bagaimana
hal-hal yang sangat menarik... secara umum ini membuat saya bearish pada penalaran gaya R1


@marlboro_andres ya, beberapa:

19 Jul 2025
4/N Kedua, pengajuan IMO adalah bukti multi-halaman yang sulit diverifikasi. Kemajuan di sini menuntut untuk melampaui paradigma RL tentang hadiah yang jelas dan dapat diverifikasi. Dengan melakukan itu, kami telah memperoleh model yang dapat membuat argumen yang rumit dan kedap air pada tingkat matematikawan manusia.




152,27K
Teratas
Peringkat
Favorit