jejak penalaran ini telah membuatku terjaga di malam hari di sebelah kiri: model OpenAI baru yang mendapat emas IMO di sebelah kanan: DeepSeek R1 pada soal matematika acak Anda perlu menyadari bahwa sejak tahun lalu akademisi telah menghasilkan lebih dari SERIBU makalah tentang penalaran (mungkin lebih banyak lagi). kita praktis semua berpikir tentang penalaran tetapi semua sistem kami menghasilkan 'jejak berpikir' yang terlihat seperti DeepSeek di sebelah kanan. mereka luar biasa, sangat menjengkelkan, membakar token pada tingkat kelalaian yang tidak berbatas. Banyak alasan yang tidak perlu dan beberapa di antaranya sama sekali salah Tapi alasan di sebelah kiri, hal baru ini, adalah sesuatu yang sama sekali berbeda. jelas perubahan fungsi langkah. berpotensi metode yang sama sekali berbeda Ini jauh lebih dekat dengan penalaran *aktual*. tidak ada token yang terbuang-. jika ada, itu sangat singkat; Saya kira solusi manusia lebih bertele-tele dari ini jelas sesuatu yang sangat berbeda sedang terjadi. mungkin OpenAI mengembangkan proses pelatihan RLVR yang benar-benar baru. Mungkin ada beberapa pengumpulan data khusus dari para ahli. mungkin mereka mulai menghukum model karena berpikir berlebihan dengan cara yang benar-benar menguntungkannya entah bagaimana hal-hal yang sangat menarik... secara umum ini membuat saya bearish pada penalaran gaya R1
@marlboro_andres ya, beberapa:
Alexander Wei
Alexander Wei19 Jul 2025
4/N Kedua, pengajuan IMO adalah bukti multi-halaman yang sulit diverifikasi. Kemajuan di sini menuntut untuk melampaui paradigma RL tentang hadiah yang jelas dan dapat diverifikasi. Dengan melakukan itu, kami telah memperoleh model yang dapat membuat argumen yang rumit dan kedap air pada tingkat matematikawan manusia.
152,27K