những dấu vết lý luận này đã khiến tôi không thể ngủ ngon vào ban đêm bên trái: mô hình OpenAI mới đã nhận được huy chương vàng IMO bên phải: DeepSeek R1 trên một bài toán toán học ngẫu nhiên bạn cần nhận ra rằng kể từ năm ngoái, giới học thuật đã sản xuất hơn một NGHÌN bài báo về lý luận (có thể còn nhiều hơn nữa). chúng ta thực sự đều đang suy nghĩ về lý luận nhưng tất cả các hệ thống của chúng ta đều tạo ra 'dấu vết suy nghĩ' trông giống như DeepSeek bên phải. chúng cực kỳ, một cách khó chịu, dài dòng, tiêu tốn token với tốc độ gần như bất cẩn. rất nhiều lý luận là không cần thiết và một số hoàn toàn sai nhưng lý luận bên trái, cái mới này, là một điều hoàn toàn khác. rõ ràng là một sự thay đổi theo bước. có thể là một phương pháp hoàn toàn khác nó gần gũi hơn rất nhiều với lý luận *thực sự*. không có token nào bị lãng phí. nếu có gì, nó cực kỳ ngắn gọn; tôi đoán rằng các giải pháp của con người còn dài dòng hơn cái này rõ ràng có điều gì đó rất khác đang diễn ra. có thể OpenAI đã phát triển một quy trình đào tạo RLVR hoàn toàn mới. có thể có một số dữ liệu đặc biệt được thu thập từ các chuyên gia. có thể họ đã bắt đầu phạt mô hình vì suy nghĩ quá nhiều theo cách mà thực sự có lợi cho nó bằng cách nào đó thật là những điều thú vị... nhìn chung điều này khiến tôi cảm thấy bi quan về lý luận kiểu R1
@marlboro_andres vâng, một vài:
Alexander Wei
Alexander Wei19 thg 7, 2025
4/N Thứ hai, các bài nộp IMO rất khó xác minh, là những bằng chứng nhiều trang. Tiến bộ ở đây đòi hỏi phải vượt ra ngoài mô hình RL với những phần thưởng rõ ràng, có thể xác minh. Bằng cách làm như vậy, chúng tôi đã có được một mô hình có thể tạo ra những lập luận phức tạp, chặt chẽ ở cấp độ của các nhà toán học con người.
152,28K