Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
những dấu vết lý luận này đã khiến tôi không thể ngủ ngon vào ban đêm
bên trái: mô hình OpenAI mới đã nhận được huy chương vàng IMO
bên phải: DeepSeek R1 trên một bài toán toán học ngẫu nhiên
bạn cần nhận ra rằng kể từ năm ngoái, giới học thuật đã sản xuất hơn một NGHÌN bài báo về lý luận (có thể còn nhiều hơn nữa). chúng ta thực sự đều đang suy nghĩ về lý luận
nhưng tất cả các hệ thống của chúng ta đều tạo ra 'dấu vết suy nghĩ' trông giống như DeepSeek bên phải. chúng cực kỳ, một cách khó chịu, dài dòng, tiêu tốn token với tốc độ gần như bất cẩn. rất nhiều lý luận là không cần thiết và một số hoàn toàn sai
nhưng lý luận bên trái, cái mới này, là một điều hoàn toàn khác. rõ ràng là một sự thay đổi theo bước. có thể là một phương pháp hoàn toàn khác
nó gần gũi hơn rất nhiều với lý luận *thực sự*. không có token nào bị lãng phí. nếu có gì, nó cực kỳ ngắn gọn; tôi đoán rằng các giải pháp của con người còn dài dòng hơn cái này
rõ ràng có điều gì đó rất khác đang diễn ra. có thể OpenAI đã phát triển một quy trình đào tạo RLVR hoàn toàn mới. có thể có một số dữ liệu đặc biệt được thu thập từ các chuyên gia. có thể họ đã bắt đầu phạt mô hình vì suy nghĩ quá nhiều theo cách mà thực sự có lợi cho nó bằng cách nào đó
thật là những điều thú vị... nhìn chung điều này khiến tôi cảm thấy bi quan về lý luận kiểu R1


@marlboro_andres vâng, một vài:

19 thg 7, 2025
4/N Thứ hai, các bài nộp IMO rất khó xác minh, là những bằng chứng nhiều trang. Tiến bộ ở đây đòi hỏi phải vượt ra ngoài mô hình RL với những phần thưởng rõ ràng, có thể xác minh. Bằng cách làm như vậy, chúng tôi đã có được một mô hình có thể tạo ra những lập luận phức tạp, chặt chẽ ở cấp độ của các nhà toán học con người.




152,28K
Hàng đầu
Thứ hạng
Yêu thích