Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Chúng tôi vô tình xây dựng các hệ thống AI tự cải thiện. Bài báo này từ Đại học Oxford chứng minh điều đó.
Hầu hết mọi người đều cho rằng sự cải tiến của mô hình đến từ các kiến trúc lớn hơn hoặc các quy trình học tăng cường được thiết kế cẩn thận.
Công trình này cho thấy điều gì đó tinh tế hơn và đáng lo ngại hơn.
Nếu bạn triển khai một mô hình, để người dùng tương tác với nó, lọc ra các thất bại và tinh chỉnh chỉ trên các dấu vết thành công, mô hình bắt đầu cải thiện khả năng lập kế hoạch của nó một cách tự động.
Không có phần thưởng rõ ràng, không có chương trình giảng dạy được thiết kế thủ công và không có người lập kế hoạch bên ngoài.
Chỉ cần lặp lại.
Các tác giả gọi đây là triển khai lặp lại, và họ thử nghiệm nó trong các môi trường lập kế hoạch có kiểm soát như Blocksworld, Rovers và Sokoban.
Cách thiết lập rất đơn giản:
1. Triển khai một LLM cho các nhiệm vụ lập kế hoạch
2. Giữ lại chỉ những kế hoạch thực sự hoạt động
3. Tinh chỉnh phiên bản tiếp theo dựa trên những dấu vết hợp lệ đó
Lặp lại
Chỉ sau năm thế hệ, hiệu suất lập kế hoạch tăng gấp đôi trên tất cả các lĩnh vực. Trong một số trường hợp, nó cải thiện từ 4 đến 5 lần. Thậm chí còn thú vị hơn, các thế hệ sau phát hiện ra những kế hoạch dài hơn nhiều so với mô hình cơ bản, cho thấy sự tổng quát thực sự ngoài phân phối, không chỉ là những mẹo định dạng hay tuân thủ yêu cầu.
Đây là cái nhìn chính.
Bài báo chứng minh rằng quá trình này về mặt toán học tương đương với học tăng cường với tín hiệu phần thưởng nhị phân.
Nhưng hàm phần thưởng không bao giờ được viết ra.
...

Hàng đầu
Thứ hạng
Yêu thích
