Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Prime Intellect
Prime Intellect đã đăng lại
.@willccbb (Trưởng nghiên cứu, Prime Intellect) về cách mà các môi trường RL thực sự hoạt động:
“Một môi trường về cơ bản là một bài đánh giá. Bạn có các nhiệm vụ đầu vào, một bộ điều khiển, và ở cuối nó sẽ chấm điểm cách mà mô hình hoặc tác nhân của bạn hoạt động. Đó là cấu hình mà chúng tôi sử dụng cho cả đánh giá và đào tạo RL.”
Ông ấy bổ sung rằng tương lai không chỉ là “có 100.000 GPU trong một cụm khổng lồ.”
15,03K
Prime Intellect đã đăng lại
Trong thời đại tiền huấn luyện, điều quan trọng là văn bản trên internet. Bạn chủ yếu muốn có một bộ tài liệu internet lớn, đa dạng và chất lượng cao để học hỏi.
Trong thời đại tinh chỉnh có giám sát, đó là các cuộc trò chuyện. Những người lao động hợp đồng được thuê để tạo ra câu trả lời cho các câu hỏi, giống như những gì bạn thấy trên Stack Overflow / Quora, hoặc v.v., nhưng hướng tới các trường hợp sử dụng LLM.
Cả hai điều trên đều không biến mất (theo ý kiến của tôi), nhưng trong thời đại học tăng cường này, giờ đây là các môi trường. Khác với những điều trên, chúng cho LLM cơ hội thực sự tương tác - thực hiện hành động, xem kết quả, v.v. Điều này có nghĩa là bạn có thể hy vọng làm tốt hơn nhiều so với việc bắt chước chuyên gia thống kê. Và chúng có thể được sử dụng cho cả huấn luyện và đánh giá mô hình. Nhưng cũng giống như trước đây, vấn đề cốt lõi bây giờ là cần một bộ môi trường lớn, đa dạng và chất lượng cao, như các bài tập cho LLM thực hành.
Theo một cách nào đó, tôi nhớ đến dự án đầu tiên của OpenAI (gym), đó chính là một khung làm việc hy vọng xây dựng một bộ sưu tập lớn các môi trường theo cùng một sơ đồ, nhưng điều này diễn ra trước khi có LLM. Vì vậy, các môi trường đó là những nhiệm vụ kiểm soát học thuật đơn giản của thời đó, như cartpole, ATARI, v.v. Trung tâm môi trường @PrimeIntellect (và kho `verifiers` trên GitHub) xây dựng phiên bản hiện đại hóa nhắm đến LLM, và đó là một nỗ lực/ý tưởng tuyệt vời. Tôi đã đề xuất rằng ai đó xây dựng một cái gì đó giống như vậy vào đầu năm nay:
Các môi trường có đặc điểm là một khi khung xương của nó đã được thiết lập, về nguyên tắc, cộng đồng/ngành công nghiệp có thể song song hóa trên nhiều lĩnh vực khác nhau, điều này thật thú vị.
Suy nghĩ cuối cùng - cá nhân và lâu dài, tôi lạc quan về các môi trường và tương tác tác nhân nhưng tôi bi quan về học tăng cường cụ thể. Tôi nghĩ rằng các hàm thưởng là rất đáng ngờ, và tôi nghĩ rằng con người không sử dụng RL để học (có thể họ làm cho một số nhiệm vụ vận động, v.v., nhưng không phải cho các nhiệm vụ giải quyết vấn đề trí tuệ). Con người sử dụng các mô hình học khác nhau mà mạnh mẽ hơn và hiệu quả hơn trong việc lấy mẫu và chưa được phát minh và mở rộng đúng cách, mặc dù đã có những phác thảo và ý tưởng ban đầu (chỉ là một ví dụ, ý tưởng "học hỏi từ hệ thống nhắc nhở", chuyển việc cập nhật sang các token/ngữ cảnh chứ không phải trọng số và tùy chọn tinh chế thành trọng số như một quá trình riêng biệt giống như giấc ngủ).
427,09K
Hàng đầu
Thứ hạng
Yêu thích