Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tôi không biết «domain» hay «in-distribution» nghĩa là gì nữa. Rõ ràng là các LLM tổng quát hơn những ví dụ cụ thể.
Liệu điều này có thực sự liên quan đến việc các biểu diễn tiềm ẩn được neo vào các token cụ thể, giống như cách mà mọi người nội tâm hóa việc dịch mọi thứ sang ngôn ngữ đầu tiên họ học không?


20:06 10 thg 8
Musk: Steve, câu hỏi thực sự mà tôi luôn hỏi đội ngũ là liệu các LLM hiện nay có thể lý luận khi chúng rời khỏi phân phối đào tạo hay không. Mọi người đều nhắc đến các prompt chuỗi suy nghĩ, nhưng điều đó có thể chỉ là bắt chước.
Hsu: Đồng ý. Các tiêu chuẩn mới nhất cho thấy ngay cả các mô hình cấp Grok4 cũng giảm mạnh khi bạn buộc phải thay đổi miền — không gian tiềm ẩn chỉ đơn giản là không bao trùm được mô hình mới.
Musk: Vậy đây là một vấn đề về độ bao phủ hơn là thất bại trong lý luận?
Hsu: Một phần. Nhưng có một vấn đề sâu hơn. Định kiến cảm ứng duy nhất được tích hợp trong transformer là khớp mẫu liên kết. Khi prompt thực sự nằm ngoài phân phối — chẳng hạn, một câu đố biểu tượng mà các token của nó chưa bao giờ xuất hiện cùng nhau trong quá trình đào tạo — mô hình không có prior cấu trúc để dựa vào. Nó thực sự chỉ tung đồng xu.
Musk: Tuy nhiên, chúng ta thấy sự "grokking" nổi lên trong các nhiệm vụ tổng hợp. Zhong và các cộng sự đã chỉ ra rằng các đầu vào cảm ứng có thể tạo thành các quy tắc mà chúng chưa bao giờ được đào tạo một cách rõ ràng. Điều đó có phải trông giống như lý luận không?
Hsu: Tổ hợp mang lại cho bạn sự tổng quát hạn chế, nhưng các quy tắc vẫn phải nằm trong phạm vi ngữ pháp đào tạo. Ngay khi bạn điều chỉnh ngữ nghĩa — thay đổi một toán tử duy nhất trong câu đố — độ chính xác sụp đổ. Đó không phải là lý luận vững chắc; đó là nội suy giòn.
Musk: Liệu học tăng cường có thể khắc phục điều này không? DRG-Sapphire đã sử dụng GRPO trên một mô hình cơ sở 7 B và đạt được mã hóa cấp bác sĩ trên các ghi chú lâm sàng, một nhiệm vụ OOD cổ điển.
Hsu: Vấn đề là RL chỉ hoạt động sau khi mô hình cơ sở đã tiếp thu đủ kiến thức miền thông qua tinh chỉnh giám sát. Khi tập hợp dữ liệu tiền đào tạo thưa thớt, RL một mình sẽ đạt đến điểm bão hòa. Vì vậy, "lý luận" vẫn phụ thuộc vào mật độ kiến thức trước đó.
Musk: Vậy takeaway của bạn là việc mở rộng dữ liệu và tham số sẽ không giải quyết được vấn đề? Chúng ta sẽ luôn gặp phải một bức tường nơi miền OOD tiếp theo phá vỡ mô hình?
Hsu: Không nhất thiết là một bức tường, nhưng là một trần. Các đường cong thực nghiệm cho thấy rằng lỗi tổng quát giảm khoảng theo hàm logarit với số ví dụ đào tạo. Điều đó ngụ ý rằng bạn cần nhiều dữ liệu hơn theo cấp số nhân cho mỗi phân phối đuôi mới. Đối với các lĩnh vực hẹp — chẳng hạn, chẩn đoán động cơ tên lửa — thì việc tích hợp các prior biểu tượng sẽ rẻ hơn là mở rộng một cách mù quáng.
Musk: Điều này đưa chúng ta trở lại với các hybrid thần kinh-biểu tượng. Cho LLM truy cập vào một bộ giải đã được xác minh nhỏ, sau đó để nó điều phối các cuộc gọi khi phân phối thay đổi.
Hsu: Chính xác. LLM trở thành một bộ điều khiển meta nhận ra khi nó nằm ngoài phân phối và chuyển giao cho một mô-đun chuyên biệt. Kiến trúc đó tránh được ngộ nhận "một transformer khổng lồ".
Musk: Được rồi, tôi sẽ bảo đội xAI ngừng theo đuổi hàng triệu token tiếp theo và bắt đầu xây dựng lớp định tuyến. Cảm ơn, Steve.
Hsu: Bất cứ lúc nào. Và nếu bạn cần các trường hợp kiểm tra OOD tổng hợp, phòng thí nghiệm của tôi có một trình tạo đã đánh lừa GPT-5. Tôi sẽ gửi repo.

3,52K
Hàng đầu
Thứ hạng
Yêu thích