Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

John Carmack
AGI tại Keen Technologies, cựu CTO Oculus VR, Người sáng lập Id Software và Armadillo Aerospace
#PaperADay 6
THAY ĐỔI ĐẶC TRƯNG ĐỊA PHƯƠNG ĐỂ TỔNG QUÁT HÓA TRONG HỌC TĂNG CƯỜNG
Có một cuộc thảo luận tốt về tổng quát hóa, cả về mặt tổng quát (ha) và cụ thể hơn trong RL, nhưng ý tưởng được trình bày rất đơn giản, và tôi sẽ thử nghiệm:
CLOP: Hoán vị địa phương nhất quán theo kênh
Cho một tensor 3D (4D với lô), với một xác suất nào đó tại mỗi vị trí, hoán đổi ngẫu nhiên vị trí với một hàng xóm, hoán đổi tất cả các kênh như một đơn vị. Giống như dropout, điều này giảm thiểu hiện tượng quá khớp bằng cách đồng thích ứng, nhưng nó không làm bằng không bất kỳ kênh nào, nó chỉ di chuyển chúng.
Tôi đồng ý với ý tưởng rằng tăng cường dữ liệu trong không gian tiềm ẩn hiệu quả hơn cho việc tổng quát hóa so với trong không gian đầu vào. Họ gợi ý thực hiện điều này ở mức thấp nhất trong hệ thống phân cấp không gian có thể, nhưng có lẽ sẽ không phải là một ý tưởng tốt ở mức 2x2, nơi chỉ có bốn hoán vị khả thi và bất kỳ hoán vị nào trong số đó cũng làm rối loạn một nửa thông tin không gian.
Lưu ý rằng họ đã điều chỉnh xác suất hoán đổi theo từng trò chơi, điều này thường không được thực hiện khi báo cáo kết quả trên một bộ trò chơi.
Kết quả trên các nhiệm vụ học tập có giám sát thuần túy không đáng chú ý, nhưng có thể tốt hơn với CLOP được chèn vào các vị trí khác nhau và với các công thức huấn luyện khác nhau.
676
Gary Gygax là một trong những anh hùng của tôi khi còn là một người chơi D&D tuổi teen, nhưng tôi thực sự không biết nhiều về ông trước khi đọc cuốn sách này. Điều gần nhất tôi làm được là hỏi Margaret Weis, một trong những tác giả của Dragonlance và là người quen của cha tôi, về ông qua điện thoại khi tôi 13 tuổi.
Tác động rộng lớn của D&D (các trò chơi tại Id Software được đề cập ngắn gọn gần cuối) vượt xa lợi nhuận tài chính mà ông có được, và con đường của ông khá gian nan, nhưng có vẻ như ông đã ổn định ở một vị trí khá tốt với danh hiệu "vua của những người mê game" vào cuối đời.
Chết ở tuổi 69 sau nhiều năm sức khỏe kém là một lời nhắc nhở cho những người trong chúng ta ở độ tuổi 50 rằng cần phải chăm sóc bản thân.
@MikeWitwer

729
#PaperADay 3 (hy vọng rằng các liên kết nhúng sẽ giảm bớt đủ để không quá nhiều người cảm thấy khó chịu với nội dung này)
@ylecun gần đây đã trở thành chủ đề nóng, vì vậy hôm nay tôi đã xem qua:
Học Tự Giám Sát từ Hình Ảnh với Kiến Trúc Dự Đoán Nhúng Chung
Tôi đồng ý với ý tưởng rằng những dự đoán quan trọng là về các đại diện nội bộ, không phải là pixel, vì vậy các mô hình sinh có thể hơi phản tác dụng, hoặc ít nhất là không cần thiết hiệu quả cho nhiều nhiệm vụ.
Tuy nhiên, tôi có xu hướng nghĩ rằng dự đoán nội bộ phải diễn ra ở mức độ chi tiết hơn so với xử lý hình ảnh đầy đủ, ở mức minicolumn hoặc thậm chí là mức nơ-ron, và với nhiều thành phần tạm thời hơn là che khu vực địa phương.
Đào tạo tự giám sát hoạt động trên một tập dữ liệu lớn mà không biết điều gì sẽ được yêu cầu từ mô hình sau này, chỉ xây dựng kiến thức từ dữ liệu. Sau đó, bạn có thể đào tạo một bộ phân loại tuyến tính đơn giản (linear probe) trên đầu ra và đạt được hiệu suất khá tốt. Các bộ phân loại tuyến tính tốt nhất trên các mô hình tự giám sát đã đóng băng không mạnh mẽ như các bộ phân loại được đào tạo end-to-end, nhưng cùng một SSM có thể mạnh mẽ cho nhiều nhiệm vụ khác nhau cùng một lúc.
Bài báo lưu ý rằng trái ngược với JEPA, các phương pháp đào tạo dựa trên tính bất biến mà lấy cùng một hình ảnh và tăng cường nó theo hai cách khác nhau trong khi duy trì sự tương đồng đại diện đạt được hiệu suất của chúng với chi phí của một tập hợp tăng cường hình ảnh thiên lệch từ nhà nghiên cứu, điều này không chuyển giao sang các phương thức khác như âm thanh hoặc văn bản. Tôi lưu ý rằng JEPA rất nhạy cảm với việc che khu vực chính xác được thực hiện (bảng 6), điều này không cảm thấy quá khác biệt.
Bộ mã hóa mục tiêu có vẻ tương tự bề ngoài với cách diễn đạt hiện đại của mô hình mục tiêu trong các mạng DQN RL với EMA của trọng số thay vì một bản sao thỉnh thoảng, nhưng trong khi nó là một công cụ hỗ trợ ổn định cho RL (và không phải lúc nào cũng cần thiết), nó có một mục đích cơ bản hơn ở đây để ngăn mô hình sụp đổ các đại diện thành những cái dễ dự đoán. Điều này, cùng với LayerNorm cũng là một yếu tố quan trọng của điều đó, không được nêu rõ trong bài báo, và tôi đã phải tìm các tài liệu tham khảo về nó ở nơi khác.
Có chút kỳ quặc khi họ áp dụng một vùng cắt ngẫu nhiên từ 0.85-1.0 vào ngữ cảnh, nhưng chỉ loại bỏ các khối từ bên phải và dưới cùng. Tôi đã mong đợi thấy một sự loại bỏ của vùng cắt đó.
Tăng độ phân giải hình ảnh là một cách hơi kỳ lạ để mở rộng mô hình. Có lẽ không phải thực sự là độ phân giải giúp, mà là tổng số mảnh.
Có một khối lượng lớn công việc về tự giám sát mà tôi chỉ mơ hồ quen thuộc, vì vậy tôi có thể đang bỏ lỡ một số khía cạnh phân biệt chính của JEPA. Tôi vẫn đang vật lộn với câu hỏi cốt lõi về chính xác những gì các ngữ cảnh học được, và cách mà kiến trúc mô hình và đào tạo hướng dẫn nó tránh khỏi sự sụp đổ.
691
Hàng đầu
Thứ hạng
Yêu thích
