Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

John Carmack

AGI tại Keen Technologies, cựu CTO Oculus VR, Người sáng lập Id Software và Armadillo Aerospace

#PaperADay 3 (hy vọng rằng các liên kết nhúng sẽ giảm bớt đủ để không quá nhiều người cảm thấy khó chịu với nội dung này) @ylecun gần đây đã trở thành chủ đề nóng, vì vậy hôm nay tôi đã xem qua: Học Tự Giám Sát từ Hình Ảnh với Kiến Trúc Dự Đoán Nhúng Chung Tôi đồng ý với ý tưởng rằng những dự đoán quan trọng là về các đại diện nội bộ, không phải là pixel, vì vậy các mô hình sinh có thể hơi phản tác dụng, hoặc ít nhất là không cần thiết hiệu quả cho nhiều nhiệm vụ. Tuy nhiên, tôi có xu hướng nghĩ rằng dự đoán nội bộ phải diễn ra ở mức độ chi tiết hơn so với xử lý hình ảnh đầy đủ, ở mức minicolumn hoặc thậm chí là mức nơ-ron, và với nhiều thành phần tạm thời hơn là che khu vực địa phương. Đào tạo tự giám sát hoạt động trên một tập dữ liệu lớn mà không biết điều gì sẽ được yêu cầu từ mô hình sau này, chỉ xây dựng kiến thức từ dữ liệu. Sau đó, bạn có thể đào tạo một bộ phân loại tuyến tính đơn giản (linear probe) trên đầu ra và đạt được hiệu suất khá tốt. Các bộ phân loại tuyến tính tốt nhất trên các mô hình tự giám sát đã đóng băng không mạnh mẽ như các bộ phân loại được đào tạo end-to-end, nhưng cùng một SSM có thể mạnh mẽ cho nhiều nhiệm vụ khác nhau cùng một lúc. Bài báo lưu ý rằng trái ngược với JEPA, các phương pháp đào tạo dựa trên tính bất biến mà lấy cùng một hình ảnh và tăng cường nó theo hai cách khác nhau trong khi duy trì sự tương đồng đại diện đạt được hiệu suất của chúng với chi phí của một tập hợp tăng cường hình ảnh thiên lệch từ nhà nghiên cứu, điều này không chuyển giao sang các phương thức khác như âm thanh hoặc văn bản. Tôi lưu ý rằng JEPA rất nhạy cảm với việc che khu vực chính xác được thực hiện (bảng 6), điều này không cảm thấy quá khác biệt. Bộ mã hóa mục tiêu có vẻ tương tự bề ngoài với cách diễn đạt hiện đại của mô hình mục tiêu trong các mạng DQN RL với EMA của trọng số thay vì một bản sao thỉnh thoảng, nhưng trong khi nó là một công cụ hỗ trợ ổn định cho RL (và không phải lúc nào cũng cần thiết), nó có một mục đích cơ bản hơn ở đây để ngăn mô hình sụp đổ các đại diện thành những cái dễ dự đoán. Điều này, cùng với LayerNorm cũng là một yếu tố quan trọng của điều đó, không được nêu rõ trong bài báo, và tôi đã phải tìm các tài liệu tham khảo về nó ở nơi khác. Có chút kỳ quặc khi họ áp dụng một vùng cắt ngẫu nhiên từ 0.85-1.0 vào ngữ cảnh, nhưng chỉ loại bỏ các khối từ bên phải và dưới cùng. Tôi đã mong đợi thấy một sự loại bỏ của vùng cắt đó. Tăng độ phân giải hình ảnh là một cách hơi kỳ lạ để mở rộng mô hình. Có lẽ không phải thực sự là độ phân giải giúp, mà là tổng số mảnh. Có một khối lượng lớn công việc về tự giám sát mà tôi chỉ mơ hồ quen thuộc, vì vậy tôi có thể đang bỏ lỡ một số khía cạnh phân biệt chính của JEPA. Tôi vẫn đang vật lộn với câu hỏi cốt lõi về chính xác những gì các ngữ cảnh học được, và cách mà kiến trúc mô hình và đào tạo hướng dẫn nó tránh khỏi sự sụp đổ.

Hàng đầu

Thứ hạng

Yêu thích