Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

John Carmack
AGI tại Keen Technologies, cựu CTO Oculus VR, Người sáng lập Id Software và Armadillo Aerospace
#PaperADay 3 (hy vọng rằng các liên kết nhúng sẽ giảm bớt đủ để không quá nhiều người cảm thấy khó chịu với nội dung này)
@ylecun gần đây đã trở thành chủ đề nóng, vì vậy hôm nay tôi đã xem qua:
Học Tự Giám Sát từ Hình Ảnh với Kiến Trúc Dự Đoán Nhúng Chung
Tôi đồng ý với ý tưởng rằng những dự đoán quan trọng là về các đại diện nội bộ, không phải là pixel, vì vậy các mô hình sinh có thể hơi phản tác dụng, hoặc ít nhất là không cần thiết hiệu quả cho nhiều nhiệm vụ.
Tuy nhiên, tôi có xu hướng nghĩ rằng dự đoán nội bộ phải diễn ra ở mức độ chi tiết hơn so với xử lý hình ảnh đầy đủ, ở mức minicolumn hoặc thậm chí là mức nơ-ron, và với nhiều thành phần tạm thời hơn là che khu vực địa phương.
Đào tạo tự giám sát hoạt động trên một tập dữ liệu lớn mà không biết điều gì sẽ được yêu cầu từ mô hình sau này, chỉ xây dựng kiến thức từ dữ liệu. Sau đó, bạn có thể đào tạo một bộ phân loại tuyến tính đơn giản (linear probe) trên đầu ra và đạt được hiệu suất khá tốt. Các bộ phân loại tuyến tính tốt nhất trên các mô hình tự giám sát đã đóng băng không mạnh mẽ như các bộ phân loại được đào tạo end-to-end, nhưng cùng một SSM có thể mạnh mẽ cho nhiều nhiệm vụ khác nhau cùng một lúc.
Bài báo lưu ý rằng trái ngược với JEPA, các phương pháp đào tạo dựa trên tính bất biến mà lấy cùng một hình ảnh và tăng cường nó theo hai cách khác nhau trong khi duy trì sự tương đồng đại diện đạt được hiệu suất của chúng với chi phí của một tập hợp tăng cường hình ảnh thiên lệch từ nhà nghiên cứu, điều này không chuyển giao sang các phương thức khác như âm thanh hoặc văn bản. Tôi lưu ý rằng JEPA rất nhạy cảm với việc che khu vực chính xác được thực hiện (bảng 6), điều này không cảm thấy quá khác biệt.
Bộ mã hóa mục tiêu có vẻ tương tự bề ngoài với cách diễn đạt hiện đại của mô hình mục tiêu trong các mạng DQN RL với EMA của trọng số thay vì một bản sao thỉnh thoảng, nhưng trong khi nó là một công cụ hỗ trợ ổn định cho RL (và không phải lúc nào cũng cần thiết), nó có một mục đích cơ bản hơn ở đây để ngăn mô hình sụp đổ các đại diện thành những cái dễ dự đoán. Điều này, cùng với LayerNorm cũng là một yếu tố quan trọng của điều đó, không được nêu rõ trong bài báo, và tôi đã phải tìm các tài liệu tham khảo về nó ở nơi khác.
Có chút kỳ quặc khi họ áp dụng một vùng cắt ngẫu nhiên từ 0.85-1.0 vào ngữ cảnh, nhưng chỉ loại bỏ các khối từ bên phải và dưới cùng. Tôi đã mong đợi thấy một sự loại bỏ của vùng cắt đó.
Tăng độ phân giải hình ảnh là một cách hơi kỳ lạ để mở rộng mô hình. Có lẽ không phải thực sự là độ phân giải giúp, mà là tổng số mảnh.
Có một khối lượng lớn công việc về tự giám sát mà tôi chỉ mơ hồ quen thuộc, vì vậy tôi có thể đang bỏ lỡ một số khía cạnh phân biệt chính của JEPA. Tôi vẫn đang vật lộn với câu hỏi cốt lõi về chính xác những gì các ngữ cảnh học được, và cách mà kiến trúc mô hình và đào tạo hướng dẫn nó tránh khỏi sự sụp đổ.
502
Sẽ thật tuyệt nếu một số người trong cộng đồng Twitter quay trở lại. Có rất nhiều người sáng tạo, nhưng cũng có nhiều nhà phát triển, những người đã làm phong phú thêm trải nghiệm nhưng hiện không còn hoạt động.
Những người đã rời đi một cách biểu hiện và những người có sự thù hận mãnh liệt với Elon có lẽ sẽ không quay lại sớm, nhưng nhiều người chỉ đơn giản là đã rút lui vì những lý do văn hóa mơ hồ có thể được xem xét lại.
Có lẽ có một số điều chỉnh kỹ thuật cho thuật toán có thể khiến họ cảm thấy thoải mái hơn. Tôi không phiền về sự tồn tại của các buồng vang độc lập mà mọi người cảm thấy hạnh phúc trong đó. Chỉ có vấn đề khi một số buồng vang được cho phép và những buồng khác thì không.
Hãy liên lạc với những người bạn đã mất liên lạc!
160
Hàng đầu
Thứ hạng
Yêu thích
