Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Marvin Tong (t/acc)

Máy tin cậy @PhalaNetwork, @redpill_gpt ChatGPT riêng tư, @pakafund đầu tư

họ đã đổi mới cấu trúc nền tảng mà các công ty AI đã sử dụng trong nhiều năm... thật ấn tượng!

Đọc nhanh qua bài báo về Kết nối Siêu hạn chế Manifold của Deepseek: - Bạn muốn tăng kích thước dư thừa từ 1×C lên n×C (n luồng thay vì 1). Cập nhật dư thừa trước đây: x' = x + layer(x). Hãy để x là n×C, và sử dụng x' = Ax + B layer(Cx) thay vào đó. A, B, C đều phụ thuộc vào x và là các ma trận nhỏ (n×n, n×1, n×1). A có vẻ là yếu tố ảnh hưởng nhất. Đây là Kết nối Siêu hạn chế (HC). - HC có vấn đề giống như các phương pháp sửa đổi dư thừa khác - cuối cùng sản phẩm của các ma trận A đã học (dọc theo đường đi đồng nhất) sẽ bùng nổ/biến mất. - Để khắc phục điều này, họ chiếu các ma trận A lên polytope Birkhoff (nói đơn giản: biến đổi nó, sau khi exp để làm cho các phần tử dương, thành một ma trận mà tổng hàng và tổng cột trở thành 1 - gọi là ma trận doubly stochastic). Điều này có những đặc tính tốt - sản phẩm của các loại ma trận này vẫn có tổng hàng và tổng cột là 1 (do tính đóng), vì vậy mọi thứ không bùng nổ (ràng buộc quang phổ), và bất biến là tổng trọng số qua các luồng là 1. Đối với n = 1, điều này trở thành luồng dư thừa tiêu chuẩn, điều này thật tốt. Phương pháp biến đổi của họ rất đơn giản - lần lượt chia các hàng và cột theo tổng hàng và tổng cột tương ứng trong 20 lần lặp (hội tụ về ma trận mong muốn khi số lần lặp tiến tới vô cực). Họ thấy 20 là đủ tốt cho cả quá trình tiến và lùi (trong 60 lớp, lợi ích tối đa khi lùi là 1.6 so với 3000 từ HC thông thường, và 1.6 không khác xa so với 1). - Việc kết hợp các ma trận này (hình chóp lồi của tất cả các ma trận hoán vị) dẫn đến việc trộn thông tin khi chỉ số lớp tăng lên, điều này là một mảnh trực giác hay và cũng được thể hiện rất rõ trong ma trận tổng hợp của họ cho 60 lớp. Tôi tin rằng tổng thể chúng ta có một tổng trọng số của các đường dẫn dư thừa (nghĩ về độ dốc), nơi các đường dẫn có thể nhóm lại một cách hợp lý có trọng số tổng cộng bằng 1. Cách tiếp cận rất có nguyên tắc theo ý kiến của tôi, cũng làm cho lợi ích (tiến và lùi) rất ổn định. - Điều thú vị cần lưu ý - nhiều sự trộn lẫn giống như "pooling" trong nửa đầu so với nửa sau của các lớp. Nửa sau của các lớp xử lý các kênh khác nhau một cách chính xác/hay hơn so với nửa đầu, rất trực quan. - Họ cũng thay đổi tham số hóa của B và C (sigmoid thay vì tanh, có lẽ để tránh thay đổi dấu, và một yếu tố 2 ở phía trước B, tôi tin là để bảo tồn hệ số dư thừa trung bình, C không cần điều này vì đầu vào đã được chuẩn hóa trước). - Những tối ưu hóa hệ thống thú vị để làm cho phép toán này nhanh - họ thực hiện hợp nhất kernel, tính toán lại trong quá trình lùi mHC, và thậm chí sửa đổi DualPipe (triển khai song song của họ). - Chỉ có 6.7% chi phí thêm trong đào tạo khi n = 4, tổn thất giảm 0.02 và có sự cải thiện trên các tiêu chuẩn.

Hàng đầu

Thứ hạng

Yêu thích