Khi nói đến đào tạo phân tán AI, tôi nhận thấy rằng những người trong lĩnh vực web2AI thường gán cho nó cái mũ "ngụy biện", lý do là thiết bị tính toán có thể được tập hợp lại, nhưng sự hợp tác hiệu quả trong phân tán lại gặp phải chi phí băng thông khủng khiếp? Gần đây, @0G_labs đã phát hành bài báo DiLoCox, dường như mục tiêu là để giải quyết vấn đề này? Hãy cùng thảo luận chi tiết: 1) Trước tiên, hãy nói về lý do tại sao đào tạo phân tán được coi là "ngụy biện". Mâu thuẫn cốt lõi rất đơn giản: bạn muốn thay thế 100 GPU rẻ bằng 100 A100, có vẻ như tiết kiệm được 90% chi phí phần cứng, nhưng 100 GPU này phải giữ đồng bộ trong đào tạo, mỗi epoch đều phải trao đổi dữ liệu gradient lên tới TB. Giải pháp truyền thống cần băng thông chuyên dụng 100Gbps, và để đạt được mạng cấp trung tâm dữ liệu 100Gbps, tiền thuê hàng tháng có thể lên tới hàng chục nghìn đô la. Tính toán lại, số tiền bạn tiết kiệm được từ GPU lại đổ vào băng thông, thậm chí còn lỗ. Theo logic này, bạn đã tiết kiệm chi phí máy móc nhưng lại phát sinh thêm chi phí băng thông, không phải là vẫn chưa giải quyết được vấn đề? Vì vậy, lý do bị chỉ trích là ngụy biện vẫn nằm ở đây. 2) Bài báo DiLoCoX của 0G thu hút sự chú ý vì họ tuyên bố đã đào tạo mô hình 107B tham số trên mạng 1Gbps (băng thông văn phòng thông thường), tốc độ nhanh hơn 357 lần so với giải pháp AllReduce truyền thống. Con số này thực sự gây sốc - hãy biết rằng, 1Gbps so với 100Gbps, băng thông chênh lệch 100 lần, nhưng tốc độ đào tạo lại tăng 357 lần? Cụ thể họ đã làm như thế nào? Sau khi nghiên cứu sơ bộ, tôi phát hiện ra rằng giải pháp này đã thực hiện bốn tối ưu hóa: Pipeline Parallelism chia nhỏ mô hình để xử lý từng phần; Dual Optimizer Policy sử dụng chiến lược tối ưu hóa kép để giảm tần suất đồng bộ; One-Step-Delay Overlap cho phép giao tiếp và tính toán song song mà không phải chờ đợi nhau; Adaptive Gradient Compression thông minh nén gradient. Nói một cách đơn giản, họ đã thay đổi yêu cầu "đồng bộ mạnh thời gian thực" thành "đồng bộ yếu không đồng bộ", và "truyền tải toàn bộ dữ liệu" thành "truyền tải gia tăng nén". Để so sánh, giải pháp truyền thống giống như 100 người tham gia hội nghị video trực tiếp, mỗi hành động của mỗi người đều phải được phát trực tiếp đồng bộ, trong khi DiLoCoX giống như mọi người tự ghi hình, sau đó chỉ gửi khung hình chính và các phần thay đổi. Khối lượng giao tiếp giảm 100 lần, nhưng độ hoàn chỉnh thông tin vẫn giữ trên 99%. Tại sao điều này khả thi? Theo tôi, cốt lõi nằm ở việc họ nắm bắt được một đặc điểm của đào tạo AI - khả năng chịu lỗi. Đào tạo mô hình không giống như chuyển tiền, thiếu một xu cũng không được. Cập nhật gradient có chút sai lệch, đồng bộ có chút trễ, cuối cùng hiệu quả hội tụ của mô hình bị ảnh hưởng rất ít. DiLoCoX đã tận dụng "không gian chịu lỗi" này, chấp nhận một mức độ mất độ chính xác để đổi lấy sự tăng trưởng hiệu suất theo cấp số nhân. Đây là tư duy kỹ thuật điển hình - không theo đuổi sự hoàn hảo, mà theo đuổi tỷ lệ chi phí - hiệu quả tối ưu. 3) Nhưng chỉ giải quyết vấn đề băng thông là chưa đủ, tham vọng của 0G rõ ràng còn lớn hơn. Nhìn vào kiến trúc tổng thể của họ, bạn sẽ hiểu: họ còn có lớp lưu trữ Storage $10/TB tuyên bố trực tiếp nghiền nát Filecoin, lớp DA được thiết kế đặc biệt cho AI, đạt được thông lượng cấp GB. Lý do họ có thể thực hiện thiết kế lưu trữ rẻ hơn 100 lần, nói thẳng ra cũng là do đã thực hiện tối ưu hóa đặc biệt cho các tình huống đào tạo AI, chẳng hạn như, các dữ liệu TB được tạo ra trong quá trình đào tạo như checkpoint, nhật ký, vòng đời chỉ vài ngày, thực sự không cần phải đạt được "lưu trữ vĩnh viễn" một cách nghiêm ngặt. Vì vậy, thực tế họ đã áp dụng giải pháp "lưu trữ phân lớp" thực dụng, chỉ cung cấp dịch vụ ở cấp độ tương ứng khi cần - dữ liệu nóng đọc/ghi nhanh nhưng đắt hơn, dữ liệu lạnh rẻ nhưng chậm hơn, dữ liệu tạm thời sử dụng xong thì xóa đi là rẻ nhất. Và chính sự định giá khác biệt này đã trực tiếp nhắm vào vấn đề cốt lõi của đào tạo AI. Trên đây. Có thể thấy, trong quá trình đào tạo AI, vấn đề về sức mạnh tính toán, lưu trữ, và lưu thông dữ liệu, 0G Labs đều có ý định làm cho phù hợp với AI. Thậm chí cả cơ chế đồng thuận cũng đã được tối ưu hóa cho AI. Họ sử dụng phiên bản cải tiến của CometBFT, 2500+ TPS kết hợp với độ hoàn tất dưới một giây, được điều chỉnh đặc biệt cho đặc tính không đồng bộ của workload AI, v.v. Nói cách khác, 0G không phải là "vá" hỗ trợ AI trên blockchain hiện có, mà là thiết kế từ đầu một cơ sở hạ tầng "AI Native". Còn liệu cuối cùng có thể nhận được xác thực thương mại ở cấp ứng dụng dưới áp lực cạnh tranh với AI truyền thống hay không, cần phải tiếp tục theo dõi, nhưng tư duy phá vỡ khác biệt này rất đáng để tham khảo.
4,95K