Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Một sự mở khóa hạ tầng khổng lồ từ người sáng lập @_xjdr.
XJDR là một nhà khoa học điên rồ nên tôi đã phải mất vài lần để hiểu (và tôi vẫn nghĩ rằng có lẽ tôi không hoàn toàn hiểu được tiềm năng)
Ông ấy đang hoàn toàn viết lại ngăn xếp đào tạo cho các mô hình Mixture of Experts MoE (kiến trúc đứng sau DeepSeek) cho các nhà nghiên cứu có tính toán hạn chế (tức là thế giới bên ngoài các nhà cung cấp dịch vụ lớn)
Thông thường, việc đào tạo những mô hình thưa này yêu cầu các cụm GPU khổng lồ và rất không ổn định. XJDR đã xây dựng một ngăn xếp mới từ đầu để làm cho nó hiệu quả trên chỉ một nút duy nhất
Hạ tầng tiêu chuẩn: Yêu cầu các cụm GPU khổng lồ (thường không ổn định)
Ngăn xếp của XJDR: Tăng trưởng có thể dự đoán trên một GPU đến 8 nút GPU.
Điểm tinh tế ở đây là thay vì dựa vào tính toán brute force để làm mượt các lỗi, ông ấy đã giải quyết các nút thắt kỹ thuật cụ thể như sự sụp đổ của bộ định tuyến để làm cho việc đào tạo độ chính xác hỗn hợp ổn định trên phần cứng nhỏ.
Ông ấy cũng đã xây dựng một pipeline dữ liệu cấp biên giới nơi 120B mô hình oracle đánh giá dữ liệu để đảm bảo các mô hình nhỏ hơn học nhanh hơn.
Tóm lại: Ông ấy đang mở mã nguồn toàn bộ kho nhà máy, công cụ dữ liệu và trọng số để dân chủ hóa khả năng nghiên cứu cấp Google cho từng cá nhân.
Chúc mừng @_xjdr. Chúng tôi rất hào hứng khi được là một phần nhỏ trong hành trình của bạn. Có thể nói là vô cùng phấn khích khi bạn chia sẻ công việc của mình.
Hàng đầu
Thứ hạng
Yêu thích
