Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Điều này làm tôi đau đầu.
Một nhóm tại Sea AI Lab vừa phát hiện ra rằng hầu hết sự hỗn loạn trong việc huấn luyện học tăng cường, sự sụp đổ, độ dốc không ổn định, và sự trôi dạt trong suy diễn không phải do các thuật toán gây ra.
Mà là do độ chính xác số.
Định dạng BF16 mặc định, được sử dụng ở hầu hết các phòng thí nghiệm AI hiện đại, gây ra những lỗi làm tròn tinh vi khiến các mô hình hành xử khác nhau trong quá trình huấn luyện và suy diễn.
Giải pháp của họ?
Không phải là một bộ tối ưu hóa mới.
Không phải là một hàm mất mát mới.
Chỉ cần chuyển sang FP16.
Một dòng mã và mọi thứ đã ổn định.
✅ Không còn sụp đổ trong huấn luyện
✅ Hội tụ nhất quán
✅ Kết quả tốt hơn từ 5–10%
✅ Không cần điều chỉnh thêm
Họ đã đặt tên cho nó là "Đánh bại sự không khớp giữa Huấn luyện và Suy diễn thông qua FP16," 
nhưng nó có thể chỉ đơn giản được gọi là:
"Cách sửa RL bằng cách đảo ngược một bit duy nhất."
Bài báo: arxiv. org/abs/2510.26788

Hàng đầu
Thứ hạng
Yêu thích

