Tôi đã quyết tâm thử ngay lập tức, chúng ta nên thử fp16, nhìn vào biểu đồ này đi. FP16 giống như hoàn hảo trong việc giảm lỗi. "Đây chính là lý do tại sao việc chuyển sang FP16 cung cấp một giải pháp cơ bản. Với 10 bit mantissa, FP16 cung cấp độ chính xác gấp 8 lần (2^10 giá trị so với 2^7 giá trị) so với BF16. Độ trung thực cao hơn có nghĩa là đầu ra của các động cơ đào tạo và suy diễn có khả năng giống hệt nhau về mặt số học. Độ chính xác tăng lên tạo ra một bộ đệm hấp thụ những khác biệt nhỏ trong việc triển khai giữa hai động cơ, ngăn chặn các lỗi làm tròn tích lũy và gây ra sự phân kỳ chính sách. Đối với việc tinh chỉnh RL, phạm vi động của trọng số và kích hoạt của mô hình đã được thiết lập trong quá trình tiền đào tạo. Do đó, phạm vi cực đoan của BF16 ít quan trọng hơn, trong khi độ chính xác mà nó hy sinh trở thành một nhược điểm chính. Bằng cách quay lại FP16, chúng ta trao đổi phạm vi không cần thiết của BF16 để lấy độ chính xác quan trọng, hiệu quả thu hẹp khoảng cách giữa đào tạo và suy diễn mà không cần bất kỳ giải pháp thuật toán hoặc kỹ thuật phức tạp nào."
từ khóa "thử" nó, có nhiều thứ có thể cản trở việc mở rộng điều này, nhưng đôi khi mọi thứ hoạt động như thế này. Không có phương thuốc kỳ diệu, nhưng đôi khi có những chiến thắng dễ dàng.
Tôi cá là nó thay đổi rất nhiều tùy theo mô hình và các chi tiết triển khai khác.
trở nên ít thuyết phục hơn theo thời gian, chỉ cần theo dõi @finbarrtimbers
135,29K