FP16 может иметь меньший разрыв между обучением и выводом по сравнению с BFloat16, что делает его более подходящим для RL. Даже разница между алгоритмами RL исчезает, как только FP16 принимается. Удивительно!
Обучение LLM от начала до конца сложно. Очень рад поделиться нашим новым блогом (книгой?), который охватывает весь процесс: предобучение, постобучение и инфраструктура. Более 200 страниц о том, что сработало, что не сработало и как сделать так, чтобы это работало надежно