Це зламало мені мозок. Команда з Sea AI Lab щойно виявила, що більша частина хаосу в навчанні з підкріпленням, колапсах, нестабільних градієнтах, дрейфі висновків була викликана зовсім не алгоритмами. Це було викликано чисельною точністю. Стандартний формат BF16, який використовується майже в кожній сучасній лабораторії штучного інтелекту, вносить тонкі помилки округлення, які змушують моделі поводитися по-різному під час навчання та висновків. Яке їх рішення? Не новий оптимізатор. Не нова функція втрат. Просто переходячи на FP16. Один рядок коду і все стабілізувалося. ✅ Ніякого тренувального колапсу ✅ Постійна конвергенція ✅ Кращі результати на +5–10% ✅ Не потребує додаткового тюнінгу Вони назвали його «Перемога над невідповідністю між навчанням і висновком за допомогою FP16» Але його можна було просто назвати: «Як виправити RL, перевернувши одну біту». Папір: arxiv. org/abs/2510.26788