Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Це зламало мені мозок.
Команда з Sea AI Lab щойно виявила, що більша частина хаосу в навчанні з підкріпленням, колапсах, нестабільних градієнтах, дрейфі висновків була викликана зовсім не алгоритмами.
Це було викликано чисельною точністю.
Стандартний формат BF16, який використовується майже в кожній сучасній лабораторії штучного інтелекту, вносить тонкі помилки округлення, які змушують моделі поводитися по-різному під час навчання та висновків.
Яке їх рішення?
Не новий оптимізатор.
Не нова функція втрат.
Просто переходячи на FP16.
Один рядок коду і все стабілізувалося.
✅ Ніякого тренувального колапсу
✅ Постійна конвергенція
✅ Кращі результати на +5–10%
✅ Не потребує додаткового тюнінгу
Вони назвали його «Перемога над невідповідністю між навчанням і висновком за допомогою FP16»
Але його можна було просто назвати:
«Як виправити RL, перевернувши одну біту».
Папір: arxiv. org/abs/2510.26788

Найкращі
Рейтинг
Вибране

