Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tim Dettmers
Користувач Tim Dettmers поділився
Представляємо DeepConf: Глибоке мислення з упевненістю
🚀 Перший метод досягти 99,9% на AIME 2025 за допомогою моделей з відкритим вихідним кодом! Використовуючи GPT-OSS-120B навіть без інструментів, ми досягли цієї майже ідеальної точності, зберігаючи до 85% згенерованих токенів.
Це також дає багато сильних переваг для паралельного мислення:
🔥 Підвищення продуктивності: точність ~10% для моделей і наборів даних
⚡ Надефективний: до 85% менше згенерованих токенів
🔧 Plug & play: працює з БУДЬ-ЯКОЮ існуючою моделлю - не потрібно тренуватися (також без налаштування гіперпараметрів!)
⭐ Легко розгортати: всього ~50 рядків коду в vLLM (див. PR нижче)
📚 Папір:
🌐 Проект:
Спільна робота з: @FuYichao123 , xuewei_wang @tydsh
(подробиці дивіться в коментарях нижче)
408,73K
Користувач Tim Dettmers поділився
Чи можемо ми зламати стіну пам'яті для висновування LLM за допомогою рематеріалізації кешу KV?
🚨 Представляємо XQuant, який використовує недостатньо використовувані обчислювальні блоки для усунення вузького місця в пам'яті для висновків LLM!
• Економія пам'яті в 10–12,5 разів порівняно з FP16
• Майже нульова втрата точності
• Перевершує найсучасніше квантування🔥 KV
Ключові висновки:
1. Кеш KV = вузьке місце, → зростає лінійно з довжиною контексту + розміром партії.
2. Обчислення >> пам'яті → графічні процесори пропонують FLOP на порядки швидше, ніж пропускна здатність пам'яті.
3. Ключова ідея → не зберігати KV, а просто переобчислити його. 🧠
Оскільки висновок LLM зазвичай обмежений пропускною здатністю пам'яті, обчислювальні блоки часто простоюють і використовуються недостатньо. Отже, ми можемо використовувати цей доступний обчислення без будь-яких накладних витрат!
Тенденції апаратного забезпечення графічних процесорів показують, що обчислювальні можливості масштабуються набагато швидше, ніж пропускна здатність пам'яті. Таким чином, зменшення операцій з пам'яттю в обмін на більшу кількість обчислень може допомогти прискорити висновок LLM. Кеш KV зростає лінійно зі збільшенням довжини послідовності та розміру пакета, беручи на себе більшість операцій з пам'яттю під час висновування LLM. Якщо ми зможемо обміняти додаткові обчислення, щоб обійти завантаження та зберігання кешу KV, ми зможемо прискорити висновок!
XQuant використовує цю апаратну тенденцію: 🧵 [1/7]
Папір:
Спільна робота з: @coleman_hooper1 @mjlee_official від @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang від @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,44K
Найкращі
Рейтинг
Вибране