Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tim Dettmers
Tim Dettmers сделал репост
Представляем DeepConf: Глубокое мышление с уверенностью
🚀 Первый метод для достижения 99.9% на AIME 2025 с использованием открытых моделей! Используя GPT-OSS-120B даже без инструментов, мы достигли этой почти идеальной точности, сэкономив до 85% сгенерированных токенов.
Это также предоставляет множество сильных преимуществ для параллельного мышления:
🔥 Увеличение производительности: ~10% точности по моделям и наборам данных
⚡ Ультраэффективность: до 85% меньше сгенерированных токенов
🔧 Подключи и работай: Работает с ЛЮБОЙ существующей моделью - нулевое обучение не требуется (также без настройки гиперпараметров!)
⭐ Легкость развертывания: всего ~50 строк кода в vLLM (см. PR ниже)
📚 Статья:
🌐 Проект:
совместная работа с: @FuYichao123 , xuewei_wang, @tydsh
(см. детали в комментариях ниже)
408,73K
Tim Dettmers сделал репост
Можем ли мы преодолеть стену памяти для вывода LLM через рематериализацию кэша KV?
🚨 Представляем XQuant, который использует недоиспользуемые вычислительные единицы для устранения узкого места памяти при выводе LLM!
• Экономия памяти 10–12.5x по сравнению с FP16
• Почти нулевая потеря точности
• Обходит передовые технологии квантования KV🔥
Ключевые идеи:
1. Кэш KV = узкое место → растет линейно с длиной контекста + размером пакета.
2. Вычисления >> память → GPU предлагают FLOPs на порядки быстрее, чем пропускная способность памяти.
3. Ключевая идея → не хранить KV, а просто пересчитывать его. 🧠
Поскольку вывод LLM обычно ограничен пропускной способностью памяти, вычислительные единицы часто простаивают и недоиспользуются. Поэтому мы можем использовать эти доступные вычисления без каких-либо накладных расходов!
Тенденции аппаратного обеспечения GPU показывают, что вычислительные возможности масштабируются гораздо быстрее, чем пропускная способность памяти. Таким образом, сокращение операций с памятью в обмен на большее количество вычислений может помочь ускорить вывод LLM. Кэш KV растет линейно с длиной последовательности и размером пакета, что приводит к большинству операций с памятью во время вывода LLM. Если мы можем обменять дополнительные вычисления, чтобы избежать загрузки и хранения кэша KV, мы можем ускорить вывод!
XQuant использует эту аппаратную тенденцию: 🧵 [1/7]
Статья:
Совместная работа с: @coleman_hooper1 @mjlee_official от @FuriosaAI @HaochengXiUCB @rish2k1 Вонжун Кан от @FuriosaAI @lucamanolache0 Майкл Махони @KurtKeutzer @amir__gholami

32,44K
Топ
Рейтинг
Избранное