Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я прочитал последнюю статью deepseek ()
Постараюсь объяснить на простом уровне, если есть ошибки, прошу указать.
Это исследование (mHC) по сути предлагает «модель обновления с низкими затратами и высокой отдачей» для AI-индустрии.
Эффективность модели: значительно улучшена «способность к мышлению», стала умнее: не меняя базовую архитектуру модели, mHC значительно повысила обработку AI. В тестах на логическое мышление и понимание прочитанного (таких как BBH и DROP) производительность увеличилась на 2,1% до 2,3%. Это означает, что модель будет вести себя больше как «эксперт», а не как «плеер».
Стоимость обучения: крайне низкие потери производительности в обмен на высокую рентабельность: хотя эта новая технология увеличивает ширину передачи информации, благодаря глубокой оптимизации программного и аппаратного обеспечения, при фактическом обучении крупной модели с 27 миллиардами параметров время затрат увеличилось всего на 6,7%. Для инвесторов это означает, что с минимальными дополнительными затратами на электроэнергию и вычислительные мощности можно получить более высокую производительность модели.
Стабильность обучения: избегание потерь активов из-за «сбоев в обучении», прощай зависания: предыдущие аналогичные попытки (такие как HC) также пытались расширить информационные каналы, но из-за отсутствия ограничений большие модели часто «сходили с ума» или давали сбой (прыжки потерь) в середине обучения, что приводило к потере ценных вычислительных ресурсов. mHC с помощью математического «заклинания баланса» (ограничение многообразия) обеспечивает исключительную устойчивость модели в процессе обучения, защищая дорогие вычислительные инвестиции от системных сбоев.
Требования к памяти: решение «аппаратных узких мест» с помощью алгоритмических хитростей, умное использование памяти: эта технология расширила «полосы» информации в 4 раза, теоретически она требует много памяти. Но DeepSeek с помощью технологии, называемой «выборочным повторным вычислением», сэкономила огромное количество видеопамяти, потратив немного дополнительного времени на вычисления. Это позволяет существующим высококлассным видеокартам H100/H200 запускать такую более сложную архитектуру без увеличения аппаратных затрат.
Будущий потенциал: разрушение традиционных пределов «накопления машин», новая точка роста: ранее повышение эффективности модели в основном зависело от «накопления данных» и «накопления GPU». mHC открывает третий путь: оптимизация внутреннего каркаса модели. Он доказал, что, улучшая способ соединения слоев, можно продолжать извлекать больше производительности, даже не увеличивая размер модели.
Аналогия с точки зрения инвестора: если большая модель — это фабрика, то предыдущие обновления зависели от увеличения числа рабочих (увеличения параметров). А mHC, не увеличивая количество рабочих мест, переупорядочила конвейер и логистические каналы фабрики. Он как бы расширил конвейер в несколько раз для транспортировки большего количества деталей и с помощью точной системы управления движением обеспечил, чтобы фабрика не останавливалась из-за логистических заторов. В конечном итоге: эффективность фабрики значительно возросла, а ваши затраты на электроэнергию и обслуживание оборудования почти не изменились.

"mHC не уменьшает потребность в памяти для AI в корне, а наоборот, из-за своей многопоточной архитектуры увеличивает нагрузку на память"
@rickawsb Посмотрел, что этот mHC теоретически требует больше памяти.
542
Топ
Рейтинг
Избранное
