Я прочитал последнюю статью deepseek () Постараюсь объяснить на простом уровне, если есть ошибки, прошу указать. Это исследование (mHC) по сути предлагает «модель обновления с низкими затратами и высокой отдачей» для AI-индустрии. Эффективность модели: значительно улучшена «способность к мышлению», стала умнее: не меняя базовую архитектуру модели, mHC значительно повысила обработку AI. В тестах на логическое мышление и понимание прочитанного (таких как BBH и DROP) производительность увеличилась на 2,1% до 2,3%. Это означает, что модель будет вести себя больше как «эксперт», а не как «плеер». Стоимость обучения: крайне низкие потери производительности в обмен на высокую рентабельность: хотя эта новая технология увеличивает ширину передачи информации, благодаря глубокой оптимизации программного и аппаратного обеспечения, при фактическом обучении крупной модели с 27 миллиардами параметров время затрат увеличилось всего на 6,7%. Для инвесторов это означает, что с минимальными дополнительными затратами на электроэнергию и вычислительные мощности можно получить более высокую производительность модели. Стабильность обучения: избегание потерь активов из-за «сбоев в обучении», прощай зависания: предыдущие аналогичные попытки (такие как HC) также пытались расширить информационные каналы, но из-за отсутствия ограничений большие модели часто «сходили с ума» или давали сбой (прыжки потерь) в середине обучения, что приводило к потере ценных вычислительных ресурсов. mHC с помощью математического «заклинания баланса» (ограничение многообразия) обеспечивает исключительную устойчивость модели в процессе обучения, защищая дорогие вычислительные инвестиции от системных сбоев. Требования к памяти: решение «аппаратных узких мест» с помощью алгоритмических хитростей, умное использование памяти: эта технология расширила «полосы» информации в 4 раза, теоретически она требует много памяти. Но DeepSeek с помощью технологии, называемой «выборочным повторным вычислением», сэкономила огромное количество видеопамяти, потратив немного дополнительного времени на вычисления. Это позволяет существующим высококлассным видеокартам H100/H200 запускать такую более сложную архитектуру без увеличения аппаратных затрат. Будущий потенциал: разрушение традиционных пределов «накопления машин», новая точка роста: ранее повышение эффективности модели в основном зависело от «накопления данных» и «накопления GPU». mHC открывает третий путь: оптимизация внутреннего каркаса модели. Он доказал, что, улучшая способ соединения слоев, можно продолжать извлекать больше производительности, даже не увеличивая размер модели. Аналогия с точки зрения инвестора: если большая модель — это фабрика, то предыдущие обновления зависели от увеличения числа рабочих (увеличения параметров). А mHC, не увеличивая количество рабочих мест, переупорядочила конвейер и логистические каналы фабрики. Он как бы расширил конвейер в несколько раз для транспортировки большего количества деталей и с помощью точной системы управления движением обеспечил, чтобы фабрика не останавливалась из-за логистических заторов. В конечном итоге: эффективность фабрики значительно возросла, а ваши затраты на электроэнергию и обслуживание оборудования почти не изменились.
"mHC не уменьшает потребность в памяти для AI в корне, а наоборот, из-за своей многопоточной архитектуры увеличивает нагрузку на память" @rickawsb Посмотрел, что этот mHC теоретически требует больше памяти.
542