Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

cookies (🍪,🍪) | 饼妹
@monad | Мороженое Кабал 🍨
cookies (🍪,🍪) | 饼妹 сделал репост
Интересно, насколько хорошо SFT работает по сравнению с обучением в контексте.
ICL кажется черной магией - модель действительно усваивает множество неявной информации с эффективностью человеческого образца.
Если тонкая настройка может приблизиться к этому, возможно, вы сможете собрать что-то, что будет похоже на непрерывное обучение сверху?
Вот наивная идея: внутренний цикл, сделать SFT на резюме сессий. Внешний цикл, долгосрочное RL, где нужно использовать навыки и знания, которые должны передаваться между сессиями. Внешний цикл в основном рассматривает SFT как вызов инструмента, побуждая модель передавать как можно больше важной информации.
Мне интересно, будет ли что-то, что объединяет существующие техники, достаточно для непрерывного обучения, или нам нужна совершенно новая парадигма.
Я сделал интересную оценку Ферми с ChatGPT, чтобы получить некоторое представление об этом вопросе.
Вопрос, который вы могли бы задать, это: насколько сильно SFT (через LoRA) сжимает информацию по сравнению с обучением в контексте? И сравнить это с предварительным обучением просто для удовольствия.
Если есть огромная разница (то есть используется в несколько раз больше байтов для кешей KV по сравнению с весами LoRA), то это *может* указывать на то, что будет очень трудно, чтобы LoRA была такой же богатой и эффективной по образцам, как ICL.
Снова, это очень расплывчатая тема для обсуждения, а не серьезное исследование. Просто потому, что это использует гораздо меньше памяти, не обязательно означает, что это намного глупее и т.д.
Этот график для Llama 3 70 b (который был предварительно обучен на 15 триллионах токенов).
Как только мы поднимаемся до однозначных тысяч токенов, LoRA (размер которой не меняется в зависимости от количества токенов, на которых вы проводите тонкую настройку) начинает сжимать гораздо более плотно, чем ICL.
Как только у вас есть 100k токенов, токены, проходящие через LoRA с рангом 32, сжимаются в 37 раз больше, чем если бы они обрабатывались в контексте (через кеш KV).
Кстати: байты на обучающий токен для предварительного обучения невероятно низкие! (0.009 в этом случае).
Я сделал еще один график, на этот раз удерживая количество токенов постоянным на 100k и варьируя ранг LoRA.
Наивно, кажется, что ранг должен быть достаточно мал, чтобы составлять лишь небольшую долю от общих весов модели (иначе, зачем вообще использовать LoRA?), но также достаточно большим, чтобы содержать значительное количество информации, хранящейся в кешах KV. Так что вы можете увидеть, где может быть эта золотая середина.
В любом случае, эти графики не являются окончательными по поводу чего-либо. И, пожалуйста, извините за любые неловкие ошибки или недоразумения.
Хотелось бы получить реальные высокоуровневые мнения о том, насколько хорошо объединение SFT и RL будет работать в плане создания непрерывного обучения, которое мы видим с обучением в контексте между сессиями.


31,57K
cookies (🍪,🍪) | 饼妹 сделал репост
ByteDance Seed и Стэнфорд представляют Mixture of Contexts (MoC) для генерации длинных видео, решая проблему узкого места памяти с помощью нового модуля разреженной маршрутизации внимания.
Это позволяет создавать минутные последовательные видео по стоимости коротких видео.
27,31K
Топ
Рейтинг
Избранное