Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nathan Lambert
Исследовательские @allen_ai, рассуждения, открытые модели, РЛ(VR/КВ)...
Свяжитесь с нами по электронной почте.
Пишет @interconnectsai:
Написал книгу RLHF,
Горный бегун.
Я сильно чувствую, что, хотя я понимаю те трудности, с которыми они сталкиваются, чтобы это осуществить, это неправильное решение. То, что Arxiv представляет собой на практике, и то, что оно есть на самом деле, очень отличается.
На практике уже существуют правила модерации, но они так минимально исполняются (из-за перегруженности), что их фактически нет. Посмотрите на такие работы, как Шеффер, Райлан. "Предобучение на тестовом наборе — это все, что вам нужно." arXiv preprint arXiv:2309.08632 (2023). Много других случаев. Модерация Arxiv уже является непредсказуемой черной коробкой, которая затрудняет распространение исследований и предсказуемость исследовательской экосистемы.
Важно отметить, что у Arxiv есть политики, которые делают это, студенческие проекты, возможно, книга по RLHF и другие часто публикуемые вещи "неразрешенными."
На самом деле, Arxiv должен двигаться в другом направлении. Стать платформой, где все принимают ЛЮБОЕ исследование в области компьютерных наук, и выяснить, хорошее ли оно позже.
Это похоже на ранние стадии медленной смерти Arxiv. Через 2-3 года они скажут то же самое о "технических" исследованиях, а затем потребуют рецензирования. Все это просто задержит публикацию исследований, потому что рецензирование требует времени. В то же время рецензирование полностью перестраивается в эпоху ИИ, и это займет еще больше времени для исправления.
Рецензирование будет переработано как ИИ в первую очередь с человеческим контролем. В настоящее время предполагается, что это все человеческое. Это будет совершенно другой процесс через 20 лет.
После того как Arxiv введет требование рецензирования для технической работы, это будет медленная смерть платформы. Появится конкурент. Скользкая наклонная плоскость уже началась, и я рад проконсультироваться с командой по этому вопросу, так как это кажется взаимовыгодной сделкой.
Например, с этим я никогда не смогу опубликовать свой PDF книги по RLHF на Arxiv, хотя он был крайне востребован и, вероятно, является очень читаемым PDF (больше, чем большая часть моей исследовательской работы).
Сохраняйте arxiv как стандартный. Мы не хотим, чтобы это управлялось коммерческой компанией. Хостинг и открытый доступ к исследованиям — это фундаментальная победа для человечества. Выяснение того, как это курировать, — новая проблема для эпохи ИИ, пожалуйста, не оставляйте это нашим несколько сломанным институтам рецензирования. Сделайте это чем-то новым, что является родным для ИИ. Опережайте будущее.
Обновите политику Arxiv, чтобы отразить реальность, а не ускользающую цель, которую, вероятно, невозможно достичь.

Thomas G. Dietterich15 часов назад
Раздел Компьютерных Наук на @arxiv теперь требует предварительного рецензирования для Обзоров Литературы и Позиционных Документов. Подробности в новом блоге
112
Я убежден, что стоит попробовать это как можно скорее, нам всем стоит попробовать fp16, посмотри на этот график, чувак. FP16 — это как идеальное решение для снижения ошибок.
"Именно поэтому переход на FP16 предоставляет фундаментальное решение. С его 10 битами мантиссы FP16 предлагает в 8 раз больше точности (2^10 значений против 2^7 значений), чем BF16. Эта высокая точность означает, что выходные данные обучающих и инференсных движков гораздо более вероятно будут численно идентичны. Увеличенная точность создает буфер, который поглощает незначительные различия в реализации между двумя движками, предотвращая накопление ошибок округления и вызывая расхождение в политике.
Для тонкой настройки RL динамический диапазон весов и активаций модели уже был установлен во время предварительного обучения. Поэтому экстремальный диапазон BF16 менее критичен, в то время как точность, которую он жертвует, становится доминирующим недостатком. Путем возврата к FP16 мы обмениваем ненужный диапазон BF16 на критическую точность, эффективно сокращая разрыв между обучением и инференсом без каких-либо сложных алгоритмических или инженерных обходных путей."

48
Топ
Рейтинг
Избранное

