Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Emmett Shear
Генеральный директор Softmax: Прикладные исследования в области кибернетики
Очень классная работа Эрика, которая разъясняет, что движет распределением причинности на разных масштабах.

Erik Hoel23 окт., 01:52
НОВЫЙ ДОКЛАД:🚨🚨🚨
Улучшенная версия Causal Emergence 2.0 (лучше, быстрее, сильнее) от @Abelaer и меня теперь доступна.
Мы показываем, как проектировать системы так, чтобы они были либо действительно сложными (причинность распределена по многомасштабной структуре), ЛИБО имели всего лишь один возникающий макромасштаб.

7,49K
Лучшая часть здесь в том, что любой шрифт, с которым вы обучаетесь, станет подсознательным сигналом, и если вы измените шрифты в зависимости от источника данных, ИИ станет гораздо умнее.

Andrej Karpathy21 окт., 06:13
Мне довольно нравится новая работа DeepSeek-OCR. Это хорошая модель OCR (возможно, немного хуже, чем dots), и да, сбор данных и т.д., но в любом случае это не имеет значения.
Более интересная часть для меня (особенно как для человека, который по сути является специалистом по компьютерному зрению и временно маскируется под специалиста по естественному языку) заключается в том, являются ли пиксели лучшими входными данными для LLM, чем текст. Являются ли текстовые токены расточительными и просто ужасными на входе.
Возможно, имеет больше смысла, что все входные данные для LLM должны быть только изображениями. Даже если у вас есть чистый текстовый ввод, возможно, вы предпочли бы отобразить его, а затем подать это:
- больше сжатия информации (см. статью) => более короткие контекстные окна, больше эффективности
- значительно более общий поток информации => не только текст, но, например, жирный текст, цветной текст, произвольные изображения.
- ввод теперь можно обрабатывать с двунаправленным вниманием легко и по умолчанию, а не с авторегрессионным вниманием - это гораздо более мощно.
- удалить токенизатор (на входе)!! Я уже высказывался о том, как сильно я не люблю токенизатор. Токенизаторы уродливы, отдельны, не являются этапом end-to-end. Он "импортирует" всю уродливость Unicode, байтовых кодировок, наследует много исторического багажа, рисков безопасности/взлома (например, байты продолжения). Он делает так, что два символа, которые выглядят идентично для глаза, выглядят как два совершенно разных токена внутри сети. Улыбающийся эмодзи выглядит как странный токен, а не как... настоящая улыбающаяся мордочка, пиксели и все такое, и все обучение с переносом, которое это приносит. Токенизатор должен уйти.
OCR - это всего лишь одна из многих полезных задач преобразования изображения в текст. А задачи преобразования текста в текст могут быть преобразованы в задачи преобразования изображения в текст. Не наоборот.
Так что многие сообщения пользователей - это изображения, но декодер (ответ Ассистента) остается текстом. Намного менее очевидно, как реалистично выводить пиксели... или хотите ли вы этого.
Теперь мне также нужно бороться с желанием создать версию nanochat только с вводом изображений...
9,64K
Топ
Рейтинг
Избранное

