Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ed Sealing
<Rant> Я провел 25 лет в оборонной промышленности (более 8 лет в униформе, более 2 лет в зонах боевых действий).
Я не люблю КПК, но как бы я ни относился к правительству Китая, их компании, занимающиеся исследованиями в области ИИ, делают много хорошего и заслуживают некоторого признания.
Тем, кто считает, что Deepseek — это какой-то "плохой игрок", помните, что если бы они держали эти типы инноваций в секрете, вероятно, они бы обошли американские компании, и мы бы проиграли гонку в области ИИ. Компании, такие как @deepseek_ai и @Alibaba_Qwen, активно помогают продвигать SOTA ИИ в США и по всему миру, не прося ничего взамен.
И они делают это не из-за подавляющего давления <cough>gpt-oss<cough>, а потому что хотят поделиться своими исследованиями и моделями с людьми, которые используют их на своих частных данных, не беспокоясь о том, что их соберут третьи лица, используют для рекламы или поделятся.
В то время как такие компании, как Anthropic, активно пытаются продвигать больше регулирования, а OpenAI держит свои инновации, тесты и системы в секрете, эти китайские лаборатории продвигают отрасль вперед, в то время как их критикуют западные СМИ и NIST(?).
Молодцы. Продолжайте в том же духе.

Andrej Karpathy21 окт., 06:13
Мне довольно нравится новая работа DeepSeek-OCR. Это хорошая модель OCR (возможно, немного хуже, чем dots), и да, сбор данных и т.д., но в любом случае это не имеет значения.
Более интересная часть для меня (особенно как для человека, который по сути является специалистом по компьютерному зрению и временно маскируется под специалиста по естественному языку) заключается в том, являются ли пиксели лучшими входными данными для LLM, чем текст. Являются ли текстовые токены расточительными и просто ужасными на входе.
Возможно, имеет больше смысла, что все входные данные для LLM должны быть только изображениями. Даже если у вас есть чистый текстовый ввод, возможно, вы предпочли бы отобразить его, а затем подать это:
- больше сжатия информации (см. статью) => более короткие контекстные окна, больше эффективности
- значительно более общий поток информации => не только текст, но, например, жирный текст, цветной текст, произвольные изображения.
- ввод теперь можно обрабатывать с двунаправленным вниманием легко и по умолчанию, а не с авторегрессионным вниманием - это гораздо более мощно.
- удалить токенизатор (на входе)!! Я уже высказывался о том, как сильно я не люблю токенизатор. Токенизаторы уродливы, отдельны, не являются этапом end-to-end. Он "импортирует" всю уродливость Unicode, байтовых кодировок, наследует много исторического багажа, рисков безопасности/взлома (например, байты продолжения). Он делает так, что два символа, которые выглядят идентично для глаза, выглядят как два совершенно разных токена внутри сети. Улыбающийся эмодзи выглядит как странный токен, а не как... настоящая улыбающаяся мордочка, пиксели и все такое, и все обучение с переносом, которое это приносит. Токенизатор должен уйти.
OCR - это всего лишь одна из многих полезных задач преобразования изображения в текст. А задачи преобразования текста в текст могут быть преобразованы в задачи преобразования изображения в текст. Не наоборот.
Так что многие сообщения пользователей - это изображения, но декодер (ответ Ассистента) остается текстом. Намного менее очевидно, как реалистично выводить пиксели... или хотите ли вы этого.
Теперь мне также нужно бороться с желанием создать версию nanochat только с вводом изображений...
392,33K
Топ
Рейтинг
Избранное