Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Ed Sealing

<Rant> Я провел 25 лет в оборонной промышленности (более 8 лет в униформе, более 2 лет в зонах боевых действий). Я не люблю КПК, но как бы я ни относился к правительству Китая, их компании, занимающиеся исследованиями в области ИИ, делают много хорошего и заслуживают некоторого признания. Тем, кто считает, что Deepseek — это какой-то "плохой игрок", помните, что если бы они держали эти типы инноваций в секрете, вероятно, они бы обошли американские компании, и мы бы проиграли гонку в области ИИ. Компании, такие как @deepseek_ai и @Alibaba_Qwen, активно помогают продвигать SOTA ИИ в США и по всему миру, не прося ничего взамен. И они делают это не из-за подавляющего давления <cough>gpt-oss<cough>, а потому что хотят поделиться своими исследованиями и моделями с людьми, которые используют их на своих частных данных, не беспокоясь о том, что их соберут третьи лица, используют для рекламы или поделятся. В то время как такие компании, как Anthropic, активно пытаются продвигать больше регулирования, а OpenAI держит свои инновации, тесты и системы в секрете, эти китайские лаборатории продвигают отрасль вперед, в то время как их критикуют западные СМИ и NIST(?). Молодцы. Продолжайте в том же духе.

Мне довольно нравится новая работа DeepSeek-OCR. Это хорошая модель OCR (возможно, немного хуже, чем dots), и да, сбор данных и т.д., но в любом случае это не имеет значения. Более интересная часть для меня (особенно как для человека, который по сути является специалистом по компьютерному зрению и временно маскируется под специалиста по естественному языку) заключается в том, являются ли пиксели лучшими входными данными для LLM, чем текст. Являются ли текстовые токены расточительными и просто ужасными на входе. Возможно, имеет больше смысла, что все входные данные для LLM должны быть только изображениями. Даже если у вас есть чистый текстовый ввод, возможно, вы предпочли бы отобразить его, а затем подать это: - больше сжатия информации (см. статью) => более короткие контекстные окна, больше эффективности - значительно более общий поток информации => не только текст, но, например, жирный текст, цветной текст, произвольные изображения. - ввод теперь можно обрабатывать с двунаправленным вниманием легко и по умолчанию, а не с авторегрессионным вниманием - это гораздо более мощно. - удалить токенизатор (на входе)!! Я уже высказывался о том, как сильно я не люблю токенизатор. Токенизаторы уродливы, отдельны, не являются этапом end-to-end. Он "импортирует" всю уродливость Unicode, байтовых кодировок, наследует много исторического багажа, рисков безопасности/взлома (например, байты продолжения). Он делает так, что два символа, которые выглядят идентично для глаза, выглядят как два совершенно разных токена внутри сети. Улыбающийся эмодзи выглядит как странный токен, а не как... настоящая улыбающаяся мордочка, пиксели и все такое, и все обучение с переносом, которое это приносит. Токенизатор должен уйти. OCR - это всего лишь одна из многих полезных задач преобразования изображения в текст. А задачи преобразования текста в текст могут быть преобразованы в задачи преобразования изображения в текст. Не наоборот. Так что многие сообщения пользователей - это изображения, но декодер (ответ Ассистента) остается текстом. Намного менее очевидно, как реалистично выводить пиксели... или хотите ли вы этого. Теперь мне также нужно бороться с желанием создать версию nanochat только с вводом изображений...

Топ

Рейтинг

Избранное