Мне интересно, можно ли расширить концепцию "пиксели против токенов" на "аудио против текста". Большинство языков, когда-либо spoken, не имеют письменной формы. Так много богатой информации (тон, подтекст, просодия) теряется, когда мы упрощаем spoken слова в транскрипцию. Это может быть интересным экспериментом сравнить "грамотные" LLM (обученные на изображениях текста) с "устными" LLM (обученными на сыром аудио), проводя параллель с человеческими обществами: одни думают в символах и пространстве, другие в ритме и времени.
Andrej Karpathy
Andrej Karpathy21 окт., 06:13
Мне довольно нравится новая работа DeepSeek-OCR. Это хорошая модель OCR (возможно, немного хуже, чем dots), и да, сбор данных и т.д., но в любом случае это не имеет значения. Более интересная часть для меня (особенно как для человека, который по сути является специалистом по компьютерному зрению и временно маскируется под специалиста по естественному языку) заключается в том, являются ли пиксели лучшими входными данными для LLM, чем текст. Являются ли текстовые токены расточительными и просто ужасными на входе. Возможно, имеет больше смысла, что все входные данные для LLM должны быть только изображениями. Даже если у вас есть чистый текстовый ввод, возможно, вы предпочли бы отобразить его, а затем подать это: - больше сжатия информации (см. статью) => более короткие контекстные окна, больше эффективности - значительно более общий поток информации => не только текст, но, например, жирный текст, цветной текст, произвольные изображения. - ввод теперь можно обрабатывать с двунаправленным вниманием легко и по умолчанию, а не с авторегрессионным вниманием - это гораздо более мощно. - удалить токенизатор (на входе)!! Я уже высказывался о том, как сильно я не люблю токенизатор. Токенизаторы уродливы, отдельны, не являются этапом end-to-end. Он "импортирует" всю уродливость Unicode, байтовых кодировок, наследует много исторического багажа, рисков безопасности/взлома (например, байты продолжения). Он делает так, что два символа, которые выглядят идентично для глаза, выглядят как два совершенно разных токена внутри сети. Улыбающийся эмодзи выглядит как странный токен, а не как... настоящая улыбающаяся мордочка, пиксели и все такое, и все обучение с переносом, которое это приносит. Токенизатор должен уйти. OCR - это всего лишь одна из многих полезных задач преобразования изображения в текст. А задачи преобразования текста в текст могут быть преобразованы в задачи преобразования изображения в текст. Не наоборот. Так что многие сообщения пользователей - это изображения, но декодер (ответ Ассистента) остается текстом. Намного менее очевидно, как реалистично выводить пиксели... или хотите ли вы этого. Теперь мне также нужно бороться с желанием создать версию nanochat только с вводом изображений...
это будет игра между цивилизацией, которая строит памятники из камня, и той, которая строит памятники в песнях
другая вещь, которая приходит на ум, это "Озимандия" Шелли, колоссальные реликвии, погребенные в песке, и все же этот образ передается не через собственные глаза поэта, а через устное повествование путешественника.
7,85K