Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Jeffrey Emanuel

Только что пришла в голову случайная мысль: LLM, такие как ChatGPT, должны быть огромным подспорьем для некомпетентных министров правительства в маленьких странах, которые получили свои должности через непотизм или патронажные сети. Эти люди часто имеют реальную власть, но они часто вынуждены скрывать свою некомпетентность от подчиненных, от политических правителей и от населения, по очевидным причинам. Например, я уверен, что есть министры горнодобывающей промышленности, которые очень мало знают о горном деле, бизнесе или экономике, но тем не менее отвечают за переговоры с высококвалифицированными международными горнодобывающими компаниями. Или губернаторы центральных банков, которые на самом деле не понимают основ макроэкономики или как работают кредиты и инфляция. Ранее этим людям в основном приходилось "импровизировать" и надеяться на лучшее, или же полагаться на своих немного менее некомпетентных подчиненных и молиться, чтобы все не пошло слишком плохо. Или они могли тратить много денег на экспертов-консультантов, что имеет свои недостатки. Теперь эти министры могут просто открыть ChatGPT в уединении своего офиса и объяснить свои проблемы и решения, которые им нужно принять, загрузить документы и формы из МВФ или откуда угодно, и получить довольно хорошие экспертные советы бесплатно от передовой модели. Все это без раскрытия кому-либо того, что они не знают, что делают. Было бы так интересно узнать, сколько людей используют LLM таким образом сегодня. Это кажется хорошей вещью. В мире очень не хватает экспертизы. Или скорее, те, кто имеет доступ к власти, часто не являются теми, кто обладает соответствующими навыками или знаниями. Я просто надеюсь, что эти люди оформляют подписку за 200 долларов в месяц и используют модель GPT-5 Pro. Но я немного сомневаюсь, что это так…

DeepSeek только что выпустил довольно шокирующую новую статью. Они действительно закопали суть, просто назвав это DeepSeek OCR. Хотя это очень мощная модель OCR, ее цель и последствия их подхода выходят далеко за рамки того, что вы могли бы ожидать от "еще одной модели OCR". Традиционно токены визуальных LLM казались почти второстепенными или "дополнением" к парадигме LLM. И 10 тысяч слов на английском занимали бы гораздо больше места в мультимодальном LLM, когда они выражены в понятных пикселях, чем когда они выражены в токенах. Таким образом, эти 10 тысяч слов могли превратиться в 15 тысяч токенов или 30-60 тысяч "визуальных токенов". Поэтому визуальные токены были гораздо менее эффективными и действительно имели смысл использовать только для данных, которые нельзя было эффективно передать словами. Но теперь это перевернуто благодаря идеям в этой статье. DeepSeek выяснил, как добиться в 10 раз лучшего сжатия, используя визуальные токены, чем с текстовыми токенами! Таким образом, вы теоретически могли бы хранить эти 10 тысяч слов всего в 1,500 их специальных сжатых визуальных токенов. Это может быть не так неожиданно, как звучит, если подумать о том, как работает ваш собственный разум. В конце концов, я знаю, что когда я ищу часть книги, которую уже читал, я представляю ее визуально и всегда помню, с какой стороны книги она была и примерно где на странице, что предполагает наличие какого-то визуального представления памяти. Теперь неясно, как именно это взаимодействует с другими когнитивными функциями LLM; может ли модель рассуждать так же интеллигентно над этими сжатыми визуальными токенами, как она может использовать обычные текстовые токены? Делает ли это модель менее выразительной, заставляя ее работать в более ориентированной на визуализацию модальности? Но вы можете представить, что в зависимости от точных компромиссов это может быть очень захватывающая новая ось для значительного расширения эффективных размеров контекста. Особенно в сочетании с другой недавней статьей DeepSeek, опубликованной пару недель назад, о разреженном внимании. Насколько нам известно, Google мог уже выяснить что-то подобное, что могло бы объяснить, почему Gemini имеет такой огромный размер контекста и так хорошо и быстро справляется с задачами OCR. Если это так, они, вероятно, не скажут, потому что это будет рассматриваться как важная коммерческая тайна. Но хорошая новость в том, что DeepSeek сделал все это открытым исходным кодом и открытыми весами и объяснил, как они это сделали, так что теперь каждый может попробовать и исследовать. Даже если эти трюки делают внимание более потерянным, потенциал получения передового LLM с окном контекста в 10 или 20 миллионов токенов довольно захватывающий. Вы могли бы втиснуть все ключевые внутренние документы компании в предисловие запроса и кэшировать это с OpenAI, а затем просто добавить свой конкретный запрос или подсказку сверху и не иметь дело с инструментами поиска, при этом все еще оставаясь быстрым и экономически эффективным. Или поместить всю кодовую базу в контекст и кэшировать ее, а затем просто продолжать добавлять эквивалент git diffs по мере внесения изменений в код. Если вы когда-либо читали истории о великом физике Хансе Бете, он был известен тем, что запомнил огромное количество случайных физических фактов (например, всю периодическую таблицу; температуры кипения различных веществ и т. д.), чтобы он мог бесшовно мыслить и вычислять, не прерывая свой поток, чтобы что-то найти в справочной таблице. Наличие огромного количества специфических для задачи знаний в вашей рабочей памяти чрезвычайно полезно. Это кажется очень умным и добавляющим подходом к потенциальному расширению этого банка памяти в 10 раз или более.

Топ

Рейтинг

Избранное