Мой первый пост в @delphi_intel посвящен видеомоделям поколения AI. Краткое содержание ниже (1/10) 👇 s/o to @moonshot6666 за его отзыв об этом эссе и @PJaccetturo за это крутое хайповое видео, которое я бесстыдно украду. Вкратце: видео отстают от текста на 2-3 года. Они становятся очень хорошими, очень быстрыми
1. Люди — визуальные существа. Модальность контента Gen AI, вероятно, будет стремиться к распределению, аналогичному вебу:
2. Рынок большой: >40 млрд+ долларов США к 2030 году (с соответствующими соседями). Прорыв в маркетинге, развлечениях и образовании очевиден, но также очевидны последствия для робототехники, слежки и долгосрочных агентских задач
3. Ландшафт имеет большую конкуренцию между стеками Включает в себя модельные компании, мультимодальные приложения, говорящие аватары, синхронизацию губ и многое другое. Не говоря уже обо всей инфраструктуре, необходимой для поддержки настоящих мультимодальных моделей и приложений. s/o to @venturetwins и @a16z для карты
4. Восток против Запада. Гонка в значительной степени разделена между США и Китаем. По видеомоделям лидирует Китай (9 из 15 лучших моделей) ж/о @ArtificialAnlys
6. Преимущество Big Tech: передача этих новых возможностей в экосистемы пользователей >1b обеспечит высокую рентабельность инвестиций Исходя из приведенных ниже характеристик, неудивительно, что крупные игроки, такие как $Goog, $meta, $techy, $baba и Bytedance, находятся в хорошем положении.
7. Накопление стоимости: В то же время мы видим ниши по всему стеку - особенно в инфраструктуре и приложениях - где новые участники могут создать крупные бизнесы. (Да, вам нужно будет прочитать сам отчет для получения любой альфы, ленивый ублюдок)
8. Истинная мультимодальность Сегодня видеомодели выглядят как игрушка. Но видеоданные и симуляции становятся все более важным входом для долгосрочных агентных задач и в запуске революции в робототехнике. Видеомодели могут оказаться искрой.
4,49K