Я был искренне впечатлён тем, насколько простым стал поиск видео. Я думаю, что встраивание полных кадров с помощью мультимодальных моделей сейчас не является правильным решением, и это действительно тот путь, который стоит выбрать. Хотя это может измениться в будущем! Поиск видео всё ещё находится на ранней стадии, и это определённо является инновацией.
Inference
Inference19 авг., 07:28
В схеме, разработанной @grass для ClipTagger-12B, есть что-то действительно особенное. Как только вы начинаете искать в огромных видеодатасетах, использование метаданных для фильтрации объектов, качества производства, логотипов или действий становится абсолютно неоценимым. Модель, которую мы обучили, отличная, но это было настоящим новшеством, с которым они к нам пришли.
2,33K