Byłem naprawdę pod wrażeniem, jak łatwe to czyni wyszukiwanie wideo. Myślę, że osadzanie pełnych klatek z modelami multimodalnymi nie jest obecnie najlepszym rozwiązaniem, a to jest właściwa droga. To może się jednak zmienić w przyszłości! Wyszukiwanie wideo jest wciąż bardzo wczesnym etapem, a to z pewnością jest innowacja.
Inference
Inference19 sie, 07:28
Jest coś naprawdę wyjątkowego w schemacie, który @grass opracował dla ClipTagger-12B. Gdy zaczynasz przeszukiwać ogromne zbiory danych wideo, korzystanie z filtrów metadanych dla obiektów, jakości produkcji, logo czy działań staje się absolutnie nieocenione. Model, który wytrenowaliśmy, jest świetny, ale to była prawdziwa innowacja, z którą do nas przyszli.
2,33K