Ik was oprecht onder de indruk van hoe gemakkelijk dit videozoekopdrachten maakt. Ik denk dat het op dit moment niet de juiste keuze is om volledige frames met multimodale modellen in te bedden, en dit is de juiste weg. Dit kan echter in de toekomst veranderen! Videozoekopdrachten zijn nog steeds zeer pril en dit is zeker een innovatie.
Inference
Inference19 aug, 07:28
Er is iets echt bijzonders aan het schema dat @grass heeft ontwikkeld voor ClipTagger-12B. Zodra je begint met het doorzoeken van enorme videodatasets, wordt het gebruik van metadatafilters voor objecten, productkwaliteit, logo's of acties absoluut onmisbaar. Het model dat we hebben getraind is geweldig, maar dit was een echte innovatie die ze met ons kwamen.
2,33K