Me impresionó realmente lo fácil que esto hace que la búsqueda de videos. Creo que incrustar fotogramas completos con modelos multimodales no es el movimiento en este momento, y este es el camino. ¡Sin embargo, esto podría cambiar en el futuro! La búsqueda de videos aún es muy incipiente y esto es definitivamente una innovación
Inference
Inference19 ago, 07:28
Hay algo realmente especial en el esquema que @grass desarrollado para ClipTagger-12B. Una vez que comienzas a buscar conjuntos de datos de video masivos, el uso de filtros de metadatos para objetos, calidad de producción, logotipos o acciones se vuelve absolutamente invaluable. El modelo que entrenamos es genial, pero esta fue una verdadera innovación con la que vinieron a nosotros.
2.33K