Me impresionó genuinamente lo fácil que hace la búsqueda de videos. Creo que incrustar fotogramas completos con modelos multimodales no es el camino en este momento, y esta es la forma de hacerlo. ¡Esto podría cambiar en el futuro! La búsqueda de videos todavía es muy incipiente y definitivamente esto es una innovación.
Inference
Inference19 ago, 07:28
Hay algo realmente especial en el esquema que @grass desarrolló para ClipTagger-12B. Una vez que comienzas a buscar en grandes conjuntos de datos de video, usar filtros de metadatos para objetos, calidad de producción, logotipos o acciones se vuelve absolutamente invaluable. El modelo que entrenamos es excelente, pero esta fue una verdadera innovación que nos presentaron.
2,23K