ByteDance ha appena svelato Video-As-Prompt su Hugging Face.
Questo modello innovativo offre un controllo semantico unificato per la generazione di video, animando le immagini con lo stile e il movimento di un video di riferimento.
Hugging Face ha appena svelato FineVision: il più grande e pulito dataset open per VLM.
Un corpus meticolosamente curato di 24 milioni di campioni, unificando oltre 200 fonti in 185 sottoinsiemi tramite un pipeline semi-automatica con intervento umano.
Supera le miscele open esistenti, accelerando la ricerca VLM centrata sui dati.
Sblocca un editing preciso di oggetti 3D con NANO3D!
Questo framework senza necessità di formazione offre modifiche coerenti e senza maschere per contenuti di giochi, animazione e robotica. Preserva anche perfettamente le aree non modificate.