Il termine VLM ha due significati correlati ma molto diversi e risulta così confuso 1) VLM simili a CLIP: 2 encoder addestrati da zero 2) VLM simili a Llava: un encoder visivo collegato a un LLM, entrambi pre-addestrati Immagine brutta generata con nano banana, ovviamente