O termo VLM tem dois significados relacionados, mas muito diferentes, e é muito confuso 1) VLMs do tipo CLIP: 2 codificadores treinados do zero 2) VLMs do tipo Llava: um codificador de visão conectado a um LLM, ambos pré-treinados Imagem feia gerada com nano banana, claro