VLM teriminin iki ilişkili ama çok farklı anlamı var ve bu çok kafa karıştırıcı 1) CLIP benzeri VLM'ler: Sıfırdan eğitilmiş 2 kodlayıcı 2) Llava benzeri VLM'ler: LLM'ye bağlı bir vizyon kodlayıcısı, her ikisi de önceden eğitilmiş. Tabii ki nano muzla üretilen çirkin görüntü