Thuật ngữ VLM có hai ý nghĩa liên quan nhưng rất khác nhau và điều này thật khó hiểu 1) VLM giống như CLIP: 2 bộ mã hóa được đào tạo từ đầu 2) VLM giống như Llava: một bộ mã hóa hình ảnh gắn với một LLM, cả hai đều được đào tạo trước Hình ảnh xấu được tạo ra với nano banana, tất nhiên.