Der Begriff VLM hat zwei verwandte, aber sehr unterschiedliche Bedeutungen, und das ist so verwirrend 1) CLIP-ähnliche VLMs: 2 Encoder, die von Grund auf neu trainiert wurden 2) Llava-ähnliche VLMs: ein Vision-Encoder, der an ein LLM angeschlossen ist, beide vortrainiert Hässliches Bild, das natürlich mit einer Nano-Banane generiert wurde