Termillä VLM on kaksi toisiinsa liittyvää, mutta hyvin erilaista merkitystä, ja se on niin hämmentävää 1) CLIP-tyyppiset VLM:t: 2 enkooderia, jotka on koulutettu alusta alkaen 2) Llava-tyyppiset VLM:t: näkökooderi, joka on kiinnitetty LLM:ään, molemmat esikoulutettuja Ruma kuva, joka syntyy nano-banaanilla tietenkin