Le terme VLM a deux significations liées mais très différentes et c'est tellement déroutant 1) VLM de type CLIP : 2 encodeurs entraînés depuis zéro 2) VLM de type Llava : un encodeur visuel attaché à un LLM, tous deux préentraînés Image moche générée avec une nano banane bien sûr