Termenul VLM are două înțelesuri înrudite, dar foarte diferite, și este atât de confuz 1) VLM-uri CLIP-like: 2 encodere antrenate de la zero 2) VLM-uri de tip Llava: un encoder de viziune atașat unui LLM, ambele preantrenate Imagine urâtă generată cu nano banană, bineînțeles