VLM 這個術語有兩個相關但非常不同的含義,這讓人感到困惑 1) 類似 CLIP 的 VLM:從零開始訓練的兩個編碼器 2) 類似 Llava 的 VLM:一個視覺編碼器附加在 LLM 上,兩者都是預訓練的 當然,使用 nano banana 生成的醜陋圖像