𝗜'𝘃𝗲 𝗵𝗲𝗮𝗿𝗱 𝘁𝗵𝗶𝘀 𝗮 𝗹𝗼𝘁 𝗿𝗲𝗰𝗲𝗻𝘁𝗹𝘆: "𝗪𝗲 𝘁𝗿𝗮𝗶𝗻𝗲𝗱 𝗼𝘂𝗿 𝗿𝗼𝗯𝗼𝘁 𝗼𝗻 𝗼𝗻𝗲 𝗼𝗯𝗷𝗲𝗰𝘁 𝗮𝗻𝗱 𝗶𝘁 𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘀𝗲𝗱 𝘁𝗼 𝗮 𝗻𝗼𝘃𝗲𝗹 𝗼𝗯𝗷𝗲𝗰𝘁 - 𝘁𝗵𝗲𝘀𝗲 𝗻𝗲𝘄 𝗩𝗟𝗔 𝗺𝗼𝗱𝗲𝗹𝘀 𝗮𝗿𝗲 𝗰𝗿𝗮𝘇𝘆!" Laten we praten over wat er eigenlijk gebeurt in dat "A" (Actie) gedeelte van je VLA-model. De Vision- en Language-componenten? Ze zijn ongelooflijk. Vooraf getraind op internet-schaal data, begrijpen ze objecten, ruimtelijke relaties en taak-instructies beter dan ooit. Maar de Actie-component? Dat wordt nog steeds vanaf nul geleerd op basis van jouw specifieke robotdemonstraties. 𝗛𝗲𝗿𝗲'𝘀 𝘁𝗵𝗲 𝗿𝗲𝗮𝗹𝗶𝘁𝘆: Jouw VLA-model heeft een internet-schaal begrip van hoe een schroevendraaier eruit ziet en wat "de schroef aandraaien" betekent. Maar het daadwerkelijke motorpatroon voor "pols draaien terwijl je naar beneden duwt"? Dat komt van jouw 500 robotdemonstraties. 𝗪𝗵𝗮𝘁 𝘁𝗵𝗶𝘀 𝗺𝗲𝗮𝗻𝘀 𝗳𝗼𝗿 "𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘀𝗮𝘁𝗶𝗼𝗻":   • 𝗩𝗶𝘀𝗶𝗼𝗻 𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘀𝗮𝘁𝗶𝗼𝗻: Herkent nieuwe objecten onmiddellijk (dankzij vooraf trainen)   • 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲 𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘀𝗮𝘁𝗶𝗼𝗻: Begrijpt nieuwe taak-instructies (dankzij vooraf trainen)   • 𝗔𝗰𝘁𝗶𝗼𝗻 𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘀𝗮𝘁𝗶𝗼𝗻: Nog steeds beperkt tot motorpatronen gezien tijdens robottraining Vraag diezelfde robot om "de flesdop los te draaien" en hij faalt omdat: • Vision: Herkent fles en dop • Language: Begrijpt "losdraaien" • Action: Heeft nooit het motorpatroon "draaien terwijl je trekt" geleerd 𝗧𝗵𝗲 𝗵𝗮𝗿𝗱 𝘁𝗿𝘂𝘁𝗵 𝗮𝗯𝗼𝘂𝘁 𝗩𝗟𝗔 𝗺𝗼𝗱𝗲𝗹𝘀: De "VL" geeft je ongelooflijk begrip zonder voorbeelden. De "A" vereist nog steeds taak-specifieke demonstraties. We hebben het perceptie- en redeneerprobleem opgelost. We hebben het motor generalisatieprobleem nog niet opgelost.
30,54K