Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
𝗘𝘀𝘁𝗮𝗹𝗲𝗺 𝗵𝗲𝗮𝗿𝗱 𝘁𝗵𝗶𝘀 𝗮 𝗹𝗼𝘁 𝗿𝗲𝗰𝗲𝗻𝘁𝗹𝘆: "𝗪𝗲 𝘁𝗿𝗮𝗶𝗻𝗲𝗱 𝗼𝘂𝗿 𝗿𝗼𝗯𝗼𝘁 𝗼𝗻 𝗼𝗻𝗲 𝗼𝗯𝗷𝗲𝗰𝘁 𝗮𝗻𝗱 𝗶𝘁 𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘀𝗲𝗱 𝘁𝗼 𝗮 𝗻𝗼𝘃𝗲𝗹 𝗼𝗯𝗷𝗲𝗰𝘁 - 𝘁𝗵𝗲𝘀𝗲 𝗻𝗲𝘄 𝗩𝗟𝗔 𝗺𝗼𝗱𝗲𝗹𝘀 𝗮𝗿𝗲 𝗰𝗿𝗮𝘇𝘆!"
Porozmawiajmy o tym, co tak naprawdę dzieje się w tej części "A" (Akcja) twojego modelu VLA.
Komponenty Wizji i Języka? Są niesamowite. Wstępnie wytrenowane na danych w skali internetu, rozumieją obiekty, relacje przestrzenne i instrukcje zadania lepiej niż kiedykolwiek.
Ale komponent Akcji? To wciąż uczy się od podstaw na podstawie twoich konkretnych demonstracji robota.
𝗛𝗲𝗿𝗲'𝘀 𝘁𝗵𝗲 𝗿𝗲𝗮𝗹𝗶𝘁𝘆: Twój model VLA ma zrozumienie w skali internetu tego, jak wygląda śrubokręt i co oznacza "dokładnie śrubę". Ale rzeczywisty wzór ruchu dla "obracania nadgarstka przy wywieraniu nacisku w dół"? To pochodzi z twoich 500 demonstracji robota.
𝗪𝗵𝗮𝘁 𝘁𝗵𝗶𝘀 𝗺𝗲𝗮𝗻𝘀 𝗳𝗼𝗿 "𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘀𝗮𝘁𝗶𝗼𝗻":
• 𝗩𝗶𝘀𝗶𝗼𝗻 𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘀𝗮𝘁𝗶𝗼𝗻: Natychmiast rozpoznaje nowe obiekty (dzięki wstępnemu treningowi)
• 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲 𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘀𝗮𝘁𝗶𝗼𝗻: Rozumie nowe instrukcje zadania (dzięki wstępnemu treningowi)
• 𝗔𝗰𝘁𝗶𝗼𝗻 𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘀𝗮𝘁𝗶𝗼𝗻: Wciąż ograniczone do wzorów ruchu widzianych podczas treningu robota
Poproś tego samego robota, aby "odkręcił zakrętkę butelki", a on zawiedzie, ponieważ:
• Wizja: Rozpoznaje butelkę i zakrętkę
• Język: Rozumie "odkręcić"
• Akcja: Nigdy nie nauczył się wzoru ruchu "obracaj podczas ciągnięcia"
𝗧𝗵𝗲 𝗵𝗮𝗿𝗱 𝘁𝗿𝘂𝘁𝗵 𝗮𝗯𝗼𝘂𝘁 𝗩𝗟𝗔 𝗺𝗼𝗱𝗲𝗹𝘀:
"VL" daje ci niesamowite zrozumienie zero-shot. "A" wciąż wymaga specyficznych demonstracji zadania.
Rozwiązaliśmy problem percepcji i rozumowania. Nie rozwiązaliśmy jeszcze problemu generalizacji ruchu.
33,66K
Najlepsze
Ranking
Ulubione