Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

𝗘𝘀𝘁𝗮𝗹𝗲𝗺 𝗵𝗲𝗮𝗿𝗱 𝘁𝗵𝗶𝘀 𝗮 𝗹𝗼𝘁 𝗿𝗲𝗰𝗲𝗻𝘁𝗹𝘆: "𝗪𝗲 𝘁𝗿𝗮𝗶𝗻𝗲𝗱 𝗼𝘂𝗿 𝗿𝗼𝗯𝗼𝘁 𝗼𝗻 𝗼𝗻𝗲 𝗼𝗯𝗷𝗲𝗰𝘁 𝗮𝗻𝗱 𝗶𝘁 𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘀𝗲𝗱 𝘁𝗼 𝗮 𝗻𝗼𝘃𝗲𝗹 𝗼𝗯𝗷𝗲𝗰𝘁 - 𝘁𝗵𝗲𝘀𝗲 𝗻𝗲𝘄 𝗩𝗟𝗔 𝗺𝗼𝗱𝗲𝗹𝘀 𝗮𝗿𝗲 𝗰𝗿𝗮𝘇𝘆!" Porozmawiajmy o tym, co tak naprawdę dzieje się w tej części "A" (Akcja) twojego modelu VLA. Komponenty Wizji i Języka? Są niesamowite. Wstępnie wytrenowane na danych w skali internetu, rozumieją obiekty, relacje przestrzenne i instrukcje zadania lepiej niż kiedykolwiek. Ale komponent Akcji? To wciąż uczy się od podstaw na podstawie twoich konkretnych demonstracji robota. 𝗛𝗲𝗿𝗲'𝘀 𝘁𝗵𝗲 𝗿𝗲𝗮𝗹𝗶𝘁𝘆: Twój model VLA ma zrozumienie w skali internetu tego, jak wygląda śrubokręt i co oznacza "dokładnie śrubę". Ale rzeczywisty wzór ruchu dla "obracania nadgarstka przy wywieraniu nacisku w dół"? To pochodzi z twoich 500 demonstracji robota. 𝗪𝗵𝗮𝘁 𝘁𝗵𝗶𝘀 𝗺𝗲𝗮𝗻𝘀 𝗳𝗼𝗿 "𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘀𝗮𝘁𝗶𝗼𝗻": • 𝗩𝗶𝘀𝗶𝗼𝗻 𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘀𝗮𝘁𝗶𝗼𝗻: Natychmiast rozpoznaje nowe obiekty (dzięki wstępnemu treningowi) • 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲 𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘀𝗮𝘁𝗶𝗼𝗻: Rozumie nowe instrukcje zadania (dzięki wstępnemu treningowi) • 𝗔𝗰𝘁𝗶𝗼𝗻 𝗴𝗲𝗻𝗲𝗿𝗮𝗹𝗶𝘀𝗮𝘁𝗶𝗼𝗻: Wciąż ograniczone do wzorów ruchu widzianych podczas treningu robota Poproś tego samego robota, aby "odkręcił zakrętkę butelki", a on zawiedzie, ponieważ: • Wizja: Rozpoznaje butelkę i zakrętkę • Język: Rozumie "odkręcić" • Akcja: Nigdy nie nauczył się wzoru ruchu "obracaj podczas ciągnięcia" 𝗧𝗵𝗲 𝗵𝗮𝗿𝗱 𝘁𝗿𝘂𝘁𝗵 𝗮𝗯𝗼𝘂𝘁 𝗩𝗟𝗔 𝗺𝗼𝗱𝗲𝗹𝘀: "VL" daje ci niesamowite zrozumienie zero-shot. "A" wciąż wymaga specyficznych demonstracji zadania. Rozwiązaliśmy problem percepcji i rozumowania. Nie rozwiązaliśmy jeszcze problemu generalizacji ruchu.

33,66K

Najlepsze

Ranking

Ulubione

Trendy onchain

Trendy na X

Niedawne największe finansowanie

Najbardziej godne uwagi