Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
W ciągu ostatnich dni odczuwam, że płynność na poziomie pierwszym jest znacznie gorsza niż wcześniej.
Niezależnie od tego, czy to 2 segmenty, czy rynek wewnętrzny, wszystko wydaje się znacznie trudniejsze do grania...
Jednak cena tokena codec nadal stabilnie utrzymuje się na poziomie 30M, mam jeszcze część pozycji, co daje mi spokój, głównie dlatego, że ostatnio rynek robotów w web2 jest naprawdę gorący. Poniżej kilka informacji z ostatnich dni, które wskazują, że AI to następny krok w kierunku Robot Meta.
• Ostatnio główny naukowiec w Hugging Face, Remi Cadene, prowadzi rozmowy na temat pozyskania około 40 milionów dolarów w rundzie seed dla swojej firmy robotycznej „Uma” z siedzibą w Paryżu.
• Tego typu firmy zajmujące się rozwojem robotów cieszą się dużym zainteresowaniem inwestorów, a w 2025 roku globalne finansowanie w dziedzinie robotyki przekroczyło 16 miliardów dolarów, zbliżając się do zeszłorocznego poziomu 17,2 miliarda dolarów.
Wciąż wierzę w Codec, w końcu deweloper Codec to ważny contributor w open source VLAs i obecnie jest jednym z tych, którzy naprawdę rozumieją rynek robotów w web3.
Ostatnio zajmuję się sprawami domowymi, więc jestem dość zajęty, ale codziennie staram się zarabiać trochę aktywów, które ciągle rosną, osiągając stopniowo ATH. WLFI jest zbyt mało, ale tym razem nie czuję się zbytnio zestresowany, mam stabilne podejście, codziennie mogę zarobić trochę, co mnie satysfakcjonuje.
BTW, szybko stworzyłem stronę do codziennej statystyki aktywów, osobiście uważam, że jest bardzo przydatna, link do GitHub umieszczam w komentarzu, wystarczy pobrać na komputer i otworzyć index, aby móc z niej korzystać.



22 sie, 18:03
VLAs są wciąż bardzo nowe i wiele osób ma trudności zrozumieć różnicę między VLA a LLM.
Oto głęboka analiza, jak te systemy AI różnią się w zakresie rozumowania, percepcji i działania. Część 1.
Rozłóżmy kluczowe różnice i jak agenci AI opakowani wokół LLM różnią się od agentów operatorów, którzy używają modeli VLA:
1. Percepcja: Jak postrzegają świat
Agent (LLM): Przetwarza tekst lub dane strukturalne, np. JSON, API, a czasami obrazy. To jak mózg pracujący z czystymi, abstrakcyjnymi danymi. Pomyśl o czytaniu instrukcji lub analizowaniu arkusza kalkulacyjnego. Świetnie sprawdza się w uporządkowanych środowiskach, ale jest ograniczony przez to, co mu dostarczono.
Operator (VLA): Widzi surowe, rzeczywiste piksele z kamer, plus dane z czujników (np. dotyk, pozycja) i propriocepcję (samoświadomość ruchu). To jak nawigowanie po świecie za pomocą oczu i zmysłów, doskonale radzi sobie w dynamicznych, chaotycznych warunkach, takich jak interfejsy użytkownika czy przestrzenie fizyczne.
2. Działanie: Jak wchodzą w interakcje
Agent: Działa, wywołując funkcje, narzędzia lub API. Wyobraź sobie to jako menedżera wysyłającego precyzyjne instrukcje, takie jak „zarezerwuj lot przez API Expedia”. To jest zamierzone, ale polega na wstępnie zbudowanych narzędziach i jasnych interfejsach.
Operator: Wykonuje ciągłe, niskopoziomowe działania, takie jak poruszanie kursorem myszy, pisanie lub kontrolowanie stawów robota. To jak wykwalifikowany pracownik bezpośrednio manipulujący otoczeniem, idealny do zadań wymagających precyzji w czasie rzeczywistym.
3. Kontrola: Jak podejmują decyzje
Agent: Podąża za wolną, refleksyjną pętlą: planuj, wywołaj narzędzie, oceń wynik, powtórz. Jest ograniczony przez tokeny (ograniczony przez przetwarzanie tekstu) i sieć (czekając na odpowiedzi API). To sprawia, że jest metodyczny, ale powolny w zadaniach w czasie rzeczywistym.
Operator: Działa, podejmując decyzje krok po kroku w ciasnej pętli sprzężenia zwrotnego. Pomyśl o tym jak o graczu reagującym natychmiast na to, co jest na ekranie. Ta szybkość umożliwia płynne interakcje, ale wymaga solidnego przetwarzania w czasie rzeczywistym.
4. Dane do nauki: Co napędza ich trening
Agent: Trenuje na ogromnych zbiorach tekstów, instrukcjach, dokumentacji lub zestawach danych RAG (Retrieval-Augmented Generation). Uczy się z książek, kodu lub FAQ, doskonale radząc sobie z rozumowaniem na podstawie wiedzy strukturalnej.
Operator: Uczy się z demonstracji (np. filmów ludzi wykonujących zadania), logów teleoperacji lub sygnałów nagród. To jak nauka przez obserwację i praktykę, idealne do zadań, w których brakuje wyraźnych instrukcji.
5. Tryby awarii: Gdzie się psują
Agent: Skłonny do halucynacji (wymyślanie odpowiedzi) lub kruchych długoterminowych planów, które się rozpadają, jeśli jeden krok zawiedzie. To jak strateg, który zbytnio analizuje lub źle odczytuje sytuację.
Operator: Napotyka przesunięcie kowariancji (gdy dane treningowe nie odpowiadają warunkom rzeczywistym) lub kumulujące się błędy w kontroli (małe błędy narastają). To jak kierowca tracący kontrolę na nieznanej drodze.
6. Infra: Technologia stojąca za nimi
Agent: Polega na podpowiedzi/routerze, aby zdecydować, które narzędzia wywołać, rejestrze narzędzi dla dostępnych funkcji oraz pamięci/RAG dla kontekstu. To modułowa konfiguracja, jak centrum dowodzenia organizujące zadania.
Operator: Potrzebuje pipeline'ów do przetwarzania wideo, serwera akcji do kontroli w czasie rzeczywistym, osłony bezpieczeństwa, aby zapobiec szkodliwym działaniom, oraz bufora odtwarzania do przechowywania doświadczeń. To system wysokowydajny, zbudowany do dynamicznych środowisk.
7. Gdzie każdy błyszczy: Ich mocne strony
Agent: Dominuje w przepływach pracy z czystymi API (np. automatyzacja procesów biznesowych), rozumowaniem na podstawie dokumentów (np. podsumowywanie raportów) lub generowaniem kodu. To twój wybór do uporządkowanych, wysokopoziomowych zadań.
Operator: Doskonale radzi sobie w chaotycznych, pozbawionych API środowiskach, takich jak nawigowanie po nieporęcznych interfejsach użytkownika, kontrolowanie robotów lub podejmowanie zadań przypominających gry. Jeśli to wymaga interakcji w czasie rzeczywistym z nieprzewidywalnymi systemami, VLA jest królem.
8. Model mentalny: Planista + Wykonawca
Pomyśl o agencie LLM jako o planista: dzieli złożone zadania na jasne, logiczne cele.
Operator VLA to wykonawca, realizujący te cele poprzez bezpośrednią interakcję z pikselami lub systemami fizycznymi. Kontroler (inny system lub agent) monitoruje wyniki, aby zapewnić sukces.
$CODEC

39,15K
Najlepsze
Ranking
Ulubione