Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

CodecFlow

Рівень виконання для операторів штучного інтелекту та робототехніки на @Solana CA:69LjZUUzxj3Cb3Fxeo1X4QpYEQTboApkhXTysPpbpump

VLA все ще дуже нові, і багатьом людям важко зрозуміти різницю між VLA та LLM. Ось глибоке занурення в те, як ці системи штучного інтелекту відрізняються за міркуваннями, відчуттями та діями. Частина 1. Давайте розберемо ключові відмінності та те, чим агенти штучного інтелекту, обгорнуті навколо LLM, відрізняються від операторів-агентів, які використовують моделі VLA: 1. Почуття: як вони сприймають світ Агент (LLM): обробляє текст або структуровані дані, наприклад JSON, API та іноді зображення. Це схоже на роботу мозку з чистими, абстрактними вхідними даними. Подумайте про читання посібника або розбір електронної таблиці. Чудово підходить для структурованих середовищ, але обмежений тим, що в нього подаються. Оператор (VLA): бачить необроблені пікселі з камер у реальному часі, а також дані датчиків (наприклад, дотик, положення) та пропріоцепцію (самоусвідомлення руху). Це схоже на навігацію світом за допомогою очей і почуттів, процвітаючи в динамічних, безладних умовах, таких як інтерфейси користувача або фізичний простір. 2. Дія: як вони взаємодіють Агент: діє шляхом виклику функцій, інструментів або API. Уявіть собі, що менеджер надсилає точні інструкції на кшталт «забронюйте рейс через Expedia API». Це навмисно, але покладається на готові інструменти та зрозумілі інтерфейси. Оператор: виконує безперервні дії на низькому рівні, як-от переміщення курсору миші, набір тексту або керування суглобами роботів. Це схоже на кваліфікованого працівника, який безпосередньо маніпулює навколишнім середовищем, що ідеально підходить для завдань, що вимагають точності в реальному часі. 3. Контроль: як вони приймають рішення Агент: Слідує повільному, рефлексивному циклу: плануйте, викликайте інструмент, оцінюйте результат, повторюйте. Він прив'язаний до токена (обмежений обробкою тексту) і прив'язаний до мережі (очікує відповідей API). Це робить його методичним, але млявим для завдань у реальному часі. Оператор: Діє, приймаючи поетапні рішення в щільному циклі зворотного зв'язку. Думайте про це як про геймера, який миттєво реагує на те, що відображається на екрані. Така швидкість забезпечує плавну взаємодію, але вимагає надійної обробки в режимі реального часу. 4. Дані для вивчення: що живить їхнє навчання Агент: Навчений на великих текстових корпусах, інструкціях, документації або наборах даних RAG (Retrieval-Augmented Generation). Він вчиться з книг, коду або поширених запитань, перевершуючи структуровані знання. Оператор: навчається з демонстрацій (наприклад, відео, на яких люди виконують завдання), журналів телеоперацій або сигналів винагороди. Це схоже на навчання, спостерігаючи та практикуючись, ідеально підходить для завдань, де чітких інструкцій мало. 5. Режими відмови: де вони ламаються Агент: схильний до галюцинацій (вигадування відповідей) або крихких довгострокових планів, які руйнуються, якщо один крок не вдається. Це схоже на стратега, який надмірно обмірковує або неправильно розуміє ситуацію. Оператор: стикається з коваріатним зсувом (коли дані тренування не відповідають реальним умовам) або складними помилками в управлінні (маленькі помилки сніжний ком). Це схоже на те, як водій втрачає контроль на незнайомій дорозі. 6. Infra: технології, що стоять за ними Агент: покладається на підказку/маршрутизатор, щоб вирішити, які інструменти викликати, реєстр інструментів для доступних функцій та пам'ять/RAG для контексту. Це модульна система, як командний центр, який оркеструє завдання. Оператор: потрібні конвеєри прийому відео, сервер дій для керування в реальному часі, захисний щит для запобігання шкідливим діям і буфер повторів для зберігання вражень. Це високопродуктивна система, створена для динамічних середовищ. 7. Де кожен сяє: їхні солодкі місця Агент: домінує в робочих процесах з чистими API (наприклад, автоматизація бізнес-процесів), обґрунтуванням документів (наприклад, узагальнення звітів) або генерацією коду. Це ваш вибір для структурованих завдань високого рівня. Оператор: чудово справляється з безладними середовищами без API, як-от навігація в незграбних інтерфейсах користувача, керування роботами або вирішення завдань, схожих на гру. Якщо це передбачає взаємодію в реальному часі з непередбачуваними системами, VLA є королем. 8. Ментальна модель: планувальник + виконавець Думайте про LLM Agent як про планувальника: він розбиває складні завдання на чіткі, логічні цілі. Оператор VLA є виконавцем, який виконує ці цілі, безпосередньо взаємодіючи з пікселями або фізичними системами. Чекер (інша система або агент) стежить за результатами, щоб забезпечити успіх. $CODEC

Codecflow Optr пропонує уніфікований підхід до створення агентів, які бачать, міркують і діють у цифровому та фізичному середовищі. Незалежно від того, чи це автоматизація робочих процесів на робочому столі, керування роботами-маніпуляторами чи тестування в симуляції, він використовує одну й ту саму ментальну модель і примітиви.

Провали на бичачому ринку призначені для покупки, особливо на проектах з великими каталізаторами Ми всі знаємо, що штучний інтелект – це наратив цього циклу, розпочатого ai16z та Virtuals минулого року. Я впевнений, що ринок зосередиться на більш складних і витончених технологіях, таких як VLA, і дозвольте мені пояснити вам чому. LLM (великі мовні моделі) в основному читають і записують текст: вони чудово пояснюють, планують і генерують інструкції, але самі по собі не керують моторами або не взаємодіють з фізичним світом (як ви, можливо, відчували з chatgpt). VLA (Vision Language Action models) відрізняються від LLM тим, що це мультимодальні системи, які дивляться на речі (vision), розуміють інструкції (мова) і безпосередньо виробляють дії. Це все одно, що сказати роботу підняти червону чашку, а потім рухати його рукою, щоб зробити це. ВЛА навчаються на прикладах, які поєднують зображення/відео + інструкції + сліди реальних дій (як насправді рухався робот), і вони повинні працювати швидко та безпечно в режимі реального часу. LLM зі свого боку тренуються на величезних колекціях текстів і зосереджуються на міркуваннях і мовних завданнях. ТЛ; DR LLM думають і говорять, а VLA бачать, міркують і діють. Як ви можете бачити, VLA є важливим доповненням до LLM і, зокрема, забезпечать наступну інновацію 0 до 1 у загальній економіці, якою стане робототехніка. Більшість інвестиційних фондів спрямовують значну частину своїх інвестицій у цей сектор, що розглядається як наступна логічна еволюція в індустрії штучного інтелекту. Деякий час тому я вже зробив пост про нинішнього лідера на крипторинку @codecopenflow, який ще не залучив капітал (справедливий запуск), ще не постачає передові продукти і в даний час коштує 23 мільйони доларів FDV. Для інформації, інші криптовалютні конкуренти залучили 20 мільйонів доларів ( @openmind_agi) за ціною, ймовірно, від 200 до 300 мільйонів доларів ++ FDV, хоча жоден продукт або спільнота ще не були створені та доставлені. Що робить Codec провідним проектом у цьому секторі, так це те, що вони вирішують важливе вузьке місце в робототехніці та штучному інтелекті, яке полягає в складності взаємодії всіх інструментів штучного інтелекту разом. Дозвольте мені пояснити. Їхній останній реліз, OPTR (operator), є набором інструментів, який допомагає створювати операторів, здатних взаємодіяти на кількох платформах, таких як роботи, настільні комп'ютери, браузери або симуляції. Мета оператора полягає в тому, щоб бачити, міркувати і діяти (VLA) як в цифровому (комп'ютери), так і у фізичному (роботи) світах. Цей набір інструментів слугує основною інфраструктурою для команд роботів, які прагнуть протестувати свій продукт і покращити загальний процес, надаючи уніфікований досвід замість окремих для веб-браузерів, симуляцій або роботів. Це, по суті, робить оператора адаптивним і автономним незалежно від навколишнього середовища. Отже, ви це зрозумієте, це значно заощадить час компаніям і розробникам, яким раніше доводилося проходити кожен крок вручну, і де ви можете заощадити час, ви можете заощадити гроші. Це також дозволить Codec створювати власні проекти для операторів і відносно швидко запускати нові потужності на ринок, зокрема через свій ринок. ТЛ; Д.Р.: Ви, напевно, бачили відео, як роботи складають серветки, сортують коробки або стрибають на різних елементах. Всі вони були навчені для цього дуже специфічного випадку використання, і, на жаль, одна навичка не може бути повторно використана в іншому середовищі, як це могла б зробити людина. OPTR від Codec вирішує це, роблячи навички доступними для передачі між середовищами та ситуаціями, роблячи навчання та розвиток набагато швидшими та дешевшими для підприємств. Ось чому Codec так цікавий в об'єднанні цифрового світу з фізичним. $CODEC, закодований.

Ми раді бачити, що китайська спільнота помітила CodecFlow і полюбила те, що ми створюємо. Прошу. Ми тільки починаємо. Попереду ще багато цікавого.

Публічний продаж PUMP закінчився, спочатку у мене теж була велика сума в Bybit, всього 1/2 на ланцюжку, і в результаті тільки ланцюжок виявився вдалим, на щастя заздалегідь хеджування не було... Останнім часом у AI-спільноті точиться багато дискусій щодо VLA (Vision-Language-Action) Зокрема, я пішов досліджувати, чи є хтось, хто займається проєктами, пов'язаними з VLA, і побачив цей CodecFlow@Codecopenflow проєкт і трохи купив. == Що робить CodecFlow == Короткий вступ до VLA, архітектури моделі, яка дозволяє штучному інтелекту не просто «говорити», а «робити». Традиційні LLM (наприклад, GPT) можуть розуміти лише мову та давати пропозиції, але вони не можуть виконувати практичні дії, натискати на екрани або хапати об'єкти. Модель VLA означає, що вона інтегрує три можливості: 1. Vision: розуміння зображень, знімків екрана, входів камери або даних датчиків 2. Мова: розуміти інструкції природної мови людини 3. Дія: Створюйте виконувані команди, такі як клацання мишею, введення з клавіатури та керування роботизованою рукою CodecFlow виконує VLA в ланцюжку, і всі процеси також можуть бути завантажені в ланцюжок, які можна перевірити, перевірити та врегулювати. Говорячи простою мовою, це інфраструктура «ШІ-бота». == Чому я приділяю особливу увагу цьому пункту? == Я дізнався, що їхні розробники є основними учасниками LeRobot, найгарячішого проекту з відкритим вихідним кодом у сфері VLA! LeRobot є найкращою базою для створення моделей VLA у світі з відкритим вихідним кодом, включаючи легкі VLA, які можуть працювати на ноутбуках, таких як SmolVLA. Це означає, що ця команда дійсно розуміє архітектуру VlA та Robot. Я бачу, що вони також продовжують нарощувати, і ціна валюти також неухильно зростає, я дуже оптимістично дивлюся на трек VLA, і з загальної тенденції, VLA та роботи – це справді майбутнє на ринку. • Web2-гіганти (Google, Meta, Tesla) тепер повністю віддані навчанню VLA та ботів; • Web3 проєкти є дефіцитними з точки зору додатків VLA, які можуть виконувати завдання • VLA має можливість відігравати величезну роль у таких сценаріях, як DePIN, веб-автоматизація та виконання агента штучного інтелекту в ланцюжку. CA:69LjZUUzxj3Cb3Fxeo1X4QpYEQTboApkhXTysPpbpump Завжди DYOR。

Найкращі

Рейтинг

Вибране

Актуальне ончейн

Популярні в X

Нещодавнє найкраще фінансування

Найбільш варте уваги