Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

В епоху передпідготовки важливим був текст в Інтернеті. Перш за все, вам потрібна велика, різноманітна, високоякісна колекція інтернет-документів для навчання. В епоху контрольованого доопрацювання це були розмови. Контрактні працівники наймаються для створення відповідей на питання, трохи схожі на ті, що ви бачите на Stack Overflow / Quora або і т.д., але орієнтовані на випадки використання LLM. Ні те, ні інше не зникає (імо), але в цю епоху навчання з підкріпленням це тепер середовище. На відміну від перерахованих вище, вони дають ЛЛМ можливість реально взаємодіяти - виконувати дії, бачити результати і т.д. Це означає, що ви можете сподіватися на набагато краще, ніж статистична експертна імітація. І їх можна використовувати як для модельного навчання, так і для оцінки. Але, як і раніше, основна проблема зараз полягає в потребі у великому, різноманітному, високоякісному наборі середовищ, як вправ для практики LLM. У певному сенсі мені нагадує найперший проєкт OpenAI (тренажерний зал), який був саме фреймворком, який сподівався побудувати велику колекцію середовищ у тій самій схемі, але це було набагато раніше LLM. Таким чином, середовища були простими академічними контрольними завданнями того часу, як картшток, ATARI тощо. Хаб @PrimeIntellect середовищ (і репозиторій 'verifiers' на GitHub) будує модернізовану версію, спеціально націлену на LLM, і це великі зусилля/ідеї. Я запропонував, щоб хтось побудував щось подібне на початку цього року: Середовища мають ту властивість, що як тільки скелет фреймворку на місці, в принципі, спільнота / індустрія може паралельно працювати в багатьох різних доменах, що захоплює. Заключна думка - особиста і довгострокова, я оптимістично налаштований щодо оточення та агентичної взаємодії, але я ведмежий щодо навчання саме з підкріпленням. Я думаю, що функції винагороди супер су, і я думаю, що люди не використовують РЛ для навчання (можливо, вони використовують для якихось рухових завдань і т.д., але не для завдань з інтелектуального вирішення проблем). Люди використовують різні парадигми навчання, які є значно потужнішими та ефективними для вибірки, і які ще не були належним чином винайдені та масштабовані, хоча існують ранні ескізи та ідеї (як лише один із прикладів, ідея «системного оперативного навчання», перенесення оновлення на лексеми/контексти, а не ваги, і, за бажанням, переведення на ваги як окремий процес, трохи схожий на сон).

520,32K

Найкращі

Рейтинг

Вибране