Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
В епоху передпідготовки важливим був текст в Інтернеті. Перш за все, вам потрібна велика, різноманітна, високоякісна колекція інтернет-документів для навчання.
В епоху контрольованого доопрацювання це були розмови. Контрактні працівники наймаються для створення відповідей на питання, трохи схожі на ті, що ви бачите на Stack Overflow / Quora або і т.д., але орієнтовані на випадки використання LLM.
Ні те, ні інше не зникає (імо), але в цю епоху навчання з підкріпленням це тепер середовище. На відміну від перерахованих вище, вони дають ЛЛМ можливість реально взаємодіяти - виконувати дії, бачити результати і т.д. Це означає, що ви можете сподіватися на набагато краще, ніж статистична експертна імітація. І їх можна використовувати як для модельного навчання, так і для оцінки. Але, як і раніше, основна проблема зараз полягає в потребі у великому, різноманітному, високоякісному наборі середовищ, як вправ для практики LLM.
У певному сенсі мені нагадує найперший проєкт OpenAI (тренажерний зал), який був саме фреймворком, який сподівався побудувати велику колекцію середовищ у тій самій схемі, але це було набагато раніше LLM. Таким чином, середовища були простими академічними контрольними завданнями того часу, як картшток, ATARI тощо. Хаб @PrimeIntellect середовищ (і репозиторій 'verifiers' на GitHub) будує модернізовану версію, спеціально націлену на LLM, і це великі зусилля/ідеї. Я запропонував, щоб хтось побудував щось подібне на початку цього року:
Середовища мають ту властивість, що як тільки скелет фреймворку на місці, в принципі, спільнота / індустрія може паралельно працювати в багатьох різних доменах, що захоплює.
Заключна думка - особиста і довгострокова, я оптимістично налаштований щодо оточення та агентичної взаємодії, але я ведмежий щодо навчання саме з підкріпленням. Я думаю, що функції винагороди супер су, і я думаю, що люди не використовують РЛ для навчання (можливо, вони використовують для якихось рухових завдань і т.д., але не для завдань з інтелектуального вирішення проблем). Люди використовують різні парадигми навчання, які є значно потужнішими та ефективними для вибірки, і які ще не були належним чином винайдені та масштабовані, хоча існують ранні ескізи та ідеї (як лише один із прикладів, ідея «системного оперативного навчання», перенесення оновлення на лексеми/контексти, а не ваги, і, за бажанням, переведення на ваги як окремий процес, трохи схожий на сон).

20 годин тому
Знайомство з Environments Hub
Середовища RL є ключовим вузьким місцем для наступної хвилі прогресу штучного інтелекту, але великі лабораторії блокують їх
Ми створили платформу спільноти для краудсорсингу відкритих середовищ, тому будь-хто може зробити свій внесок у AGI з відкритим вихідним кодом
520,32K
Найкращі
Рейтинг
Вибране