Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Prime Intellect
Користувач Prime Intellect поділився
.@willccbb (Research Lead, Prime Intellect) про те, як насправді працюють середовища RL:
«Навколишнє середовище – це, по суті, евал. У вас є завдання на введення, джгут, і в кінці він оцінює, як працює ваша модель або агент. Саме таку установку ми використовуємо як для тренувань, так і для тренувань RL».
Він додає, що майбутнє полягає не лише в тому, щоб «отримати 100 000 графічних процесорів в одному гігантському кластері».
11K
Користувач Prime Intellect поділився
В епоху передпідготовки важливим був текст в Інтернеті. Перш за все, вам потрібна велика, різноманітна, високоякісна колекція інтернет-документів для навчання.
В епоху контрольованого доопрацювання це були розмови. Контрактні працівники наймаються для створення відповідей на питання, трохи схожі на ті, що ви бачите на Stack Overflow / Quora або і т.д., але орієнтовані на випадки використання LLM.
Ні те, ні інше не зникає (імо), але в цю епоху навчання з підкріпленням це тепер середовище. На відміну від перерахованих вище, вони дають ЛЛМ можливість реально взаємодіяти - виконувати дії, бачити результати і т.д. Це означає, що ви можете сподіватися на набагато краще, ніж статистична експертна імітація. І їх можна використовувати як для модельного навчання, так і для оцінки. Але, як і раніше, основна проблема зараз полягає в потребі у великому, різноманітному, високоякісному наборі середовищ, як вправ для практики LLM.
У певному сенсі мені нагадує найперший проєкт OpenAI (тренажерний зал), який був саме фреймворком, який сподівався побудувати велику колекцію середовищ у тій самій схемі, але це було набагато раніше LLM. Таким чином, середовища були простими академічними контрольними завданнями того часу, як картшток, ATARI тощо. Хаб @PrimeIntellect середовищ (і репозиторій 'verifiers' на GitHub) будує модернізовану версію, спеціально націлену на LLM, і це великі зусилля/ідеї. Я запропонував, щоб хтось побудував щось подібне на початку цього року:
Середовища мають ту властивість, що як тільки скелет фреймворку на місці, в принципі, спільнота / індустрія може паралельно працювати в багатьох різних доменах, що захоплює.
Заключна думка - особиста і довгострокова, я оптимістично налаштований щодо оточення та агентичної взаємодії, але я ведмежий щодо навчання саме з підкріпленням. Я думаю, що функції винагороди супер су, і я думаю, що люди не використовують РЛ для навчання (можливо, вони використовують для якихось рухових завдань і т.д., але не для завдань з інтелектуального вирішення проблем). Люди використовують різні парадигми навчання, які є значно потужнішими та ефективними для вибірки, і які ще не були належним чином винайдені та масштабовані, хоча існують ранні ескізи та ідеї (як лише один із прикладів, ідея «системного оперативного навчання», перенесення оновлення на лексеми/контексти, а не ваги, і, за бажанням, переведення на ваги як окремий процес, трохи схожий на сон).
372,54K
Користувач Prime Intellect поділився
Наступне покоління стартапу з оцінки 10B+ буде побудовано шляхом масштабування навчання на власному середовищі RL
Ми живемо в достатку можливостей, але у нас є лише два основні продукти зі штучним інтелектом, chatgpt і агент кодування, і це мене глибоко засмучує
Нинішній ланцюжок поставок штучного інтелекту структурно розірваний: один постачальник обладнання, пара гігантських гравців зі штучним інтелектом, які володіють усім інтелектуальним нафтопереробним заводом, розробники залишаються з доступом до API майже без контролю
Начебто епоха Інтернету була побудована з Intel, яка продавала процесор 4 гігантським хмарам, володіла цілою інфраструктурою та програмним стеком із секретом і nda всюди і давала wordpress як набір для розробки для стартапу
Чому розгубленість не винайшла глибоких досліджень? Вони просто не могли, тому що це тренування з RL
Мій прогноз на найближчі роки:
RL стане найпотужнішим інструментарієм для стартапів, створюючи AI-продукт. Ми побачимо сотні історій успіху, як курсор і симпатичний. Кінцевий користувач отримає від цього найбільшу вигоду
Великі лабораторії еволюціонують до продуктової компанії, oai зосередиться на споживчому ринку, Antropic зосередиться на кодувальному агенті, deepmind інтегрує штучний інтелект у всі бізнеси Google, meta та XAI боротимуться за соціальні мережі
Ми побачимо появу екосистеми стартапів з інфраструктури штучного інтелекту, які продають обчислення, навчають базову модель, курують дані, створюють середовище RL, пропонують дешеві висновки та навчання, засновані на відкритій науці та програмному забезпеченні з відкритим вихідним кодом.
@PrimeIntellect є піонером цієї екосистеми та бачення відкритого вихідного коду AGI, RL environment hub є одним із перших ключових елементів
3,2K
Користувач Prime Intellect поділився
Середовища RL з відкритим вихідним кодом можуть бути найважливішою відсутністю елемента для масштабування до AGI з відкритим вихідним кодом.
Ми створили центр спільноти, щоб використовувати їх на краудсорсингу просто неба
Дякую всім чудовим учасникам, які вже створили середовища за останні кілька днів

12,8K
Користувач Prime Intellect поділився
Наступне покоління стартапу з оцінки 10B+ буде побудовано шляхом масштабування навчання на власному середовищі RL
Ми живемо в достатку можливостей, але у нас є лише два основні продукти зі штучним інтелектом, chatgpt і агент кодування, і це мене глибоко засмучує
Нинішній ланцюжок поставок штучного інтелекту структурно розірваний: один постачальник обладнання, пара гігантських гравців зі штучним інтелектом, які володіють усім інтелектуальним нафтопереробним заводом, розробники залишаються з доступом до API майже без контролю
Начебто епоха Інтернету була побудована з Intel, яка продавала процесор 4 гігантським хмарам, володіла цілою інфраструктурою та програмним стеком із секретом і nda всюди і давала wordpress як набір для розробки для стартапу
Чому розгубленість не винайшла глибоких досліджень? Вони просто не могли, тому що це тренування з RL
**Мій прогноз на наступні роки**:
RL стане найпотужнішим інструментарієм для стартапів, створюючи AI-продукт. Ми побачимо сотні історій успіху, як курсор і симпатичний. Кінцевий користувач отримає від цього найбільшу вигоду
Великі лабораторії еволюціонують до продуктової компанії, oai зосередиться на споживчому ринку, Antropic зосередиться на кодувальному агенті, deepmind інтегрує штучний інтелект у всі бізнеси Google, meta та XAI боротимуться за соціальні мережі
Ми побачимо появу екосистеми стартапів з інфраструктури штучного інтелекту, які продають обчислення, навчають базову модель, курують дані, створюють середовище RL, пропонують дешеві висновки та навчання, засновані на відкритій науці та програмному забезпеченні з відкритим вихідним кодом.
@PrimeIntellect є піонером цієї екосистеми та бачення відкритого вихідного коду AGI, RL environment hub є одним із перших ключових елементів
6,39K
Знайомство з Environments Hub
Середовища RL є ключовим вузьким місцем для наступної хвилі прогресу штучного інтелекту, але великі лабораторії блокують їх
Ми створили платформу спільноти для краудсорсингу відкритих середовищ, тому будь-хто може зробити свій внесок у AGI з відкритим вихідним кодом
5,64K
Тепер ми підтримуємо Slurm (а незабаром і Kubernetes) для наших багатовузлових налаштувань H100, H200 і B200:


Jannik27 серп., 00:15
Підтримка SLURM щойно припинена на Prime для наших конфігурацій H100, H200 і B200 Multi Node

7,4K
Тепер ми підтримуємо Slurm (а незабаром і Kubernetes) для наших багатовузлових конфігурацій H100, H200 і B200


Jannik27 серп., 00:15
Підтримка SLURM щойно припинена на Prime для наших конфігурацій H100, H200 і B200 Multi Node

116
Користувач Prime Intellect поділився
Оголошення 2-ї когорти грантів на флексію – Compute Edition ☀️
У партнерстві з @PrimeIntellect ми надаємо 5 молодим будівельникам 2 000 доларів США у вигляді комп'ютерних кредитів на проєкти з енергетичних кордонів, що охоплюють штучний інтелект, охорону здоров'я, біотехнології та космос.
Познайомтеся з грантоотримувачами 👇

5,47K
Найкращі
Рейтинг
Вибране