Страждаєте від втоми від чат-бота? Засмучені тим, що сингулярність було скасовано? Шукаєте щось нове, що подарує вам надію? Ось мій маячний, але «гей, це начебто має сенс» план побудови суперінтелекту в моїй маленькій лабораторії інді-досліджень (примітка: я проміняю точність на педагогіку) По-перше, передісторія: Мені 33 роки, і я провів останні 22 роки за програмуванням. За цей час я поставив багато запитань про природу обчислень і накопичив деякі зовсім... Своєрідний... Розуміння. Кілька років тому я побудував HVM, систему, здатну запускати програми на езотеричній мові під назвою «Haskell» на графічному процесорі - так, той самий чіп, який змусив працювати глибоке навчання, і запустив весь цей цикл штучного інтелекту. але як Haskell ставиться до штучного інтелекту? Ну, це довга історія. як старші, можливо, пам'ятають, тоді те, що ми називали «штучним інтелектом», було... різний. Майже 3 десятиліття тому, вперше в історії, комп'ютер переміг чемпіона світу з шахів, викликавши безліч дискусій про AGI та сингулярність - так само, як і сьогодні! система, названа Deep Blue, сильно відрізнялася від моделей, які ми маємо сьогодні. У ньому не використовувалися трансформатори. При цьому взагалі не використовувалися нейронні мережі. По суті, ніякої «моделі» не існувало. це був чистий «символічний штучний інтелект», тобто це був просто звичайний старий алгоритм, який сканував мільярди можливих рухів, швидше і глибше, ніж будь-яка людина, перемагаючи нас чистою грубою силою. це викликало хвилю багатообіцяючих символічних досліджень штучного інтелекту. еволюційні алгоритми, графи знань, автоматизоване доведення теорем, розв'язувачі SAT/SMT, розв'язувачі обмежень, експертні системи та багато іншого. На жаль, з часом підхід вдарився об стіну. Побудовані вручну правила не масштабувалися, символічні системи не могли *навчатися* динамічно, і бульбашка лопала. розпочалася нова зима штучного інтелекту. Лише через роки дивний збіг факторів змінив усе. Дослідники змахнули пил зі старої ідеї - нейронних мереж - але цього разу у них з'явилося дещо нове: графічні процесори. Ці графічні чіпи, спочатку створені для рендерингу відеоігор, виявилися ідеальними для масивного множення матриць, якого вимагали нейронні мережі. Раптом те, на що йшли тижні, можна було зробити за кілька годин. Глибоке навчання вибухнуло, і ось ми сьогодні з трансформерами, які поїдають світ. Але ось у чому справа: ми перенесли на графічні процесори лише *одну* гілку ШІ – коннекціоністську, числову. Символічна сторона? він все ще застряг у кам'яному столітті процесорів. Haskell — це особлива мова, оскільки вона об'єднує мову доведень (тобто ідіому, яку математики використовують для вираження теорем) з мовою програмування (тобто тим, що розробники використовують для створення додатків). Це робить його унікально придатним для символьного міркування - саме такого типу обчислень, який використовував Deep Blue, але тепер ми можемо виконувати його масово паралельно на сучасному обладнанні. (Щоб бути більш точним, просто масивна паралельність графічного процесора - не єдина річ, яку HVM пропонує на стіл. Виявляється, це також призводить до *асимптотичних* прискорень у деяких випадках. І це ключова причина вірити в наш підхід: минулі символічні методи не просто були позбавлені обчислювального голоду. Вони були експоненціально повільними, в алгоритмічному сенсі. Не дивно, що вони не працювали. У них не було такої можливості.) Моя теза проста: тепер, коли я можу запустити Haskell на графічних процесорах, і враховуючи це асимптотичне прискорення, я можу воскресити ці старі символічні методи штучного інтелекту, масштабувати їх на порядки і подивитися, що станеться. Можливо, просто можливо, хтось із них нас здивує. Наша перша віха вже в русі: ми створили найшвидший у світі синтезатор program/proof, який я називаю SupGen. або NeoGen. або QuickGen? ми випустимо його як оновлення нашої мови "Bend", зробивши його загальнодоступним приблизно наприкінці жовтня. Потім, пізніше цього року, ми використаємо його як основу для нової дослідницької програми, шукаючи чисту символічну архітектуру, яка насправді може вчитися на даних і будувати узагальнення – не через градієнтне спуск і зворотне поширення, а через логічні міркування та синтез програм. Наші перші експерименти будуть дуже простими (на відміну від GPT-2), а головною віхою буде наявність «наступного інструменту для завершення токенів», який на 100% вільний від нейронних мереж. Якщо це спрацює, це може стати новаторським стрибком за межі трансформаторів і глибокого навчання, тому що це абсолютно новий підхід, який, швидше за все, позбудеться багатьох обмежень, успадкованих GPT, які сьогодні мають штучний інтелект. не просто проблеми з токенізатором (як R у полуниці), а фундаментальні проблеми, які заважають GPT ефективно навчатися та узагальнювати Маячні? певно Варто спробувати? абсолютно (тепер вгадайте, скільки було згенеровано штучним інтелектом, і яку модель я використовував)
36,88K