Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Вас цікавлять тренувальні дані нових моделей GPT-oss від OpenAI? Я теж був.
тому я згенерував 10 мільйонів прикладів з GPT-OSS-20b, провів деякий аналіз, і результати були... досить дивно
Час для глибокого занурення 🧵

Ось карта вбудованих поколінь
Модель обожнює математику та код. Я підказую ні з чим, і все ж це завжди аргументує. там просто йдеться про математику та код, і переважно англійською мовою
математика – ймовірність, ML, PDEs, топологія, diffeq
код – агентне програмне забезпечення, конкурентне програмування, наука про дані


Перше, що варто помітити, це те, що практично жодне з поколінь не схоже на природний веб-текст. Але, на диво, жодна з них не схожа на звичайну взаємодію з чат-ботом
ця річ чітко тренується за допомогою РЛ думати і вирішувати завдання за конкретними орієнтирами міркування. Більше нічого.
І це справді замучена модель. Тут модель галюцинує проблему програмування про доміно і намагається її вирішити, витрачаючи при цьому понад 30 000 токенів
Абсолютно без підказки, модель згенерувала і спробувала вирішити цю проблему доміно понад 5000 разів

запустив класифікатор на виходах, щоб отримати уявлення про те, які мови програмування знає GPT-OSS
Схоже, вони тренувалися майже на всьому, про що ви коли-небудь чули. особливо багато Perl
(До речі, з мого аналізу Java і Kotlin повинні бути набагато вище. Класифікатор міг піти не так)

чого ви не можете побачити на карті, так це те, що багато ланцюгів починаються англійською мовою, але повільно спускаються в Neuralese
ланцюжки міркувань щасливо чергуються між арабською, російською, тайською, корейською, китайською та українською мовами. потім зазвичай повертаються до англійської (але не завжди)


гіпотеза OCR:
деякі приклади включають артефакти, такі як OCRV ROOT, які вказують на те, що тренувальні дані могли бути
читання між рядків: OpenAI сканує книги
(Модель чомусь любить згадувати, скільки глухих людей живе в Малайзії)

Чим можна пояснити постійну зміну коду?
1. Компанія OpenAI розібралася з RL. Моделі вже не говорять англійською
2. Проблеми пошкодження даних через OCR або синтетичне навчання
3. Якось я змусив модель виводити занадто багато токенов і вони поступово виходять з розподілу
Є невелика кількість творчих результатів, що перемежовуються всюди
Ось один із прикладів, коли модель починає писати ескіз для норвезького сценарію 🤷 ♂️

Я також багато чому навчився з цього.
Модель *дуже* добре використовує Unicode
... але може погано розбиратися у фізиці. Що у світі є «функцією суперореолу»

Якщо ви хочете спробувати дані, ось вам, це на Huggingface:
Дайте мені знати, що ви знайдете!

МАЙБУТНЯ РОБОТА – дедуплікація
Незважаючи на те, що я варіював випадкове насіння та використовувану температуру, багато виходів є дуже надлишковими
Було б розумно провести дедуплікат, б'юся об заклад, що тут є лише 100 тисяч або менше переважно унікальних прикладів
МАЙБУТНЯ РОБОТА – опис відмінностей
@ZhongRuiqi має неймовірну роботу над методами опису різниці між двома розподілами тексту *на природній мові*
ми могли б порівняти виходи 20b з моделлю 120b, або LLAMA, або GPT-5...
МАЙБУТНЯ РОБОТА – пряма екстракція
ми працюємо над безпосереднім вилученням навчальних даних із моделей за допомогою RL та інших методів. ми представимо нашу першу роботу про це в COLM, і очікуємо більшого в цьому просторі
Можливо, ми зможемо безпосередньо витягнути дані з моделі 120B. одного разу 😎
147,76K
Найкращі
Рейтинг
Вибране