Вас цікавлять тренувальні дані нових моделей GPT-oss від OpenAI? Я теж був. тому я згенерував 10 мільйонів прикладів з GPT-OSS-20b, провів деякий аналіз, і результати були... досить дивно Час для глибокого занурення 🧵
Ось карта вбудованих поколінь Модель обожнює математику та код. Я підказую ні з чим, і все ж це завжди аргументує. там просто йдеться про математику та код, і переважно англійською мовою математика – ймовірність, ML, PDEs, топологія, diffeq код – агентне програмне забезпечення, конкурентне програмування, наука про дані
Перше, що варто помітити, це те, що практично жодне з поколінь не схоже на природний веб-текст. Але, на диво, жодна з них не схожа на звичайну взаємодію з чат-ботом ця річ чітко тренується за допомогою РЛ думати і вирішувати завдання за конкретними орієнтирами міркування. Більше нічого.
І це справді замучена модель. Тут модель галюцинує проблему програмування про доміно і намагається її вирішити, витрачаючи при цьому понад 30 000 токенів Абсолютно без підказки, модель згенерувала і спробувала вирішити цю проблему доміно понад 5000 разів
запустив класифікатор на виходах, щоб отримати уявлення про те, які мови програмування знає GPT-OSS Схоже, вони тренувалися майже на всьому, про що ви коли-небудь чули. особливо багато Perl (До речі, з мого аналізу Java і Kotlin повинні бути набагато вище. Класифікатор міг піти не так)
чого ви не можете побачити на карті, так це те, що багато ланцюгів починаються англійською мовою, але повільно спускаються в Neuralese ланцюжки міркувань щасливо чергуються між арабською, російською, тайською, корейською, китайською та українською мовами. потім зазвичай повертаються до англійської (але не завжди)
гіпотеза OCR: деякі приклади включають артефакти, такі як OCRV ROOT, які вказують на те, що тренувальні дані могли бути читання між рядків: OpenAI сканує книги (Модель чомусь любить згадувати, скільки глухих людей живе в Малайзії)
Чим можна пояснити постійну зміну коду? 1. Компанія OpenAI розібралася з RL. Моделі вже не говорять англійською 2. Проблеми пошкодження даних через OCR або синтетичне навчання 3. Якось я змусив модель виводити занадто багато токенов і вони поступово виходять з розподілу
Є невелика кількість творчих результатів, що перемежовуються всюди Ось один із прикладів, коли модель починає писати ескіз для норвезького сценарію 🤷 ♂️
Я також багато чому навчився з цього. Модель *дуже* добре використовує Unicode ... але може погано розбиратися у фізиці. Що у світі є «функцією суперореолу»
Якщо ви хочете спробувати дані, ось вам, це на Huggingface: Дайте мені знати, що ви знайдете!
МАЙБУТНЯ РОБОТА – дедуплікація Незважаючи на те, що я варіював випадкове насіння та використовувану температуру, багато виходів є дуже надлишковими Було б розумно провести дедуплікат, б'юся об заклад, що тут є лише 100 тисяч або менше переважно унікальних прикладів
МАЙБУТНЯ РОБОТА – опис відмінностей @ZhongRuiqi має неймовірну роботу над методами опису різниці між двома розподілами тексту *на природній мові* ми могли б порівняти виходи 20b з моделлю 120b, або LLAMA, або GPT-5...
МАЙБУТНЯ РОБОТА – пряма екстракція ми працюємо над безпосереднім вилученням навчальних даних із моделей за допомогою RL та інших методів. ми представимо нашу першу роботу про це в COLM, і очікуємо більшого в цьому просторі Можливо, ми зможемо безпосередньо витягнути дані з моделі 120B. одного разу 😎
147,76K