Мені подобається різноманіття трендових наборів відкритих даних сьогодні. Більше немає виправдання, щоб не тренувати власних моделей! - Fineweb і його перемішування по @karpathy - Webscale-RL, великомасштабний набір даних для навчання з підкріпленням від @salesforce - SVQ — аудіонабір даних з @Google - Приголомшливі підказки chatgpt з майже 10 000 лайків від @fkadev - Підмножина набору даних Math за @DanHendrycks - Персони Nemotron від @nvidia - Арабський набір даних за @rightnowai_co - Кураторський набір даних з 1,5 млн+ @github репозиторіїв - Toucan-1.5M, найбільший повністю синтетичний набір даних інструментів-агентів - Набір даних наукової статті з @arxiv - Набір даних з кібербезпеки від @NIST by @ethanolivertroy Це лише поточна тенденція серед понад півмільйона публічних наборів даних про @huggingface!