Adoro a diversidade de conjuntos de dados abertos de tendências hoje em dia. Não há mais desculpa para não treinar seus próprios modelos! - Fineweb e um embaralhamento dele por @karpathy - Webscale-RL, um conjunto de dados de aprendizado por reforço em larga escala da @salesforce - SVQ, um conjunto de dados de áudio do @Google - Prompts incríveis do chatgpt com quase 10.000 curtidas por @fkadev - Um subconjunto do conjunto de dados de matemática por @DanHendrycks - Personas Nemotron por @nvidia - Um conjunto de dados árabe por @rightnowai_co - Um conjunto de dados com curadoria de 1,5 milhão + repositórios @github - Toucan-1.5M, o maior conjunto de dados de agente de ferramenta totalmente sintético - Um conjunto de dados de artigos científicos de @arxiv - Um conjunto de dados de segurança cibernética do @NIST por @ethanolivertroy Estas são apenas as tendências atuais entre mais de meio milhão de conjuntos de dados públicos no @huggingface!