Adoro a diversidade de conjuntos de dados abertos em tendência atualmente. Não há mais desculpas para não treinar os seus próprios modelos! - Fineweb e uma mistura dele por @karpathy - Webscale-RL, um conjunto de dados de aprendizado por reforço em grande escala da @salesforce - SVQ, um conjunto de dados de áudio da @Google - Prompts incríveis do chatgpt com quase 10.000 likes por @fkadev - Um subconjunto do conjunto de dados Math por @DanHendrycks - Personas Nemotron por @nvidia - Um conjunto de dados árabe por @rightnowai_co - Um conjunto de dados curado de mais de 1,5M de repositórios @github - Toucan-1.5M, o maior conjunto de dados de ferramentas-agentes totalmente sintético - Um conjunto de dados de artigos científicos da @arxiv - Um conjunto de dados de cibersegurança da @NIST por @ethanolivertroy Estes são apenas os atuais em tendência entre mais de meio milhão de conjuntos de dados públicos no @huggingface!