Me encanta la diversidad de conjuntos de datos abiertos de tendencia en estos días. ¡Ya no hay excusa para no entrenar a tus propios modelos! - Fineweb y una mezcla de ella por @karpathy - Webscale-RL, un conjunto de datos de aprendizaje por refuerzo a gran escala de @salesforce - SVQ, un conjunto de datos de audio de @Google - Impresionantes indicaciones de chatgpt con casi 10,000 me gusta por @fkadev - Un subconjunto del conjunto de datos matemático por @DanHendrycks - Personajes Nemotron por @nvidia - Un conjunto de datos en árabe de @rightnowai_co - Un conjunto de datos curado de 1.5M + repositorios @github - Toucan-1.5M, el mayor conjunto de datos de herramientas-agentes totalmente sintéticos - Un conjunto de datos de artículos científicos de @arxiv - Un conjunto de datos de ciberseguridad de @NIST por @ethanolivertroy ¡Estas son solo las tendencias actuales entre más de medio millón de conjuntos de datos públicos en @huggingface!