¡Me encanta la diversidad de conjuntos de datos abiertos en tendencia estos días! Ya no hay excusa para no entrenar tus propios modelos! - Fineweb y una mezcla de él por @karpathy - Webscale-RL, un conjunto de datos de aprendizaje por refuerzo a gran escala de @salesforce - SVQ, un conjunto de datos de audio de @Google - Prompts increíbles de chatgpt con casi 10,000 likes por @fkadev - Un subconjunto del conjunto de datos de Matemáticas por @DanHendrycks - Personas de Nemotron por @nvidia - Un conjunto de datos en árabe por @rightnowai_co - Un conjunto de datos curado de más de 1.5M de repositorios de @github - Toucan-1.5M, el conjunto de datos de herramientas-agentes completamente sintético más grande - Un conjunto de datos de artículos científicos de @arxiv - Un conjunto de datos de ciberseguridad de @NIST por @ethanolivertroy ¡Estos son solo los actuales en tendencia entre más de medio millón de conjuntos de datos públicos en @huggingface!