Rakastan nykyään trendikkäiden avoimien tietojoukkojen monimuotoisuutta. Ei ole enää mitään tekosyytä olla kouluttamatta omia mallejasi! - Fineweb ja sen sekoitus @karpathy - Webscale-RL, laajamittainen vahvistusoppimisen tietojoukko vuodelta @salesforce - SVQ, ääniaineisto vuodelta @Google - Mahtavat chatgpt-kehotteet, joilla on lähes 10 000 tykkäystä @fkadev - Matematiikan tietojoukon osajoukko @DanHendrycks - Nemotron-persoonat kirjoittanut @nvidia - Arabiankielinen tietojoukko @rightnowai_co - Kuratoitu tietojoukko, jossa on 1,5 miljoonaa+ @github arkistoa - Toucan-1,5M, suurin täysin synteettinen työkalu-agentti-tietojoukko - Tieteellinen artikkeliaineisto vuodelta @arxiv - Kyberturvallisuustietojoukko @NIST by @ethanolivertroy Nämä ovat vain tämänhetkinen trendi yli puolen miljoonan julkisen tietojoukon joukossa @huggingface!