Ik hou van de diversiteit van trending open datasets deze dagen. Er is geen excuus meer om je eigen modellen niet te trainen! - Fineweb en een shuffle ervan door @karpathy - Webscale-RL, een grootschalige dataset voor reinforcement learning van @salesforce - SVQ, een audio dataset van @Google - Geweldige chatgpt prompts met bijna 10.000 likes door @fkadev - Een subset van de Math dataset door @DanHendrycks - Nemotron persona's door @nvidia - Een Arabische dataset door @rightnowai_co - Een samengestelde dataset van 1,5M+ @github repositories - Toucan-1.5M, de grootste volledig synthetische tool-agent dataset - Een dataset van wetenschappelijke artikelen van @arxiv - Een cybersecurity dataset van @NIST door @ethanolivertroy Dit zijn slechts de huidige trending onder meer dan een half miljoen publieke datasets op @huggingface!