Jag älskar mångfalden av trendiga öppna datamängder nuförtiden. Det finns ingen ursäkt längre för att inte träna dina egna modeller! - Fineweb och en blandning av det av @karpathy - Webscale-RL, en storskalig datauppsättning för förstärkningsinlärning från @salesforce - SVQ, en ljuddatauppsättning från @Google - Fantastiska chatgpt-uppmaningar med nästan 10 000 gilla-markeringar av @fkadev - En delmängd av Math-datauppsättningen efter @DanHendrycks - Nemotron-personas av @nvidia - En arabisk datamängd av @rightnowai_co - En kurerad datauppsättning med 1,5 miljoner+ @github förråd - Toucan-1.5M, den största helt syntetiska datauppsättningen för verktygsagenter - En vetenskaplig artikel från @arxiv - En datauppsättning för cybersäkerhet från @NIST av @ethanolivertroy Detta är bara den nuvarande trenden bland över en halv miljon offentliga datamängder på @huggingface!