我喜歡這些天趨勢開放數據集的多樣性。再也沒有理由不訓練自己的模型了! - Fineweb 和 @karpathy 的一個隨機排列 - Webscale-RL,來自 @salesforce 的大規模強化學習數據集 - SVQ,來自 @Google 的音頻數據集 - 由 @fkadev 提供的幾乎有 10,000 個讚的精彩 chatgpt 提示 - 由 @DanHendrycks 提供的數學數據集的子集 - 由 @nvidia 提供的 Nemotron 人物 - 由 @rightnowai_co 提供的阿拉伯語數據集 - 一個包含 1.5M+ @github 倉庫的策劃數據集 - Toucan-1.5M,最大的完全合成工具代理數據集 - 來自 @arxiv 的科學論文數據集 - 由 @NIST 和 @ethanolivertroy 提供的網絡安全數據集 這些只是 @huggingface 上超過五十萬個公共數據集中當前的熱門!