無法理解為什麼 Zuck 會花 150 億美元收購來自 ScaleAI(數據公司)的 15 名員工。 所以我深入研究了一下,認為我找到了答案: 我們並不是在數據上耗盡。實際上,情況正好相反。 一輛自駕車每小時會產生 2TB(相當於 80 萬本書)的數據。 問題是這些數據雜亂無章,難以輸入 LLM 進行訓練,因此它們就被丟進數據墓地,讓其他人去解決(但沒有人去做)。 優秀數據工程師的嚴重短缺。 我提到的那個墓地其實是一座金礦,如果你能夠篩選出來。 問題是,能夠做到這一點的人非常少。猜測這就是為什麼 Zuck 會花 150 億美元收購 ScaleAI 員工的原因。 高質量的數據比“數據量”更有價值。 特別是對於後訓練模型(例如測試時計算)。 它還需要更少的計算,從而降低訓練模型的成本。 所以如果你的訓練團隊能夠 1. 篩選高質量數據 2. 將其注入後訓練 3. 降低成本 - 你就會贏得 AI 競賽(無價)。
1.6K