我一直想不通为什么扎克伯格花了150亿美元收购ScaleAI的15名员工(数据公司) 所以我深入研究了一下,觉得我找到了答案: 我们并没有数据短缺。实际上,情况正好相反。 一辆自动驾驶汽车每小时会产生2TB(相当于80万本书)的数据。 问题在于,这些数据杂乱无章,难以输入到LLM中进行训练,因此它们被扔进了数据墓地,留给其他人去解决(但没有人去做)。 优秀数据工程师的严重短缺 我提到的那个墓地实际上是一个金矿,如果你能从中筛选出来的话。 问题是,能做到这一点的人非常少。猜测这就是扎克伯格花150亿美元收购ScaleAI员工的原因。 高质量的数据比“数据量”更有价值 尤其是对于后期训练模型(例如测试时计算)。 它还需要更少的计算,从而降低模型训练的成本。 所以,如果你的训练团队能够1. 筛选高质量数据 2. 将其注入后期训练 3. 降低成本 - 你就会赢得AI竞赛(无价)。
1.58K