热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我一直想不通为什么扎克伯格花了150亿美元收购ScaleAI的15名员工(数据公司)
所以我深入研究了一下,觉得我找到了答案:
我们并没有数据短缺。实际上,情况正好相反。
一辆自动驾驶汽车每小时会产生2TB(相当于80万本书)的数据。
问题在于,这些数据杂乱无章,难以输入到LLM中进行训练,因此它们被扔进了数据墓地,留给其他人去解决(但没有人去做)。
优秀数据工程师的严重短缺
我提到的那个墓地实际上是一个金矿,如果你能从中筛选出来的话。
问题是,能做到这一点的人非常少。猜测这就是扎克伯格花150亿美元收购ScaleAI员工的原因。
高质量的数据比“数据量”更有价值
尤其是对于后期训练模型(例如测试时计算)。
它还需要更少的计算,从而降低模型训练的成本。
所以,如果你的训练团队能够1. 筛选高质量数据 2. 将其注入后期训练 3. 降低成本 - 你就会赢得AI竞赛(无价)。
1.58K
热门
排行
收藏