ik kon niet begrijpen waarom zuck $15B betaalde om 15 werknemers van scaleAI (data bedrijf) te verwerven. dus ik ben er dieper op ingedoken en denk dat ik het heb uitgevogeld: We raken niet zonder data. Eigenlijk is het het tegenovergestelde. Een enkele zelfrijdende auto produceert 2TB (dat zijn 800.000 boeken) aan data PER UUR. Het probleem is dat die data een rommel is, niet gemakkelijk te verwerken in een LLM om te trainen, dus het wordt gewoon in een datagraven gegooid voor iemand anders om op te lossen (niemand doet dat). Er is een ernstige schaarste aan goede data-engineers. Dat graf dat ik hierboven noemde is eigenlijk een goudmijn als je er doorheen kunt sorteren. Het probleem is dat heel weinig mensen de hersens of tijd hebben. Ik gok dat dit is waarom zuck $15B betaalde voor scaleAI-werknemers. Hogere kwaliteit data is veel waardevoller dan de "hoeveelheid" data. Vooral voor post-training modellen (bijv. testtijd rekentijd). Het vereist ook minder rekentijd, wat de kosten voor het trainen van modellen verlaagt. Dus als je trainingsteam 1. Hoge kwaliteit data kan sorteren 2. Het kan injecteren in post-training en 3. De kosten kan verlagen - dan ga je de AI-race winnen (onbetaalbaar).
1,58K