Ich konnte nicht fassen, warum Zuck 15 Milliarden Dollar gezahlt hat, um 15 Mitarbeiter von ScaleAI (Datenunternehmen) zu übernehmen. Also habe ich tief eingegraben und denke, ich habe es herausgefunden: Wir laufen nicht aus Daten heraus. Tatsächlich ist es das Gegenteil. Ein einzelnes selbstfahrendes Auto produziert pro Stunde 2 TB (das sind 800.000 Bücher) an Daten. Das Problem ist, dass diese Daten ein Durcheinander sind, nicht leicht in ein LLM zu speisen, um es zu trainieren, also wird es einfach auf einen Datenfriedhof geworfen, den jemand anders lösen soll (niemand tut es). Es gibt einen schweren Mangel an guten Dateningenieuren. Der Friedhof, den ich oben erwähnt habe, ist tatsächlich eine Goldmine, wenn man ihn durchforsten kann. Das Problem ist, dass sehr wenige Menschen das Gehirn oder die Zeit haben. Ich schätze, das ist der Grund, warum Zuck 15 Milliarden Dollar für die Mitarbeiter von ScaleAI gezahlt hat. Höherwertige Daten sind viel wertvoller als die "Menge" an Daten. Besonders für Post-Training-Modelle (z. B. Testzeit-Compute). Es erfordert auch weniger Rechenleistung, was die Kosten für das Training von Modellen senkt. Wenn dein Trainingsteam also 1. Hochwertige Daten sortieren kann, 2. Diese in das Post-Training injizieren kann und 3. Die Kosten senken kann - wirst du das AI-Rennen gewinnen (unbezahlbar).
1,61K