nie mogłem zrozumieć, dlaczego zuck zapłacił 15 miliardów dolarów za 15 pracowników z scaleAI (firma zajmująca się danymi) więc zagłębiłem się w temat i myślę, że to rozgryzłem: Nie brakuje nam danych. Właściwie jest wręcz przeciwnie. jedno autonomiczne auto produkuje 2TB (to 800 000 książek) danych na GODZINĘ. problem polega na tym, że dane są chaotyczne, niełatwo je wprowadzić do LLM, aby je wytrenować, więc po prostu trafiają na cmentarz danych, aby ktoś inny to rozwiązał (nikt tego nie robi). Poważny niedobór dobrych inżynierów danych Ten cmentarz, o którym wspomniałem, to tak naprawdę kopalnia złota, jeśli potrafisz przez to przebrnąć problem w tym, że bardzo niewiele osób ma odpowiednie umiejętności lub czas. Przypuszczam, że dlatego zuck zapłacił 15 miliardów dolarów za pracowników scaleAI Dane o wyższej jakości są znacznie cenniejsze niż „ilość” danych Szczególnie dla modeli po treningu (np. obliczenia w czasie testu). wymaga to również mniej mocy obliczeniowej, co obniża koszty treningu modeli. więc jeśli twój zespół treningowy potrafi 1. Sortować dane wysokiej jakości 2. Wprowadzać je do post-treningu i 3. Obniżać koszty - wygrasz wyścig AI (bezcenne).
1,62K