Ziewam 🥱 Nawet Meituan (firma zajmująca się dostawami ~ DoorDash) wysyła frontier LLM >> Meta. Post, który cytuję poniżej, opisuje wiele SOTA technicznych sztuczek używanych w modelu 560B MoE. Lata temu spotkałem się z trenerem drużyny IMO z PRC w Pekinie. Powiedział mi, że mogliby wystawić wiele drużyn złotych medalistów każdego roku, jeśli by chcieli. Wyniki zespołów genAI w Chinach to potwierdzają - straciłem rachubę modeli produkowanych tam, które są >> Meta i SOTA. ~Połowa talentów AI na świecie jest W Chinach, a połowa talentów AI w USA pochodzi Z Chin. Dla nieświadomych Amerykanów, którzy nie zadają sobie trudu, aby śledzić największą i (można argumentować) najbardziej innowacyjną gospodarkę na świecie: Meituan (chiński: 美团; pinyin: Měituán, dosłownie "piękna grupa"; wcześniej Meituan–Dianping, dosłownie "piękna grupa–recenzje") to chińska firma technologiczna, która oferuje platformę dla szerokiego zakresu lokalnych konsumentów, w tym dostaw jedzenia, recenzji restauracji, rezerwacji podróży i usług detalicznych. Firma ma siedzibę w Pekinie i została założona w 2010 roku przez Wanga Xinga.
elie
elie31 sie 2025
Raport techniczny @Meituan_LongCat LongCat-Flash jest niesamowity i pełen nowości. Model to 560B pasywny ~27B aktywny MoE z adaptacyjną liczbą aktywnych parametrów w zależności od kontekstu dzięki Zero-Computational expert. 1) Nowa architektura > Warstwy mają 2 bloki uwagi i zarówno FFN, jak i MoE, dzięki czemu można nałożyć na siebie 2 połączenia all-to-all. (to tylko 28 warstw, ale trzeba wziąć pod uwagę 2 bloki uwagi). > Dodają zero-computational expert, który tokeny mogą wybierać i nic nie robić, coś jak "sink" dla łatwych tokenów. > W celu równoważenia obciążenia mają aux loss podobny do dsv3, który można ustawić na średnią rzeczywistą/fałszywą ekspert per token. Stosują harmonogram wygaszania do tej aktualizacji biasu. Robią również kontrolę równowagi strat. 2) Skalowanie > Wprowadzili zmiany w MLA/MoE, aby mieć wyrównanie wariancji na początku. Zyski są dość imponujące na Rysunku 5, ale nie wiem, w jakim stopniu ma to wpływ później. > Inicjacja wzrostu modelu jest całkiem fajna, najpierw trenują model 2x mniejszy, a potem "gdy jest wystarczająco wytrenowany" (trochę niejasne, ile B tokenów) inicjują model końcowy, po prostu układając warstwy mniejszego modelu. > Użyli pracy @_katieeverett @Locchiu i in. do transferu hiperparametrów z SP zamiast muP dla 2x mniejszego modelu. 3) Stabilność > Śledzą stosunek normy gradientu i podobieństwo cosinusowe między ekspertami, aby dostosować wagę straty równoważenia obciążenia (zalecają stosunek normy gradientu <0.1). > Aby uniknąć dużych aktywacji, stosują z-loss do stanu ukrytego, z dość małym współczynnikiem (inna alternatywa dla qk-clip/norm). > Ustawiają epsilon Adama na 1e-16 i pokazują, że powinien być niższy niż zakres RMS gradientu. 4) Inne > Trenują na 20T tokenów w fazie 1, "wiele T tokenów" w trakcie treningu na danych STEM/kod (70% mieszanki), 100B na długie rozszerzenie kontekstu bez przędzy (80B dla 32k, 20B dla 128k). Długie dokumenty kontekstowe stanowią 25% mieszanki (nie jestem pewien, czy to % dokumentów, czy tokenów, co tutaj dużo zmienia). > Pipeline danych do wstępnego treningu to ekstrakcja kontekstu, filtrowanie jakości, deduplikacja. > Fajny dodatek, w którym pokazują, że porównują top_k potrzebne do różnych benchmarków (wyższe MMLU z 8.32, niższe GSM8K z 7.46). Porównują również alokację tokenów w głębokich/płytkich warstwach. > Wydają dwa nowe benchmarki Meeseeks (wieloturnowe IF) i VitaBench (scenariusz biznesowy w rzeczywistości). > Wiele szczegółów w infrastrukturze/inferencji z informacjami na temat akceptacji dekodowania spekulacyjnego, kwantyzacji, wdrożenia, optymalizacji jądra, nakładania się połączeń itp. > Lista różnych istotnych prac w wątku 🧵
14,23K