ZÍVNOUT 🥱 Dokonce i Meituan (společnost zabývající se doručovacími aplikacemi ~ DoorDash) dodává hraniční LLM >> Meta. Níže uvedená citace příspěvku popisuje mnoho technických triků SOTA použitých v modelu 560B MoE. Před lety jsem se setkal s trenérem týmu IMO ČLR v Pekingu. Řekl mi, že pokud chtějí, mohou každý rok postavit několik týmů zlatých medailistů. Výkon týmů genAI v Číně to podporuje - ztratil jsem přehled o počtu vyrobených modelů, které jsou >> Meta a SOTA. ~ Polovina talentů v oblasti umělé inteligence na světě je v Číně a polovina amerických talentů v oblasti umělé inteligence je z Číny. Pro bezradné Američany, kteří se neobtěžují sledovat největší a (pravděpodobně) nejinovativnější ekonomiku na světě: Meituan (čínsky: 美團; pinyin: Měituán, doslova "krásná skupina"; dříve Meituan–Dianping, doslova "krásná skupina – recenze") je čínská technologická společnost, která nabízí platformu pro širokou škálu místních spotřebitelů, včetně rozvozu jídla, restaurací recenze, cestovní rezervace a maloobchodní služby. Společnost má sídlo v Pekingu a byla založena v roce 2010 Wang Xingem.
elie
elie31. 8. 2025
Technická zpráva @Meituan_LongCat LongCat-Flash je šíleně dobrá a plná novinek. Model je 560B pasivní ~27B aktivní MoE s adaptivním počtem aktivních parametrů v závislosti na kontextu díky Zero-Computational expertovi. 1) Nová architektura > vrstvy mají 2 bloky pozornosti a FFN i MoE, takže se můžete překrývat se 2 all-to-all comy. (také je to jen 28 vrstev, ale musíte vzít v úvahu 2 bloky pozornosti). > Přidávají odborníka na nulový výpočet, že tokeny si mohou vybrat a nedělat nic, něco jako "jímka" pro snadné tokeny. > Pro vyvažování zátěže mají aux loss podobný dsv3 zdarma pro nastavení průměrného skutečného/falešného experta na token. Na tuto aktualizaci zkreslení aplikují plán rozpadu. Provádějí také kontrolu zůstatku ztrát. 2) Změna měřítka > Provedli změny v MLA/MoE, aby měli zarovnání rozptylu v inicializaci. Zisky jsou na obrázku 5 docela působivé, ale nevím, do jaké míry to bude mít dopad později. > Model growth init je docela cool, nejprve natrénují 2x menší model a pak "když je to dostatečně natrénované" (tady trochu není jasné, kolik B tokenů) inicializují finální model tím, že prostě naskládají vrstvy menšího modelu. > Použili @_katieeverett @Locchiu a al. papír pro přenos hyperparametrů s SP místo muP pro 2x menší model ig. 3) Stabilita > Sledují poměr Gradient Norm Ratio a kosinus podobnosti mezi odborníky, aby upravili váhu ztráty vyvažování zátěže (doporučují Gradient Norm Ratio <0,1). > Aby se vyhnuli velkým aktivacím, aplikují z-loss na skrytý stav s docela malým coefem (další alternativa k qk-clip/norm). > Nastaví Adam epsilon na 1e-16 a ukážou, že chcete, aby byl nižší než rozsah RMS gradientu. 4) Ostatní > Trénují na 20T tokenech pro fázi 1, "více T tokenů" pro střední trénování na datech STEM/kódu (70 % mixu), 100B pro rozšíření dlouhého kontextu bez příze (80B pro 32k, 20B pro 128k). Dokumenty s dlouhým kontextem představují 25 % mixu (nejsem si jistý, jestli je to % dokumentů nebo tokenů, což se zde hodně mění). > Pre-trénovacím datovým kanálem je extrakce kontextu, filtrování kvality, deduplikace. > Pěkný dodatek, kde ukazují, že porovnávají top_k potřebné pro různé benchmarky (vyšší MMLU s 8,32, nižší GSM8K s 7,46). Porovnávají také alokaci tokenů v hlubokých/mělkých vrstvách. > Vydávají dva nové benchmarky Meeseeks (víceotáčkové IF) a VitaBench (reálný obchodní scénář). > Spousta detailů v infra/inferenci s informacemi o spekulativním dekódování, přijetí, kvantizaci, nasazení, optimalizaci jádra, překrývání coms atd. > Seznam různých relevantních článků ve vlákně 🧵
11,94K