打哈欠 🥱 甚至美團(外賣應用公司 ~ DoorDash)也在前沿 LLM 方面超越了 Meta。以下我引用的帖子描述了在 560B MoE 模型中使用的許多 SOTA 技術技巧。 幾年前,我在北京與中國 IMO 團隊的教練見面。他告訴我,如果他們想的話,每年可以派出多支金牌團隊。中國的 genAI 團隊的表現支持了這一點——我已經數不清那裡的模型數量,它們都超越了 Meta 和 SOTA。 世界上大約一半的 AI 人才在中國,而美國的 AI 人才中有一半來自中國。 對於那些不願意關注世界上最大且(可以說)最具創新性的經濟體的無知美國人: 美團(中文:美團;拼音:Měituán,字面意思是“美麗的團體”;前稱美團–點評,字面意思是“美麗的團體–評論”)是一家中國科技公司,提供廣泛的本地消費平台,包括外賣、餐廳評論、旅行預訂和零售服務。該公司總部位於北京,成立於2010年,由王興創辦。
elie
elie22 小時前
@Meituan_LongCat 的 LongCat-Flash 技術報告非常出色,充滿了新穎性。 該模型是一個 560B 被動 ~27B 活動 MoE,具有根據上下文自適應的活動參數數量,這要歸功於零計算專家。 1) 新架構 > 層具有 2 個注意力塊,同時包含 FFN 和 MoE,這樣可以重疊這兩個全連接通信。(雖然只有 28 層,但必須考慮到 2 個注意力塊)。 > 他們添加了零計算專家,令標記可以選擇並不做任何事情,有點像“水槽”用於簡單標記。 > 為了負載均衡,他們有一個類似 dsv3 的輔助損失,可以自由設置每個標記的真實/虛假專家的平均值。他們對這個偏差更新應用了衰減計劃。他們還進行了損失平衡控制。 2) 擴展 > 他們對 MLA/MoE 進行了更改,以在初始化時實現方差對齊。圖 5 中的增益相當令人印象深刻,但我不知道這在後期會產生多大影響。 > 模型增長初始化相當酷,他們首先訓練一個小 2 倍的模型,然後“當它訓練得足夠好時”(這裡不太清楚需要多少 B 個標記)通過簡單堆疊小模型的層來初始化最終模型。 > 他們使用了 @_katieeverett @Locchiu 等人的論文,通過 SP 而不是 muP 進行超參數轉移,以適應 2 倍小的模型。 3) 穩定性 > 他們跟蹤梯度範數比和專家之間的餘弦相似度,以調整負載均衡損失的權重(他們建議梯度範數比 <0.1)。 > 為了避免大激活,他們對隱藏狀態應用了 z-loss,係數相當小(這是 qk-clip/norm 的另一種替代方案)。 > 他們將 Adam 的 epsilon 設置為 1e-16,並表明希望其低於梯度 RMS 範圍。 4) 其他 > 他們在階段 1 上訓練了 20T 個標記,在 STEM/code 數據上進行中期訓練時“多個 T 的標記”(混合物的 70%),在沒有紗線的情況下進行長上下文擴展時為 100B(32k 為 80B,128k 為 20B)。長上下文文檔占混合物的 25%(不確定這是文檔的百分比還是標記的百分比,這裡變化很大)。 > 預訓練數據管道是上下文提取、質量過濾、去重。 > 附錄中很好地展示了他們比較不同基準所需的 top_k(MMLU 較高為 8.32,GSM8K 較低為 7.46)。他們還比較了深層/淺層的標記分配。 > 他們發布了兩個新的基準 Meeseeks(多輪 IF)和 VitaBench(現實世界商業場景)。 > 在基礎設施/推理方面有很多細節,包括關於投機解碼接受、量化、部署、內核優化、通信重疊等的信息。 > 線程中列出了不同的相關論文 🧵
11.92K