一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

打哈欠 🥱 甚至美團（外賣應用公司 ~ DoorDash）也在前沿 LLM 方面超越了 Meta。以下我引用的帖子描述了在 560B MoE 模型中使用的許多 SOTA 技術技巧。幾年前，我在北京與中國 IMO 團隊的教練見面。他告訴我，如果他們想的話，每年可以派出多支金牌團隊。中國的 genAI 團隊的表現支持了這一點——我已經數不清那裡的模型數量，它們都超越了 Meta 和 SOTA。世界上大約一半的 AI 人才在中國，而美國的 AI 人才中有一半來自中國。對於那些不願意關注世界上最大且（可以說）最具創新性的經濟體的無知美國人：美團（中文：美團；拼音：Měituán，字面意思是“美麗的團體”；前稱美團–點評，字面意思是“美麗的團體–評論”）是一家中國科技公司，提供廣泛的本地消費平台，包括外賣、餐廳評論、旅行預訂和零售服務。該公司總部位於北京，成立於2010年，由王興創辦。

@Meituan_LongCat 的 LongCat-Flash 技術報告非常出色，充滿了新穎性。該模型是一個 560B 被動 ~27B 活動 MoE，具有根據上下文自適應的活動參數數量，這要歸功於零計算專家。 1) 新架構 > 層具有 2 個注意力塊，同時包含 FFN 和 MoE，這樣可以重疊這兩個全連接通信。（雖然只有 28 層，但必須考慮到 2 個注意力塊）。 > 他們添加了零計算專家，令標記可以選擇並不做任何事情，有點像“水槽”用於簡單標記。 > 為了負載均衡，他們有一個類似 dsv3 的輔助損失，可以自由設置每個標記的真實/虛假專家的平均值。他們對這個偏差更新應用了衰減計劃。他們還進行了損失平衡控制。 2) 擴展 > 他們對 MLA/MoE 進行了更改，以在初始化時實現方差對齊。圖 5 中的增益相當令人印象深刻，但我不知道這在後期會產生多大影響。 > 模型增長初始化相當酷，他們首先訓練一個小 2 倍的模型，然後“當它訓練得足夠好時”（這裡不太清楚需要多少 B 個標記）通過簡單堆疊小模型的層來初始化最終模型。 > 他們使用了 @_katieeverett @Locchiu 等人的論文，通過 SP 而不是 muP 進行超參數轉移，以適應 2 倍小的模型。 3) 穩定性 > 他們跟蹤梯度範數比和專家之間的餘弦相似度，以調整負載均衡損失的權重（他們建議梯度範數比 <0.1）。 > 為了避免大激活，他們對隱藏狀態應用了 z-loss，係數相當小（這是 qk-clip/norm 的另一種替代方案）。 > 他們將 Adam 的 epsilon 設置為 1e-16，並表明希望其低於梯度 RMS 範圍。 4) 其他 > 他們在階段 1 上訓練了 20T 個標記，在 STEM/code 數據上進行中期訓練時“多個 T 的標記”（混合物的 70%），在沒有紗線的情況下進行長上下文擴展時為 100B（32k 為 80B，128k 為 20B）。長上下文文檔占混合物的 25%（不確定這是文檔的百分比還是標記的百分比，這裡變化很大）。 > 預訓練數據管道是上下文提取、質量過濾、去重。 > 附錄中很好地展示了他們比較不同基準所需的 top_k（MMLU 較高為 8.32，GSM8K 較低為 7.46）。他們還比較了深層/淺層的標記分配。 > 他們發布了兩個新的基準 Meeseeks（多輪 IF）和 VitaBench（現實世界商業場景）。 > 在基礎設施/推理方面有很多細節，包括關於投機解碼接受、量化、部署、內核優化、通信重疊等的信息。 > 線程中列出了不同的相關論文 🧵

11.92K