トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
欠伸 🥱
美団(配達アプリ会社~DoorDash)も、フロンティアLLMをMeta>>出荷しています。 以下の投稿 I の引用では、560B MoE モデルで使用される多くの SOTA 技術的なトリックについて説明します。
数年前、私は北京で中国IMOチームのコーチに会いました。 彼は、その気になれば、毎年複数の金メダリストチームを派遣できると言いました。 中国の生成AIチームのパフォーマンスはこれを裏付けています - MetaとSOTA>>、そこで生産されたモデルの数は数え切れません。
~世界のAI人材の半分は中国にいて、米国のAI人材の半分は中国出身です。
世界最大かつ(おそらく)最も革新的な経済をわざわざ追いかけようとしない無知なアメリカ人のために:
美団(中国語:美團; ピンイン: Měituán、文字通り「美しいグループ」。 旧美団大眾点評、文字通り「美しいグループレビュー」)は、フードデリバリー、レストランなど、幅広い地元消費者にプラットフォームを提供する中国のテクノロジー企業です レビュー、旅行予約、小売サービス。 同社は北京に本社を置き、2010年にWang Xingによって設立されました。


22時間前
@Meituan_LongCat LongCat-Flash のテクニカル レポートは非常に優れており、目新しさに満ちています。
このモデルは、560Bパッシブ~27BのアクティブMoEで、Zero-Computationalの専門家のおかげで、コンテキストに応じてアクティブパラメータの数を適応させます。
1) 新しいアーキテクチャ
>レイヤーには2つのアテンションブロックとFFNとMoEの両方があり、2つのオールツーオールコムをオーバーラップできます。(また、28層しかありませんが、2つのアテンションブロックを考慮する必要があります)。
> 彼らは、トークンが選択して何もできないというゼロ計算の専門家を追加し、簡単なトークンの「シンク」のようなものです。
> 負荷分散のために、トークンごとの平均本物/偽のエキスパートを設定するための dsv3 のような aux loss free があります。このバイアス更新に減衰スケジュールを適用します。また、損失残高管理も行います。
2) スケーリング
> MLA/MoE に変更を加えて、初期時に分散を調整しました。図5の利益は非常に印象的ですが、これが後でどの程度影響を与えるかはわかりません。
> モデルの成長初期化は非常にクールで、最初に 2 倍小さいモデルをトレーニングし、次に「十分にトレーニングされたら」(ここでは B トークンの数が少し不明瞭です) 小さなモデルのレイヤーを積み重ねるだけで最終モデルを初期化します。
> 彼らは、@_katieeverett @Locchiuとal.紙を使用して、2倍小さいモデルigのmuPの代わりにSPでハイパーパラメータ転送を行いました。
3) 安定性
> 彼らは、専門家間の勾配ノルム比とコサイン類似性を追跡して、負荷分散損失の重みを調整します(彼らは勾配ノルム比<0.1)を推奨しています)。> 大きな活性化を避けるために、かなり小さな係数で隠れ状態にz損失を適用します(qk-clip / normの別の代替手段)。
> 彼らは Adam epsilon を 1e-16 に設定し、勾配 RMS 範囲よりも低くしたいことを示しています。
4) その他
> フェーズ 1 では 20T トークンでトレーニングし、STEM/コード データ (混合物の 70%) での中間トレーニングでは「複数の T トークン」でトレーニングし、糸を使用しない長いコンテキスト拡張では 100B でトレーニングします (32k の場合は 80B、128k の場合は 20B)。長いコンテキストのドキュメントは、混合物の25%を占めます(ドキュメントとトークンの%なのかはわかりませんが、ここでは大きく変わります)。
> 事前トレーニング データ パイプラインは、コンテキスト抽出、品質フィルタリング、重複排除です。
> ニース付録では、さまざまなベンチマークに必要なtop_kを比較しています (MMLU が高いのは 8.32、GSM8K は低い 7.46)。また、深い層と浅い層でのトークンの割り当ても比較します。
> Meeseeks(マルチターンIF)とVitaBench(実世界のビジネスシナリオ)という2つの新しいベンチマークをリリースしています。
> 投機的デコードの受け入れ、量子化、展開、カーネルの最適化、通信の重複などに関する情報を含む、インフラ/推論の詳細が多数あります。
> スレッド🧵内のさまざまな関連論文のリスト

11.91K
トップ
ランキング
お気に入り