热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
有人尝试过字节跳动的这个代理长文本思考者 LLM 吗?👀
还是说关于开源中文模型的热度已经下降了?
36B 指令和基础模型(即使是没有合成数据的基础模型)在一些很棒的(SOTA?)基准上表现出色 🤔
我们明天将在 @thursdai_pod 进行讨论。


8月21日 04:02
字节跳动发布 Seed-OSS (Apache-2.0):开放 LLM 系列(12T 令牌),针对 512K 上下文、推理、代理任务、国际化(国际使用)进行了优化。此次发布包括 Seed-OSS-36B-Base(有/无合成数据)和 Seed-OSS-36B-Instruct
- 架构:36B 参数,64 层,隐藏层 5120,词汇表 155K,GQA (80/8/8,头 128),SwiGLU,RMSNorm,RoPE 基础 1e7
- 思维预算:控制推理长度(512 的倍数),CoT 自我反思,0 = 直接答案,默认 = 无限
36B-Base(有合成数据 vs 无合成数据)
- MMLU-Pro 65.1 / 60.4 | MMLU 84.9 / 84.8 | TriviaQA 82.1 / 81.9 | GPQA-D 31.7 / 35.2
- BBH 87.7 / 87.2 | AGIEval-en 70.7 / 70.1
- GSM8K 90.8 / 90.3 | MATH 81.7 SOTA / 61.3
- MBPP 80.6 / 74.6 | HumanEval 76.8 / 75.6
36B-Instruct
- MMLU-Pro 82.7 | MMLU 87.4 | GPQA-D 71.4 | SuperGPQA 55.7
- AIME24 91.7 SOTA | AIME25 84.7 | BeyondAIME 65
- ArcAGI V2 40.6 | KORBench 70.6
- LiveCodeBench v6 67.4 SOTA | HLE 10.1
- IFEval 85.8 | TAU1-Retail 70.4 SOTA | TAU1-Airline 46
- SWE-Bench Verified 56 SOTA | Multi-SWE-Bench 17
- MMMLU 78.4 | RULER (128K) 94.6 SOTA | AIR-Bench 75.6
推理:Transformers,vLLM (≥0.10.0),FlashAttention2,4/8 位量化

3K
热门
排行
收藏