Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Alguém já experimentou este LLM de pensador agente da ByteDance? 👀
Ou o hype em torno dos modelos chineses de código aberto diminuiu?
Modelos Instruct e Based de 36B (mesmo base sem dados sintéticos) com alguns ótimos (SOTA?) benchmarks 🤔
Vamos cobrir isso amanhã no @thursdai_pod


21/08, 04:02
A ByteDance lança o Seed-OSS (Apache-2.0): série de LLMs abertos (12T tokens) otimizada para 512K ctx, raciocínio, tarefas de agente, i18n (uso internacional). O lançamento inclui Seed-OSS-36B-Base (com e sem dados sintéticos) e Seed-OSS-36B-Instruct
- Arquitetura: 36B parâmetros, 64L, oculto 5120, vocabulário 155K, GQA (80/8/8, cabeça 128), SwiGLU, RMSNorm, base RoPE 1e7
- Orçamento de Pensamento: Controlar o comprimento do raciocínio (múltiplos de 512), auto-reflexão CoT, 0 = respostas diretas, padrão = ilimitado
36B-Base (com vs sem sint.)
- MMLU-Pro 65.1 / 60.4 | MMLU 84.9 / 84.8 | TriviaQA 82.1 / 81.9 | GPQA-D 31.7 / 35.2
- BBH 87.7 / 87.2 | AGIEval-en 70.7 / 70.1
- GSM8K 90.8 / 90.3 | MATH 81.7 SOTA / 61.3
- MBPP 80.6 / 74.6 | HumanEval 76.8 / 75.6
36B-Instruct
- MMLU-Pro 82.7 | MMLU 87.4 | GPQA-D 71.4 | SuperGPQA 55.7
- AIME24 91.7 SOTA | AIME25 84.7 | BeyondAIME 65
- ArcAGI V2 40.6 | KORBench 70.6
- LiveCodeBench v6 67.4 SOTA | HLE 10.1
- IFEval 85.8 | TAU1-Retail 70.4 SOTA | TAU1-Airline 46
- SWE-Bench Verificado 56 SOTA | Multi-SWE-Bench 17
- MMMLU 78.4 | RULER (128K) 94.6 SOTA | AIR-Bench 75.6
Inferência: Transformers, vLLM (≥0.10.0), FlashAttention2, quantização 4/8 bits

172
Top
Classificação
Favoritos