¿Alguien prueba este LLM pensador agente de ByteDance? 👀 ¿O ha disminuido la exageración en torno a los modelos chinos de código abierto? 36B Instruir y Modelos Basados (incluso base sin datos sintéticos 🤔) con algunos bancos excelentes (¿SOTA?) Vamos a cubrir mañana en @thursdai_pod
𝚐𝔪𝟾𝚡𝚡𝟾
𝚐𝔪𝟾𝚡𝚡𝟾21 ago, 04:02
ByteDance lanza Seed-OSS (Apache-2.0): serie LLM abierta (tokens 12T) optimizada para 512K ctx, razonamiento, tareas de agente, i18n (uso internacional). La versión incluye Seed-OSS-36B-Base (con y sin datos sintéticos) y Seed-OSS-36B-Instruct - Arco: 36B parámetros, 64L, oculto 5120, vocabulario 155K, GQA (80/8/8, cabezal 128), SwiGLU, RMSNorm, base RoPE 1e7 - Presupuesto de pensamiento: Controlar la longitud del razonamiento (múltiplos de 512), autorreflexión de CoT, 0 = respuestas directas, predeterminado = ilimitado 36B-Base (con vs. sin syn.) - MMLU-Pro 65.1 / 60.4 | MMLU 84.9 / 84.8 | CuriosidadesQA 82.1 / 81.9 | GPQA-D 31.7 / 35.2 - BBH 87.7 / 87.2 | AGIEval-en 70.7 / 70.1 - GSM8K 90.8 / 90.3 | MATEMÁTICAS 81.7 SOTA / 61.3 - MBPP 80.6 / 74.6 | Evaluación humana 76.8 / 75.6 36B-Instruir - MMLU-Pro 82.7 | MMLU 87.4 | GPQA-D 71.4 | SuperGPQA 55.7 - AIME24 91.7 SOTA | AIME25 84.7 | Más allá de AIME 65 - ArcAGI V2 40.6 | KORBench 70.6 - LiveCodeBench v6 67.4 SOTA | HLE 10.1 - IFEval 85.8 | TAU1-Retail 70.4 SOTA | TAU1-Aerolínea 46 - SWE-Bench verificado 56 SOTA | Multi-SWE-Bench 17 - MMMLU 78.4 | REGLA (128K) 94.6 SOTA | Banco de aire 75.6 Inferencia: Transformers, vLLM (≥0.10.0), FlashAttention2, cuantificación de 4/8 bits
161