热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
了不起。中国又来了…

11月7日 05:10
MoonshotAI 发布了 Kimi K2 Thinking,这是 Kimi K2 的一种新的推理变体,在 Tau2 Bench Telecom 代理基准中获得了第一名,并可能成为新的领先开放权重模型。
Kimi K2 Thinking 是有史以来最大的开放权重模型之一,总参数量为 1T,活跃参数为 32B。K2 Thinking 是 @Kimi_Moonshot 的 Kimi K2 模型系列中首次发布的推理模型,之前在 2025 年 7 月和 9 月发布了非推理的 Kimi K2 Instruct 模型。
关键要点:
➤ 在代理任务上的强劲表现:Kimi K2 Thinking 在 𝜏²-Bench Telecom 中达到了 93%,这是一个代理工具使用基准,模型充当客户服务代理。这是我们独立测量的最高分数。Kimi K2 Instruct 在长时间代理上下文中的工具使用是其强项,而这个新的 Thinking 变体似乎在这方面取得了显著进展。
➤ Kimi K2 Instruct 的推理变体:该模型,顾名思义,是 Kimi K2 Instruct 的推理变体。该模型与 Kimi K2 Instruct 具有相同的架构和相同数量的参数(尽管精度不同),并且像 K2 Instruct 一样,仅支持文本作为输入(和输出)模态。
➤ 1T 参数但使用 INT4 而不是 FP8:与 Moonshot 之前使用 FP8 精度的 Kimi K2 Instruct 发布不同,该模型以 INT4 精度原生发布。Moonshot 在后训练阶段使用了量化感知训练来实现这一点。其影响是 K2 Thinking 仅约 594GB,而 K2 Instruct 和 K2 Instruct 0905 则超过 1TB——这为推理和训练带来了效率提升。INT4 的一个潜在原因是,早期的 Blackwell NVIDIA GPU 不支持 FP4,使得 INT4 更适合在早期硬件上实现效率提升。
我们的完整人工分析智能指数基准正在进行中,我们会在完成后尽快提供更新。

@Kimi_Moonshot 的主要投资者:
阿里巴巴(40% 的股东)、腾讯、美团、蚂蚁集团、红杉资本……以及微软参与!
3.53K
热门
排行
收藏

