GLM-4.7 由 @Zai_org 在 io.intelligence 上发布 LiveCodeBench: 84.9% Claude Sonnet 4.5: 64% 开源模型在编码基准测试中超越了 Anthropic 的旗舰产品。"保留思维"机制在长时间的代理会话中确实有效。 阅读更多: