一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Bonk 生态迷因币展现强韧势头

Hosico+13.15%

USELESS+15.07%

IKUN+7.94%

gib+6.95%

有消息称 Pump.fun 计划 40 亿估值发币，引发市场猜测

Solana 新代币发射平台 Boop.Fun 风头正劲

BOOP+0.01%

Boopa+1.95%

PORK+7.2%

Anastasios Nikolas Angelopoulos

构建 LMArena。黑盒统计、模型评估。 @Berkeley_EECS博士，前学生研究员@GoogleDeepMind和@stanford_ee校友。

Anastasios Nikolas Angelopoulos2025年11月13日

这个版本真是太牛了。这是今年 LMArena 最大的更新之一！ Code Arena 是我们下一代的编码评估，首先从网页开发任务开始。在这里，你可以使用模型构建互动网站，并与朋友分享。链接是持久的，因此你可以例如构建一个游戏，并随时玩。在这里观看两个模型 -- @claudeai Haiku 和 @grok-Code-Fast -- 竞争构建一个银河。在这种情况下，我喜欢 Grok 的 "星际大战" 效果！

lmarena.ai2025年11月13日

🚀Introducing Code Arena: the next generation of live coding evals for frontier AI models. Built to test how models plan, scaffold, debug, and build real web apps step-by-step. Try Claude, GPT-5, GLM-4.6 and Gemini in Code Arena today!

127

Anastasios Nikolas Angelopoulos2025年11月6日

🏆新的LMARENA排行榜🏆 🤓专家 💻 软件与IT服务 ✍️ 写作、文学与语言 🔬 生命、物理与社会科学 🎭 娱乐、体育与媒体 📈 商业、管理与金融运营 🧮 数学 ⚖️ 法律与政府 🩺 医学与医疗保健对AI经济效用的评估（如GDPval）变得越来越相关，但收集成本高昂。我们与LMArena每月数百万贡献者的社区合作，天然地获取职业和专家数据，解决了可扩展性问题。 >5%的LMArena用户是专家，LMArena提示中有大量来自经济价值行业的内容：软件工程师、学生/研究人员、市场营销人员/设计师、医生、律师等。这使我们能够在这些类别中建立基于每天新反馈的在线排行榜。这体现了我们在@arena创建的现实反馈系统的力量!

lmarena.ai2025年11月6日

🚀 Introducing Arena Expert: a new LMArena evaluation framework to identify the toughest, most expert-level prompts from real users, powering a new Expert leaderboard. We also introduce Occupational Categories that underlie eight new leaderboards: 💻 Software & IT Services ✍️ Writing, Literature, & Language 🔬 Life, Physical, & Social Science 🎭 Entertainment, Sports, & Media 📈 Business, Management, & Financial Ops 🧮 Mathematical ⚖️ Legal & Government 🩺 Medicine & Healthcare Explore how models perform across fields in thread 🧵 👇

940

Anastasios Nikolas Angelopoulos2025年10月29日

LMArena 办公室今天热闹非凡。环境非常线性。我们在建设性地相互干扰，总是推动彼此学习，超越我们认为的极限。我们在招聘时寻找的首要特质是“卓越”。每天生产的工作都要达到最高的技术标准，体现工艺、性能和可靠性。还有其他因素，但绝不能在卓越上妥协。因此，我们团队中的每个人都是深厚的专家。这是建立高质量评估所必需的信心。卓越孕育卓越。没有人想在一群消极的人中工作——这会扼杀动力。我们不断提高标准，这就是带来能量感的原因。这是罕见的。如果你有兴趣在这样的环境中工作，给我发个私信。我们总是在寻找能够将标准提高一个档次的人。

106