热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Jeffrey Emanuel
我有点惊讶的是,至今还没有人制作出一个《矮人要塞》的MCP服务器,能够让像Codex或Claude Code这样的代理高效地控制游戏并监控状态和进展。
我自己从来没有真正玩过,只是在大约10年前下载过并简单查看了一下,但我喜欢阅读关于它的内容。
这感觉像是一个非常好的大型语言模型(LLM)测试,看看它能让矮人们活得多长久并繁荣发展。
因为每个游戏最终都会导致某种级联灾难,导致所有矮人死亡,所以应该有一个自然的停止点,这使得它成为一个很好的基准候选者。至少这是我对它的理解(玩家的座右铭是“失败是有趣的”)。
在这个游戏中做得好将依赖于工具调用的准确性和持续的长任务一致性,以及监控和理解复杂系统动态的能力,并及时进行干预以预见和应对问题。
而且因为它是终端原生的,可以使用常规令牌高效传输和处理,而不需要多模态图像处理,这使得它比其他游戏更高效。
再加上你知道没有AI实验室为此进行过训练(还没有!),所以它没有受到“基准最大化”的污染。

1.81K
当你需要等几分钟时,有趣的事情就是用你的手机问Claude Opus以下问题,关于某个随机的学科或领域:
“你认为结晶学的核心见解或分析技巧是什么?”
把结晶学换成你能想到的任何东西。到目前为止,我尝试过:
量子电动力学;标准模型;生物化学;概率;进化论;还有很多其他。
强迫模型去做不可能的事情,将一个庞大复杂的领域浓缩成“一个奇怪的技巧”,这让它真正去寻找该领域中最深刻、统一的原则,然后简洁地表达出来。
这往往是从业者显而易见的东西,但对于大多数对该主题仅有略微兴趣的人来说,很可能是未知的。
有趣的是,你还可以用相同的提示反复按“重试”按钮,有时会得到非常不同但通常非常迷人的解释。
我已经从中学到了很多,这可能是我在任何自我导向学习中遇到的最高“每分钟理解量”。
因为它们不仅仅是有趣的事实或酷炫的小知识。它们本质上是深刻而统一的思想,将大量理论和观察到的现象联系在一起。
这无疑比观看又一个带有动画和Brilliant/KiwiCo广告的YouTube解释视频要高效得多!并不是说这些视频有什么问题。




5.75K
最近关于OpenAI出现了如此"人才外流"的想法,以至于他们不再有能力在这个领域中处于领先地位,这种想法和认为GPT-5"是个大失败,模型并不出色且非常渐进"的观点一样,都是误导和错误的。
不仅GPT-5 Pro现在是世界上最聪明的模型,在大多数具有挑战性的现实世界任务中(尤其是编码任务,这些任务现在具有最大的经济重要性)远远领先,而且OpenAI的新codex cli工具执行得非常出色。
他们从编码cli工具的遥远第三名跃升至现在可以说是最好的工具(注意我仍然喜欢并使用Claude Code,这不是非此即彼!),在性能、延迟等方面都远远领先,因为它是用rust编写的。
现在这个cli工具与最佳编码模型结合在一起,具有最佳的工具调用可靠性和最佳的长任务连贯性,且幻觉最少。
不用说,他们的iOS应用在打磨和功能方面也远远优于所有其他AI应用。Claude应用只是Safari沙箱中的网页应用!而他们的网页应用仍然是最好的。搜索等功能在其他应用中表现得更好。基本的阻挡和处理。
所以,是的。一些非常聪明的人,比如Ilya和John Schulman,离开了去其他公司。但他们仍然拥有一支绝对出色的技术团队,拥有非常优秀的产品人员和出色的工程能力。
不要让你对Altman的厌恶蒙蔽了你的眼睛。每当我看到又一个人谈论GPT-5有多糟糕时,我都会感到不安,因为这个人显示出他们无法根据证据和理性独立思考,并被洗脑认为某种观点(并在网上大肆宣扬),因为他们认为这让他们听起来聪明。
33.75K
哇,我终于有时间尝试OpenAI的codex CLI新版本(他们对Claude Code的回应)。
上次我尝试使用codex(注意这与他们的托管编码代理也叫codex不同,这真的让人困惑;我现在说的是你在终端上本地运行的工具),它是作为Nodejs/Typescript应用程序编写的,真的很糟糕:
- 只能访问像o4-mini这样的较弱模型,或者它们的codex变体,令人困惑地也叫codex(真的?)
- 用户界面/用户体验远不如Claude Code
- 由于模型较差、工具较差、代理流程较差,编码效果也差得多。
- 它烦人地强迫你为所有事情提供权限,所以你必须一直照看它,这使得它的实用性大大降低,因为你无法轻松地并行运行多个实例。
- 也许这是一件好事,因为最大的问题是它做了一些非常鲁莽、破坏性的事情;它比CC要随意得多。
这就是我为什么立即停止使用它的原因,因为它决定在没有先存储的情况下执行“git reset --hard HEAD”,我丢失了一些工作。我想再也不想这样了。
好吧,我终于有时间尝试全新的rust版本,它使用GPT-5,并且可以使用你现有的GPT Pro订阅,而不是API密钥,这真是令人震惊的好。
首先,快速编译代码在这种交互式工具中是没有替代品的。
它是用rust编写的,这意味着在键盘输入时完全没有延迟,也没有像CC那样的奇怪伪影,后退键无法正常工作,输入也很卡顿,因为它是用一种解释性语言编写的,这种语言在处理这类事情时慢了一百倍。
处理持续的延迟和卡顿不仅仅是慢,它在心理上甚至可能是情感上都很累人,至少对我来说,当我连续使用这些工具几个小时时,这种感觉是可怕的,甚至会对你的工具感到厌恶和怨恨,尽管你依赖它们来完成工作。
我真的希望这能提高所有这些工具的标准,并说服Anthropic、Google和其他公司也使用rust(或C++、Zig等)。
但真正的大改进显然是模型;如果模型较差,不可靠,无法调用工具,并且在较长任务中失去连贯性,那么rust的流畅性就毫无意义。
但如果你在这里关注我,你就会知道,自从GPT-5 Thinking发布后,我对它的编码能力和工具调用能力感到惊叹,尽管我主要是通过Cursor的代理标签使用它。
底线是,这个新的rust codex突然成为了CC的真正强大竞争者,你绝对应该尝试一下。
我需要看看他们让我在每月200美元的GPT Pro订阅中使用多少,但如果我需要再买几个,那也是非常值得的。
注意,我并没有停止使用CC。我喜欢同时使用这两个工具。信不信由你,我仍然也在使用Cursor。
人们应该停止寻找一个可以替代所有其他工具的单一工具,接受不同工具有不同的优缺点,通过不断使用直观地学习这些,才能获得最佳结果。
无论如何,给自己一个机会,现在就去获取它。最简单的方法是执行这个命令(注意,这将让你获得rust版本,尽管使用bun/npm来做这件事真的很令人困惑):
bun i -g @openai/codex
8.46K
哇,我终于有时间尝试OpenAI的codex CLI的新版本(他们对Claude Code的回应)。
上次我尝试使用codex(注意这与他们的托管编码代理也叫codex不同,这真的让人困惑;我现在说的是你在终端上本地运行的工具),它是作为一个Nodejs/Typescript应用程序编写的,真的很糟糕:
- 只能访问像o4-mini这样的较弱模型,或者它们的codex变体,令人困惑地也叫codex(真的?)
- 用户界面/用户体验比Claude Code差得多
- 由于模型较差、工具较差、代理流程较差,编码效果也差得多。
- 它烦人地强迫你为所有事情提供权限,所以你必须一直照看它,这使得它的实用性大大降低,因为你无法轻松地并行运行多个实例。
- 也许这是一件好事,因为最大的问题是它做了超级鲁莽、破坏性的事情;它比CC要随意得多。这就是我为什么立即停止使用它的原因,因为它决定在没有先存储的情况下执行“reset --hard HEAD”,我丢失了一些工作。我想再也不想这样了。
好吧,我终于有时间尝试全新的rust版本,它使用GPT-5,并且可以使用你现有的GPT Pro订阅,而不是API密钥,这真是令人震惊地好。
首先,快速编译代码在这种交互式工具中是没有替代品的。
它是用rust编写的,这意味着在键盘输入时完全没有延迟,也没有像CC中那样的奇怪伪影,后退键无法正常工作,输入也很卡顿,因为它是用一种解释性语言编写的,这种语言在处理这类事情时慢了一百倍。
处理持续的延迟和卡顿不仅仅是慢,它在心理上甚至可能是情感上令人疲惫和厌倦,至少对我来说,当我使用这些工具几个小时后,这种感觉是可怕的,甚至会对依赖它们完成工作的工具感到厌恶和怨恨。
我真的希望这能提高所有这些工具的标准,并说服Anthropic、Google和其他公司也使用rust(或C++、Zig等)。
但真正的大改进显然是模型;如果模型较差,不可靠于工具调用,并且在较长任务中失去连贯性,那么Rust的流畅性就毫无意义。
但如果你在这里关注我,那么你会知道,自从GPT-5 Thinking发布后,我对它的编码能力和工具调用能力感到惊叹,尽管我主要是通过Cursor的代理标签使用它。
底线是,这个新的rust codex突然成为了CC的真正强大竞争者,你绝对应该尝试一下。
我需要看看他们让我在每月200美元的GPT Pro订阅中使用多少,但如果我需要再买几个,那绝对是值得的。
注意,我并没有停止使用CC。我喜欢同时使用它们。信不信由你,我仍然也在使用Cursor。
人们应该停止寻找一个可以替代所有其他工具的单一工具,接受不同工具有不同的优缺点,通过不断使用直观地学习所有这些,才能获得最佳结果。
无论如何,给自己一个机会,现在就去获取它。最简单的方法是执行这个命令(注意,尽管使用bun/npm来做这件事令人困惑,但这将让你获得rust版本):
bun i -g @openai/codex
571
如果你看过我最近关于如何使用Claude Code进行编程的帖子,你就会知道我总是打开我的可靠文本编辑器(Sublime Text),里面有一个包含我用来提示Claude Code和Cursor的有用文本片段的文本文件,以便以各种方式完成不同的常见任务,比如继续我下面粘贴的先前对话,或者告诉它如何修复一堆类型错误等等。
这种方法有效,但每次都需要烦人的鼠标和键盘操作来查找、选择和复制文本,然后切换窗口并粘贴片段。
我最近买了一个“Stream Deck”USB小工具,游戏玩家和主播用它来触发各种操作(在eBay上花了160美元),在它在我桌子上闲置了几周后,我终于开始为这个用例进行设置。
无论如何,我现在有了下面图片中有趣的设置,可以让我瞬间粘贴一堆我的“最佳作品”文本片段。我认为这实际上会让我节省一些时间!底行的每个按钮都是一个不同的片段(加上第二行的一个)。我怀疑我最终会把其余的按键填满其他片段。
其他按钮可以执行一些操作,比如启动WSL终端和SSH会话,让我快速在Windows终端中左右移动标签。我不确定这些在实践中会有多有用,因为已经有常规的键盘快捷键来触发这些操作,但我们拭目以待。
该设备支持全彩键显示,但我发现如果不是全单色且大部分是黑暗的,视觉上会太分散注意力。无论如何,如果它能让我稍微快一点,那就值得这个成本和设置时间。而且出于某种原因,这对我来说也有点搞笑。



17.53K
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可