热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Tomasz Tunguz
2025年是代理人的时代,而代理人的关键能力是调用工具。
使用Claude Code时,我可以告诉AI筛选一份通讯,找到所有初创公司的链接,验证它们在我们的CRM中存在,只需一个命令。这可能涉及调用两个或三个不同的工具。
但问题在于:使用大型基础模型来做这个是昂贵的,通常受到速率限制,并且对于选择任务来说过于强大。
构建一个具有工具调用的代理系统的最佳方法是什么?
答案在于小型行动模型。NVIDIA发布了一篇引人注目的论文,认为“小型语言模型(SLMs)足够强大,天生更适合,并且在代理系统中的许多调用中必然更经济。”
我一直在测试不同的本地模型,以验证成本降低的效果。我从一个Qwen3:30b参数模型开始,它可以工作,但由于它是一个如此大的模型,可能会相当慢,尽管在任何时候只有30亿个参数中的3亿个是活跃的。
NVIDIA的论文推荐了Salesforce xLAM模型——一种专门为工具选择设计的大型行动模型的不同架构。
因此,我进行了自己的测试,每个模型调用一个工具来列出我的Asana任务。
结果令人震惊:xLAM在2.61秒内完成任务,成功率为100%,而Qwen则花费了9.82秒,成功率为92%——几乎慢了四倍。
这个实验显示了速度的提升,但也有一个权衡:模型中应该有多少智能,工具本身又应该有多少智能。这是有限的。
对于像Qwen这样的大型模型,工具可以更简单,因为模型具有更好的错误容忍度,并且可以绕过设计不良的接口。模型通过强力推理来弥补工具的局限性。
对于较小的模型,模型恢复错误的能力较差,因此工具必须更强大,选择逻辑必须更精确。这看起来可能是一个限制,但实际上是一个特性。
这种限制消除了LLM链式工具的累积错误率。当大型模型进行顺序工具调用时,错误会呈指数级累积。
小型行动模型迫使更好的系统设计,保留LLM的优点,并将其与专业模型结合。
这种架构更高效、更快且更可预测。


5.07K
这真是太有趣了,马里奥。感谢你让我参加节目,谈论市场上发生的一切!

Mario Gabriele 🦊2025年7月22日
Our latest episode with Tomasz Tunguz is live!
The Decade of Data
@ttunguz has spent almost two decades turning data into investment insights. After backing Looker, Expensify, and Monte Carlo at Redpoint Ventures, he launched @Theoryvc in 2022 with a bold vision: build an "investing corporation" where researchers, engineers, and operators sit alongside investors, creating real-time market maps and in-house AI tooling. His debut fund closed at $238 million, followed just 19 months later by a $450 million second fund. Centered on data, AI, and crypto infrastructure, Theory operates at the heart of today's most consequential technological shifts. We explore how data is reshaping venture capital, why traditional investment models are being disrupted, and what it takes to build a firm that doesn't just predict the future but actively helps create it.
Listen now:
• YouTube:
• Spotify:
• Apple:
A big thank you to the incredible sponsors that make the podcast possible:
✨ Brex — The banking solution for startups:
✨ Generalist+ — Essential intelligence for modern investors and technologists:
We explore:
→ How Theory’s “investing corporation” model works
→ Why crypto exchanges could create a viable path to public markets for small-cap software companies
→ The looming power crunch—why data centers could consume 15% of U.S. electricity within five years
→ Stablecoins’ rapid ascent as major banks route 5‑10% of U.S. dollars through them
→ Why Ethereum faces an existential challenge similar to AWS losing ground to Azure in the AI era
→ Why Tomasz believes today’s handful of agents will become 100+ digital co‑workers by year‑end
→ Why Meta is betting billions on AR glasses to change how we interact with machines
→ How Theory Ventures uses AI to accelerate market research, deal analysis, and investment decisions
…And much more!
7.91K
OpenAI 平均每个美国人每天收到 1 个查询。
谷歌每天会收到大约 4 个查询。
从那时起,50% 的谷歌搜索查询都有 AI Overviews,这意味着现在至少有 60% 的美国搜索是 AI。
这比我预期的要长一些。到 2024 年,我预测 50% 的消费者搜索将支持人工智能。(
但人工智能已经进入搜索领域。
如果谷歌搜索模式有任何迹象的话,那么搜索行为中存在幂律。SparkToro 对谷歌搜索行为的分析显示,前三分之一的美国人执行了超过 80% 的搜索——这意味着人工智能的使用不太可能均匀分布——就像未来一样。
网站和企业开始感受到其影响。《经济学人》的文章“人工智能正在扼杀网络。有什么能拯救它吗?(
绝大多数美国人现在使用人工智能进行搜索。搜索模式变化带来的二阶影响将在今年下半年出现,更多人会问:“我的流量发生了什么?(
人工智能是一种新的分销渠道,抓住它的人将获得市场份额。
- 威廉·吉布森 (William Gibson) 看到了更远的未来!
- 这是基于 SparkToro 图表的中点分析,是一个非常简单的分析,因此存在一些误差。

8.74K
在与人工智能合作时,我在输入任何内容到框中之前,都会停下来问自己一个问题:我对人工智能的期望是什么?
2x2来救援!我处于哪个框中?
在一个轴上,我提供的上下文量:从很少到相当多。在另一个轴上,我是应该观察人工智能还是让它自由运行。
如果我提供的信息很少并让系统运行:‘研究前沿部署工程师的趋势’,我得到的结果是可抛弃的:广泛的概述而没有相关细节。
用一系列简短的问题运行同一个项目会产生一个成功的迭代对话——一次探索。
“哪些公司实施了前沿部署工程师(FDE)?FDE的典型背景是什么?哪些类型的合同结构和业务适合这项工作?”
当我对错误的容忍度非常低时,我会提供大量的上下文,并与人工智能进行迭代工作。对于博客文章或财务分析,我会分享所有内容(当前草稿、以前的写作、详细要求),然后逐句进行。
让一个代理自由运行需要事先定义一切。我在这里很少成功,因为前期工作需要极大的清晰度——明确的目标、全面的信息和详细的任务清单以及验证标准——一个大纲。
这些提示最终看起来像我作为产品经理时写的产品需求文档。
‘我期望什么?’的答案会随着人工智能系统访问更多我的信息并提高选择相关数据的能力而变得更容易。随着我在表达我实际想要的东西方面变得更好,合作也会改善。
我希望将我的许多问题从左上角的框——我与谷歌搜索的训练方式——转移到其他三个象限中。
我也期望这个习惯能帮助我更好地与人合作。

3.06K
中间那个小黑盒子是机器学习代码。
我记得读过谷歌2015年的《机器学习中的隐性技术债务》论文,想着机器学习应用中实际的机器学习有多少。
绝大多数是基础设施、数据管理和操作复杂性。
随着人工智能的兴起,似乎大型语言模型会取代这些盒子。承诺是简单:放入一个LLM,看看它如何处理从客户服务到代码生成的一切。不再需要复杂的管道或脆弱的集成。
但在构建内部应用时,我们观察到了与人工智能类似的动态。
代理需要大量上下文,就像人类一样:CRM是如何结构化的,我们在每个字段中输入什么——但输入是昂贵的,饥饿的人工智能模型。
降低成本意味着编写确定性软件来替代人工智能的推理。
例如,自动化电子邮件管理意味着编写工具来创建Asana任务并更新CRM。
随着工具数量超过十个或十五个,工具调用不再有效。是时候启动一个经典的机器学习模型来选择工具了。
然后是观察系统的可观察性,评估其性能,并路由到正确的模型。此外,还有一整类软件确保人工智能按预期工作。
护栏防止不当响应。速率限制防止系统失控时成本失控。
信息检索(RAG - 检索增强生成)对任何生产系统都是至关重要的。在我的电子邮件应用中,我使用LanceDB向量数据库查找来自特定发件人的所有电子邮件并匹配他们的语气。
还有其他关于图形RAG和专用向量数据库的知识管理技术。
最近,记忆变得更加重要。人工智能工具的命令行界面将对话历史保存为markdown文件。
当我发布图表时,我希望右下角有Theory Ventures的标题,特定的字体、颜色和样式。这些现在都保存在一系列级联目录中的.gemini或.claude文件中。
大型语言模型的原始简单性已被企业级生产复杂性所取代。
这与上一代机器学习系统并不完全相同,但它遵循了一个明确的平行关系。看似简单的“人工智能魔法盒”实际上是一座冰山,大部分工程工作隐藏在表面之下。


3.81K
如果说2025年是代理商年,那么2026年肯定属于代理商经理人。
代理经理是可以管理 AI 代理团队的人。一个人能成功管理多少?
我几乎无法同时管理 4 个 AI 代理。他们要求澄清、请求许可、发布网络搜索——所有这些都需要我的注意。有时一项任务需要 30 秒。其他时间,30 分钟。我忘记了哪个代理在做什么,一半的工作被扔掉了,因为他们误解了指令。
这不是技能问题。这是一个工具问题。
物理机器人提供了有关机器人经理生产力的线索。麻省理工学院在 2020 年发表的一项分析表明,机器人平均取代了 3.3 个人类工作岗位。2024 年,亚马逊报告称,拣货和运输机器人取代了 24 名工人。
但有一个关键的区别:人工智能是不确定的。AI 代理解释指令。他们即兴发挥。他们偶尔会完全忽略指示。Roomba 只能梦想着无视客厅并决定车库需要关注的创作自由。
管理理论通常指导团队控制 7 人。
与一些更好的代理经理交谈后,我了解到他们使用代理收件箱,这是一种用于请求 AI 工作并对其进行评估的项目管理工具。在软件工程中,Github 的拉取请求或 Linear 票证服务于此目的。
非常高效的人工智能软件工程师通过详细指定 10-15 个任务来管理 10-15 个代理,将它们发送给人工智能,等待完成,然后审查工作。一半的工作被丢弃,并以改进的提示重新启动。
代理收件箱还不受欢迎。它没有广泛使用。
但我怀疑它将成为未来代理经理生产力堆栈的重要组成部分,因为它是跟踪随时可能进入的工作的唯一方法。
如果每个员工的 ARR 是初创公司的新虚荣指标,那么每人管理的代理可能会成为工人的虚荣生产力指标。
在 12 个月内,您认为您可以管理多少代理?10?50?100?你能管理一个管理其他代理的代理吗?

8.02K
在过去的十年里,任何初创公司的研发预算中最大的项目是可预测的人才。但人工智能正在推动其进入损益。
初创公司应该在人工智能上花费多少占其研发支出的百分比?
10%?30%?60?
需要考虑三个因素。首先,硅谷软件工程师的平均工资。其次是该工程师使用的人工智能的总成本。Cursor 现在的 Ultra 计划每月 200 美元,Devin 的评论建议每月 500 美元。第三,工程师可以管理的代理数量。
第一遍:(第一张图片)
但订阅费用可能很低。在过去的几天里,我一直在广泛地使用人工智能编码代理,在五天内我就支付了 1,000 美元的账单!😳😅
因此,让我们更新表格并假设每位工程师每月再支付 1000 美元。
因此,对于一家典型的初创公司来说,估计今天总研发费用的 10% 到 15% 可能会用于人工智能。
随着我们都学会更好地使用人工智能,并且它渗透到组织中,这些变体在实践中将更加广泛。从一开始就以人工智能为原生的小型公司可能具有更高的比率。
如果您有兴趣参与匿名调查,如果样本量足够大以产生具有统计学意义的结果,我将发布结果。
调查在这里:
这是一个非常简化的模型,我们只审查薪水,不包括福利、硬件、开发和测试基础设施等。
这是基于折扣个人体验氛围编码的估计值。


2.13K
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可