熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Tomasz Tunguz
2025年是代理人的年代,而代理人的關鍵能力是調用工具。
使用Claude Code時,我可以告訴AI篩選一份新聞通訊,找到所有初創公司的鏈接,並驗證它們在我們的CRM中存在,只需一個命令。這可能涉及調用兩到三個不同的工具。
但問題在於:使用大型基礎模型來做這件事是昂貴的,通常受到速率限制,並且對於選擇任務來說過於強大。
建立一個具有工具調用的代理系統的最佳方法是什麼?
答案在於小型行動模型。NVIDIA發表了一篇引人注目的論文,主張「小型語言模型(SLMs)足夠強大,天生更適合,並且在代理系統中的許多調用中必然更具經濟性。」
我一直在測試不同的本地模型,以驗證成本降低的實驗。我從一個Qwen3:30b參數模型開始,這個模型有效,但因為它是一個如此大的模型,所以可能會相當慢,儘管在任何時候只有30億個參數中的3億個是活躍的。
NVIDIA的論文推薦Salesforce xLAM模型——一種不同的架構,稱為大型行動模型,專門設計用於工具選擇。
因此,我進行了自己的測試,每個模型調用一個工具來列出我的Asana任務。
結果令人驚訝:xLAM在2.61秒內完成任務,成功率為100%,而Qwen則花了9.82秒,成功率為92%——幾乎是四倍的時間。
這個實驗顯示了速度的提升,但有一個權衡:模型中應該有多少智能,與工具本身相比。這是有限的。
對於像Qwen這樣的大型模型,工具可以更簡單,因為模型具有更好的錯誤容忍度,並且可以繞過設計不良的界面。模型通過強力推理來彌補工具的限制。
對於較小的模型,模型恢復錯誤的能力較弱,因此工具必須更穩健,選擇邏輯必須更精確。這看起來可能是一種限制,但實際上是一種特性。
這一約束消除了LLM鏈式工具的累積錯誤率。當大型模型進行連續的工具調用時,錯誤會指數級地累積。
小型行動模型迫使更好的系統設計,保留LLM的優勢並將其與專門模型結合。
這種架構更高效、更快且更可預測。


5.12K
這太有趣了,馬里奧。感謝您邀請我參加節目,談論市場上發生的一切!

Mario Gabriele 🦊2025年7月22日
Our latest episode with Tomasz Tunguz is live!
The Decade of Data
@ttunguz has spent almost two decades turning data into investment insights. After backing Looker, Expensify, and Monte Carlo at Redpoint Ventures, he launched @Theoryvc in 2022 with a bold vision: build an "investing corporation" where researchers, engineers, and operators sit alongside investors, creating real-time market maps and in-house AI tooling. His debut fund closed at $238 million, followed just 19 months later by a $450 million second fund. Centered on data, AI, and crypto infrastructure, Theory operates at the heart of today's most consequential technological shifts. We explore how data is reshaping venture capital, why traditional investment models are being disrupted, and what it takes to build a firm that doesn't just predict the future but actively helps create it.
Listen now:
• YouTube:
• Spotify:
• Apple:
A big thank you to the incredible sponsors that make the podcast possible:
✨ Brex — The banking solution for startups:
✨ Generalist+ — Essential intelligence for modern investors and technologists:
We explore:
→ How Theory’s “investing corporation” model works
→ Why crypto exchanges could create a viable path to public markets for small-cap software companies
→ The looming power crunch—why data centers could consume 15% of U.S. electricity within five years
→ Stablecoins’ rapid ascent as major banks route 5‑10% of U.S. dollars through them
→ Why Ethereum faces an existential challenge similar to AWS losing ground to Azure in the AI era
→ Why Tomasz believes today’s handful of agents will become 100+ digital co‑workers by year‑end
→ Why Meta is betting billions on AR glasses to change how we interact with machines
→ How Theory Ventures uses AI to accelerate market research, deal analysis, and investment decisions
…And much more!
7.93K
OpenAI 每天平均接收每位美國人 1 條查詢。
Google 每天平均接收每位美國人約 4 條查詢。
自那時起,50% 的 Google 搜索查詢都有 AI 概述,這意味著至少 60% 的美國搜索現在是 AI 驅動的。
這發生的時間比我預期的要長一些。在 2024 年,我預測 50% 的消費者搜索將是 AI 驅動的。(
但 AI 已經在搜索中出現。
如果 Google 搜索模式有任何指示,搜索行為中存在一種冪律。SparkToro 對 Google 搜索行為的分析顯示,搜索的美國人中,前 1/3 的人執行了超過 80% 的所有搜索——這意味著 AI 的使用不太可能均勻分佈——就像未來一樣。
網站和企業開始感受到這一影響。《經濟學人》的文章 "AI 正在摧毀網絡。還有什麼能拯救它嗎?" 用一個標題捕捉了這種時代精神。(
現在大多數美國人都在使用 AI 進行搜索。隨著搜索模式的變化,第二階段的影響將在今年下半年出現,更多人將會問,"我的流量怎麼了?" (
AI 是一個新的分發渠道,那些抓住它的人將獲得市場份額。
- 威廉·吉布森看得更遠!
- 這是基於 SparkToro 圖表的中點分析,是一個非常簡單的分析,並因此有一些誤差。

8.76K
在與AI合作時,我會在輸入任何內容之前停下來問自己一個問題:我對AI的期望是什麼?
2x2來拯救我!我在哪個框中?
在一個軸上,我提供的上下文有多少:不太多到相當多。在另一個軸上,我是否應該觀察AI還是讓它自由運行。
如果我提供的信息非常少並讓系統運行:‘研究前部署工程師的趨勢’,我會得到無用的結果:廣泛的概述而沒有相關的細節。
用一系列簡短問題運行同一項目會產生一個成功的迭代對話——一個探索。
“哪些公司實施了前部署工程師(FDEs)?FDEs的典型背景是什麼?哪些類型的合同結構和業務適合這項工作?”
當我對錯誤的容忍度非常低時,我會提供大量的上下文並與AI進行迭代合作。對於博客文章或財務分析,我會分享所有內容(當前草稿、以前的寫作、詳細要求),然後逐句進行。
讓代理自由運行需要事先定義所有內容。我在這方面很少成功,因為事前的工作需要極大的清晰度——確切的目標、全面的信息和詳細的任務清單以及驗證標準——一個大綱。
這些提示最終看起來像我作為產品經理時寫的產品需求文檔。
對於‘我期望什麼?’的答案會隨著AI系統訪問我更多的信息並改善選擇相關數據的能力而變得更容易。隨著我在表達我實際想要的東西方面變得更好,合作也會改善。
我旨在將我的許多問題從左上角的框中——我如何用Google搜索進行訓練——移到其他三個象限中。
我也期望這個習慣能幫助我更好地與人合作。

3.07K
中間那個小黑盒子是機器學習代碼。
我記得讀過谷歌2015年的《機器學習中的隱藏技術負債》論文,並思考過有多少機器學習應用實際上是機器學習。
絕大多數是基礎設施、數據管理和操作複雜性。
隨著人工智慧的興起,似乎大型語言模型將會取代這些盒子。承諾是簡單:放入一個LLM,然後看它處理從客戶服務到代碼生成的一切。不再需要複雜的管道或脆弱的整合。
但在構建內部應用時,我們觀察到AI也有類似的動態。
代理需要大量的上下文,就像人類一樣:CRM是如何結構的,我們在每個字段中輸入什麼——但輸入是昂貴的,這個貪婪的AI模型。
降低成本意味著編寫確定性軟件來取代AI的推理。
例如,自動化電子郵件管理意味著編寫工具來創建Asana任務並更新CRM。
隨著工具數量超過十個或十五個,工具調用不再有效。是時候啟動一個傳統的機器學習模型來選擇工具了。
然後還有觀察系統的可觀察性,評估其性能,並路由到正確的模型。此外,還有一整類軟件用於確保AI按預期運行。
護欄防止不當回應。速率限制防止系統失控時成本失控。
信息檢索(RAG - 檢索增強生成)對於任何生產系統都是必不可少的。在我的電子郵件應用中,我使用LanceDB向量數據庫來查找來自特定發件人的所有電子郵件並匹配其語氣。
還有其他針對圖形RAG和專門向量數據庫的知識管理技術。
最近,記憶變得更加重要。AI工具的命令行界面將對話歷史保存為markdown文件。
當我發布圖表時,我希望右下角有Theory Ventures的標題,特定的字體、顏色和樣式。這些現在都保存在一系列層疊目錄中的.gemini或.claude文件內。
大型語言模型的原始簡單性已被企業級生產複雜性所取代。
這與前一代機器學習系統並不完全相同,但它遵循明確的平行關係。看似簡單的“AI魔法盒”實際上是一座冰山,大部分工程工作隱藏在表面之下。


3.83K
如果2025年是代理人的年代,那麼2026年肯定會屬於代理經理。
代理經理是能夠管理AI代理人團隊的人。一個人能成功管理多少個呢?
我幾乎無法同時管理4個AI代理人。他們會要求澄清、請求許可、發出網頁搜索——這些都需要我的注意。有時一個任務需要30秒,其他時候則需要30分鐘。我無法跟上哪個代理人在做什麼,並且一半的工作因為他們誤解指示而被丟棄。
這不是技能問題,而是工具問題。
物理機器人提供了有關機器人管理生產力的線索。麻省理工學院在2020年發表了一項分析,建議平均每個機器人取代3.3個人類工作。在2024年,亞馬遜報告說,拣貨、打包和運送機器人取代了24名工人。
但有一個關鍵的區別:AI是非確定性的。AI代理人解釋指示。他們即興發揮。他們偶爾會完全忽略指示。一個Roomba只能夢想著忽略你的客廳,決定車庫需要注意。
管理理論通常指導團隊的控制範圍為7人。
與一些更好的代理經理交談後,我了解到他們使用代理收件箱,這是一種請求AI工作和評估工作的項目管理工具。在軟件工程中,Github的拉取請求或Linear票據用於此目的。
非常高效的AI軟件工程師通過詳細指定10-15個任務,將其發送給AI,等待完成,然後審查工作來管理10-15個代理人。工作的一半被丟棄,並用改進的提示重新開始。
代理收件箱目前不流行——還沒有。它並不廣泛可用。
但我懷疑它將成為未來代理經理生產力堆棧的必要部分,因為這是唯一能夠跟蹤隨時可能進來的工作的方式。
如果每位員工的ARR是初創公司的新虛榮指標,那麼每人管理的代理數可能會成為工人的虛榮生產力指標。
在12個月內,你認為你能管理多少個代理人?10個?50個?100個?你能管理一個管理其他代理人的代理嗎?

8.03K
在過去十年中,任何初創公司的研發預算中,最大的支出項目是可預測的人才。但人工智慧正在逐漸進入損益表。
初創公司應該將多少百分比的研發支出用於人工智慧?
10%?30%?60%?
有三個因素需要考慮。首先是矽谷軟體工程師的平均薪資。第二是該工程師使用的人工智慧的總成本。Cursor 現在的 Ultra Plan 每月為 200 美元,而對 Devin 的評價顯示每月為 500 美元。第三是每位工程師可以管理的代理數量。
初步估算:(第一張圖片)
但訂閱成本可能偏低。在過去幾天裡,我一直在廣泛使用 AI 編碼代理,並在五天內累積了 1,000 美元的費用!😳😅
所以讓我們更新表格,假設每位工程師每月再增加 1,000 美元。
因此,對於一個典型的初創公司,今天的總研發支出中,估計可能有 10% 到 15% 用於人工智慧。
隨著我們學會更好地使用人工智慧並使其滲透到組織的更多部分,實際的變化將會更大。從一開始就是 AI 原生的小公司可能會有顯著更高的比例。
如果您有興趣參加匿名調查,我將在樣本量足夠大以獲得統計顯著結果的情況下發布結果。
調查在這裡:
這是一個過於簡化的模型,我們僅審查薪資,未包括福利、硬體、開發和測試基礎設施等。
這是一個基於折扣個人經驗的估算。


2.15K
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可