熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Prime Intellect
Prime Intellect 已轉發
在預訓練時代,重要的是互聯網文本。你主要希望擁有一個大型、多樣化、高質量的互聯網文檔集合來學習。
在監督微調時代,重要的是對話。雇用合同工來為問題創建答案,有點像你在 Stack Overflow / Quora 等地方看到的,但更針對 LLM 的用例。
我認為上述兩者都不會消失,但在這個強化學習的時代,現在重要的是環境。與上述不同,它們給 LLM 提供了實際互動的機會——採取行動、查看結果等。這意味著你可以希望比統計專家模仿做得更好。它們可以用於模型訓練和評估。但就像以前一樣,現在的核心問題是需要一個大型、多樣化、高質量的環境集合,作為 LLM 練習的練習場。
在某種程度上,我想起了 OpenAI 的第一個項目(gym),這正是一個希望建立一個大型環境集合的框架,但那是在 LLM 之前。因此,這些環境是當時簡單的學術控制任務,比如 cartpole、ATARI 等。@PrimeIntellect 環境中心(以及 GitHub 上的 `verifiers` 倉庫)構建了現代化版本,專門針對 LLM,這是一個偉大的努力/想法。今年早些時候,我建議有人構建類似的東西:
環境具有這樣的特性,一旦框架的骨架到位,原則上社區/行業可以在許多不同領域並行化,這令人興奮。
最後的想法——就個人和長期而言,我對環境和代理互動持樂觀態度,但對強化學習持悲觀態度。我認為獎勵函數非常可疑,我認為人類並不使用 RL 來學習(也許他們在某些運動任務等方面使用,但在智力問題解決任務中並不使用)。人類使用不同的學習範式,這些範式顯著更強大且樣本效率更高,而這些範式尚未得到適當的發明和擴展,儘管早期的草圖和想法已經存在(例如,“系統提示學習”的想法,將更新移動到令牌/上下文而不是權重,並可選擇將其提煉為權重,作為一個類似於睡眠的單獨過程)。
372.54K
Prime Intellect 已轉發
下一个估值超過100億美元的產品初創公司將通過在內部強化學習環境中擴展訓練來構建。
我們生活在能力的豐富中,但我們只有兩個主要的AI產品,chatgpt和編碼代理,這讓我感到非常沮喪。
當前的人工智能供應鏈在結構上是破碎的,只有一個硬體供應商,幾家巨型AI公司擁有所有的智能煉油廠,開發者僅能獲得API訪問權限,幾乎沒有控制權。
就好像互聯網時代是由英特爾向四家巨型雲公司出售CPU來構建的,這些公司擁有整個基礎設施和軟體堆疊,處處都是秘密和保密協議,並向初創公司提供WordPress作為開發工具包。
為什麼Perplexity沒有發明深度研究?他們根本無法做到,因為這是通過強化學習訓練的。
我對未來幾年的預測:
強化學習將成為構建AI產品的最強大工具包。我們將看到數百個成功故事,如Cursor和Lovable。最終用戶將從中受益最多。
大型實驗室將向產品公司演變,OAI將專注於消費市場,Antropic將專注於編碼代理,DeepMind將把AI整合到所有谷歌業務中,Meta和XAI將在社交媒體上競爭。
我們將看到一個AI基礎設施初創公司的生態系統的出現,出售計算能力,訓練基礎模型,策劃數據,構建強化學習環境,提供廉價的推理和訓練,依靠開放科學和開源軟體。
@PrimeIntellect正在開創這個生態系統,開放源碼AGI的願景,強化學習環境中心是其中的第一個關鍵部分。
3.2K
Prime Intellect 已轉發
下一个估值超過100億美元的產品初創公司將通過在內部強化學習環境中擴展訓練來構建。
我們生活在能力的豐富中,但我們只有兩個主要的AI產品,chatgpt和編碼代理,這讓我感到非常沮喪。
當前的人工智慧供應鏈在結構上是破碎的,只有一個硬體供應商,幾家巨型AI公司擁有所有的智能煉油廠,開發者僅能獲得API訪問權限,幾乎沒有控制權。
就好像互聯網時代是由英特爾向四家巨型雲公司出售CPU來構建的,這些公司擁有整個基礎設施和軟體堆疊,處處都是秘密和保密協議,並向初創公司提供WordPress作為開發工具包。
為什麼Perplexity沒有發明深度研究?他們根本無法做到,因為這是通過強化學習訓練的。
**我對未來幾年的預測**:
強化學習將成為構建AI產品的最強大工具包。我們將看到數百個成功故事,如Cursor和Lovable。最終用戶將從中受益最多。
大型實驗室將向產品公司演變,OAI將專注於消費市場,Antropic將專注於編碼代理,DeepMind將把AI整合到所有谷歌業務中,Meta和XAI將在社交媒體上爭奪。
我們將看到一個AI基礎設施初創公司的生態系統的出現,出售計算能力,訓練基礎模型,策劃數據,構建強化學習環境,提供廉價的推理和訓練,依靠開放科學和開源軟體。
@PrimeIntellect正在開創這個生態系統,開放源碼AGI的願景,強化學習環境中心是其中的第一個關鍵部分。
6.39K
熱門
排行
收藏