熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

samsja
@PrimeIntellect 的領先研究
下一个估值超過100億美元的產品初創公司將通過在內部強化學習環境中擴展訓練來構建。
我們生活在能力的豐富中,但我們只有兩個主要的AI產品,chatgpt和編碼代理,這讓我感到非常沮喪。
當前的人工智能供應鏈在結構上是破碎的,只有一個硬體供應商,幾家巨型AI公司擁有所有的智能煉油廠,開發者僅能獲得API訪問權限,幾乎沒有控制權。
就好像互聯網時代是由英特爾向四家巨型雲公司出售CPU來構建的,這些公司擁有整個基礎設施和軟體堆疊,處處都是秘密和保密協議,並向初創公司提供WordPress作為開發工具包。
為什麼Perplexity沒有發明深度研究?他們根本無法做到,因為這是通過強化學習訓練的。
我對未來幾年的預測:
強化學習將成為構建AI產品的最強大工具包。我們將看到數百個成功故事,如Cursor和Lovable。最終用戶將從中受益最多。
大型實驗室將向產品公司演變,OAI將專注於消費市場,Antropic將專注於編碼代理,DeepMind將把AI整合到所有谷歌業務中,Meta和XAI將在社交媒體上競爭。
我們將看到一個AI基礎設施初創公司的生態系統的出現,出售計算能力,訓練基礎模型,策劃數據,構建強化學習環境,提供廉價的推理和訓練,依靠開放科學和開源軟體。
@PrimeIntellect正在開創這個生態系統,開放源碼AGI的願景,強化學習環境中心是其中的第一個關鍵部分。

Prime Intellect9 小時前
介紹環境中心
RL環境是下一波AI進步的關鍵瓶頸,但大型實驗室正在封鎖它們
我們建立了一個社區平台,用於眾包開放環境,以便任何人都可以為開源AGI做出貢獻
3.17K
上一次的GPU模式黑客馬拉松是我參加過的最好的黑客馬拉松,期待下個。

Mark Saroufim8月23日 05:09
又到了我們一年一度的慶祝盛會。GPU MODE 將於 10 月 24 日星期五上午 10 點至晚上 10 點在舊金山市中心再次線下聚會,全天進行黑客活動。

3.61K
似乎其他人都傾向於使用 vllm v1 logprob 作為重要性比率來解決穩定性問題。
我覺得我對這種類型的強化學習崩潰有創傷後應激障礙。

Zichen Liu8月22日 23:35
僅用幾行程式碼,Feng(@fengyao1909)建議的修復方法——在行為策略上應用重要性採樣——解決了我案例中的訓練不穩定性(oat)。我相信這個結果也可以推廣到其他強化學習框架。幹得好,Feng!

6.73K
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可