跳轉至主要內容
行情
掃鏈
追蹤
信號
牛人榜
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
Giveaway
完成指定任務,領取空投好禮
交易賽
交易熱門代幣,衝榜贏大獎
獎勵中心
領取獎勵和空投
預警
語言
貨幣
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
學院
幫助中心
發現功能使用指南
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
+1.45%
USELESS
-3.49%
IKUN
-1.48%
gib
-0.57%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-1.52%
ALON
-8.56%
LAUNCHCOIN
+6.56%
GOONC
-3.28%
KLED
-1.56%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-3.45%
Boopa
-5.17%
PORK
+1.6%
主頁
Andrew Ng
Coursera 的聯合創始人;斯坦福大學 CS 兼職教師。曾任百度 AI Group/Google Brain 負責人。#ai #machinelearning、#deeplearning #MOOCs
查看原文
Andrew Ng
20 小時前
一門令人興奮的新課程:針對大型語言模型的微調與強化學習:後訓練入門,由 @realSharonZhou 主講,她是 @AMD 的 AI 副總裁。現在可以在這裡獲得。 後訓練是前沿實驗室用來將基礎大型語言模型(在大量未標記文本上訓練以預測下一個單詞/標記的模型)轉變為能夠遵循指令的有用、可靠助手的關鍵技術。我也看到許多應用中,後訓練將僅在 80% 時間內運作的演示應用轉變為一個穩定的系統,能夠持續表現。這門課程將教你最重要的後訓練技術! 在這個 5 模組的課程中,Sharon 將帶你了解完整的後訓練流程:監督微調、獎勵建模、強化學習人類反饋(RLHF)以及像 PPO 和 GRPO 的技術。你還將學會如何使用 LoRA 進行高效訓練,以及設計評估以在部署前後捕捉問題。 你將獲得的技能: - 應用監督微調和強化學習(RLHF、PPO、GRPO)來使模型與期望行為對齊 - 使用 LoRA 進行高效微調,而無需重新訓練整個模型 - 準備數據集並生成合成數據以進行後訓練 - 理解如何操作大型語言模型的生產流程,並設置進行/不進行的決策點和反饋循環 這些先進的方法不再僅限於前沿 AI 實驗室,現在你也可以在自己的應用中使用它們。 在這裡學習:
80.55K
910
Andrew Ng
10月26日 04:04
與 Project Jupyter 的共同創辦人 @ellisonbg 一起閒逛。如果沒有他和 @fperez_org,我們就不會擁有每天在 AI 和數據科學中使用的編碼筆記本。非常感謝他和整個 Jupyter 團隊所做的這項精彩的開源工作!
65.5K
961
熱門
排行
收藏