Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Uusi palkitsemismalli nimeltä SARM — > Stage-Aware Reward Modeling pitkän horisontin robottien manipulointiin, on nyt LeRobotissa! 🤗
Pitkän aikavälin ja kontaktirikas manipulointi (ajattele T-paidan taittamista) on sotkuista. Demonstraatioihin sisältyy luonnollisesti epäröintiä, korjauksia ja vaihtelevia laatuja. Klassinen käyttäytymiskloonaus (BC) käsittelee kaikkia kehyksiä tasapuolisesti, SARM käyttää älykkäämpää lähestymistapaa.
🔎 Miten se toimii?
SARM käyttää videopohjaista palkitsemismallia ennustaakseen:
• nykyinen tehtävävaihe
• hienojakoinen edistys kyseisessä vaiheessa (0 → 1)
Tämä mahdollistaa palkitsemiseen perustuvan käyttäytymiskloonauksen (RA-BC) punnitsemalla uudelleen dataa edistymisen perusteella, jolloin malli voi erottaa etenevät kehityskulut ja pysähtyvät.
Vasemmanpuoleinen kuva: onnistunut käyttöönotto, opittu edistyminen sujuvasti nostaa 0 → 1
Oikea kuva: epäonnistunut käyttöönotto


👉 Saatavilla nyt LeRobot: Paper Project -verkkosivustolla
✨ Alkuperäiset tekijät tästä upeasta teoksesta: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
852
Johtavat
Rankkaus
Suosikit
