Uusi palkitsemismalli nimeltä SARM — > Stage-Aware Reward Modeling pitkän horisontin robottien manipulointiin, on nyt LeRobotissa! 🤗 Pitkän aikavälin ja kontaktirikas manipulointi (ajattele T-paidan taittamista) on sotkuista. Demonstraatioihin sisältyy luonnollisesti epäröintiä, korjauksia ja vaihtelevia laatuja. Klassinen käyttäytymiskloonaus (BC) käsittelee kaikkia kehyksiä tasapuolisesti, SARM käyttää älykkäämpää lähestymistapaa. 🔎 Miten se toimii? SARM käyttää videopohjaista palkitsemismallia ennustaakseen: • nykyinen tehtävävaihe • hienojakoinen edistys kyseisessä vaiheessa (0 → 1) Tämä mahdollistaa palkitsemiseen perustuvan käyttäytymiskloonauksen (RA-BC) punnitsemalla uudelleen dataa edistymisen perusteella, jolloin malli voi erottaa etenevät kehityskulut ja pysähtyvät. Vasemmanpuoleinen kuva: onnistunut käyttöönotto, opittu edistyminen sujuvasti nostaa 0 → 1 Oikea kuva: epäonnistunut käyttöönotto
👉 Saatavilla nyt LeRobot: Paper Project -verkkosivustolla ✨ Alkuperäiset tekijät tästä upeasta teoksesta: Qianzhong Chen @QianzhongChen, Justin Yu, Mac Schwager, Pieter Abbeel, Yide Shentu, Philipp Wu
852