Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tiny Recursio Model (TRM) -tulokset ARC-AGI:ssa
- ARC-AGI-1: 40 %, 1,76 dollaria/tehtävä
- ARC-AGI-2: 6,2 %, 2,10 dollaria/tehtävä
Kiitos @jm_alexia TRM:n, hyvin kirjoitetun, avoimen lähdekoodin ja perusteellisen tutkimuksen antamisesta yhteisölle, joka perustuu vuoden @makingAGI HRM:ään

Kiitos @k_schuerholt näiden tulosten toistamisesta ARC-palkintoa varten, jotka perustuivat hänen aiempaan HRM-analyysiinsä
Jäljennettävän mallin tarkistuspisteet ja jäljennösohjeet löytyvät osoitteesta @huggingface
Huomautuksemme:
- TRM:llä on pidempi ajoaika kuin HRM:llä, vaikka se on pienempi. Hypoteesimme on, että tämä johtuu takaisinetenemisestä, joka tapahtuu kaikissa vaiheissa, kun taas HRM teki vain osittaisia vaiheita
Avoin kysymys: Onko TRM parempi, koska se on älykkäämpi? Vai siksi, että se harjoittelee pidempään? Jos käyttäisit kiinteää laskentaa molemmille, olisiko suorituskyky sama?
- Onko TRM yhtä vankka lisäysten määrälle kuin HRM oli?
- Vaihtaminen lineaarisista kerroksista tarkkaavaisuuteen on mielenkiintoista, huomio suoriutui huonommin pienemmässä tehtävässä. Miksi?
Se saattaa olla laskennallisesti vähemmän tehokas, mutta miksi se on niin paljon huonompi Mazzessa?
Kutsumme yhteisölle: Jaettu esikoulutus ja päättely TRM:ssä
Tällä hetkellä esikoulutus ja päättely on kytketty TRM:ään. Lisätehtäväerät on esikoulutettava uudelleen.
Tämä laajennettu TRM voisi todennäköisesti toimia Kagglessa ARC Prize 2025 -palkinnosta
Jäljentämisestä aiheutuvat kustannukset:
* ARC-AGI-1 Julkinen: 9h 52m 6 * 2x8H100 * $8/tunti = $157.86
* ARC-AGI-1 Puoliyksityinen: 11h 23m * 2x8H100 * $8/tunti = $176.38
* ARC-AGI-1 Julkinen: 9h 35m * 3x8H100 * $8/tunti = $216.58
* ARC-AGI-2 Puoliyksityinen: 10h 30m * 3x8H100 * $8/tunti = $252
259,45K
Johtavat
Rankkaus
Suosikit