Olen vakuuttunut kokeilemaan sitä mahdollisimman pian, meidän kaikkien pitäisi kokeilla fp16:ta, katsokaa tätä juonimiestä. FP16 on kuin täydellinen virheiden vähentämisessä. "Juuri tästä syystä FP16:een siirtyminen tarjoaa perustavanlaatuisen ratkaisun. FP16 tarjoaa 10 mantissan bittiä 8 kertaa enemmän tarkkuutta (2^10 arvoa vs. 2^7 arvoa) kuin BF16. Tämä korkeampi tarkkuus tarkoittaa, että harjoitus- ja päättelymoottoreiden tuotokset ovat paljon todennäköisemmin numeerisesti identtisiä. Lisääntynyt tarkkuus luo puskurin, joka vaimentaa pienet toteutuserot näiden kahden moottorin välillä ja estää pyöristysvirheiden kertymisen ja käytäntöjen erojen aiheuttamisen. RL-hienosäätöä varten mallin painojen ja aktivaatioiden dynaaminen alue on jo määritetty esiharjoittelun aikana. Siksi BF16:n äärimmäinen alue on vähemmän kriittinen, kun taas sen uhraamasta tarkkuudesta tulee hallitseva haittapuoli. Palaamalla FP16:een vaihdamme tarpeettoman BF16:n alueen kriittiseen tarkkuuteen, mikä kuroi tehokkaasti umpeen kuilun koulutuksen ja päättelyn välillä ilman monimutkaisia algoritmisia tai teknisiä kiertotapoja."
avainsana "kokeile" sitä, monet asiat voivat estää tämän skaalaamisen, mutta joskus asiat toimivat näin. Ei ihmelääkkeitä, mutta joskus helppoja voittoja.
Lyön vetoa, että se vaihtelee suuresti mallin ja muiden yksityiskohtien mukaan
Kun olet vähemmän vakuuttunut ajan myötä, mene vain seuraamaan @finbarrtimbers
136,46K