Jos koulutat massiivisen mallin etkä säännönsäädä sitä erittäin voimakkaasti, se sopii liikaa toimialueeseen. Kielimallien nerokkuus on siinä, että jos alue on kaikki inhimillinen tieto, jonka voimme kirjoittaa muistiin, siitä on paljon hyötyä.
Mutta ei ole mitään syytä odottaa, että tämä yleistyisi jakelun ulkopuolelle, varsinkaan. Joten tällä hetkellä koulutetuilla kielimalleilla on aina vaikeuksia käsitellä tiedon reunan kasvattamista huolimatta siitä, kuinka hyviä ne ovat interpoloimaan aukkoja.
Maailma ei ole paikallaan, kohdejakauma ajautuu ajan myötä. Näin ollen LLM:t alkavat yhtä hyvin kuin koskaan tulevat olemaan, ja huononevat hitaasti ajan myötä. Tietenkin he saavat saman pistemäärän vanhoissa vertailuarvoissa, mutta ne huononevat hienovaraisesti kaikissa tosielämän tehtävissä.
Voit korjata tämän ongelman jossain määrin sisällyttämällä tietoja useilta aikakausilta ja säännöllistämällä aikakausien välillä, mutta viime kädessä se vain opettaa mallille, kuinka käsitellä tapoja, joilla maailma muuttui menneisyydessä, mikä on osa siitä, miten se muuttuu tulevaisuudessa.
@joaoabrantis
Emmett Shear
Emmett Shear9.8. klo 23.00
There are two kinds of generalization in learning systems: structural, and dynamic. Structural generalization involves consolidating disparate dimensions into a singular one, and dynamic generalization involves learning to take actions which enable learning in more environments.
18,46K