Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
# Miksi MoE:n kouluttaminen on niin vaikeaa
Viime aikoina olen huomannut haluavani pienen, tutkimukseen keskittyvän koulutusvaraston
Niihin voin tehdä pieniä kokeita nopeasti ja helposti. Nämä kokeet vaihtelevat
uusien tarkkaavaisuusarkkitehtuurien (MLA, SWA, NSA, KDA – kaikki kytkettävät) kokeilemisesta monitarkkaan koulutukseen useimmille
Viime aikoina monioptimointijärjestelmät 'uusilla' optimoijilla. Kokeilin 3-duuria
kilpailijoita (Nemo, Megatron ja Torchtitan), mutta monista ja monista syistä he
Se ei todellakaan sopinut tarkoituksiini ja kaikki olivat melko kivuliaita.
Aseta, käytä ja käynnistä vakaasti. Kaipasin taas Googlen työkaluja
Ja tuotantokoulutuspinon uudelleenkirjoittaminen tätä tarkoitusta varten (joka on räätälöity
tehty suuren infrastruktuurin valvontaan ja vakauteen) tuntui myös köyhältä
Ajan käyttö ja heikentäisi sekä vanhan että uuden repositoa.
Tämä sai minut kuitenkin pohtimaan, miksi Training Frontierin laatu oli 'liian pieni'?
MoE:t (esimerkiksi alle 20B parametrit yhteensä) ovat niin vaikeita? Miksi Repo / Lib I ei tehnyt
Wanted on jo olemassa? Kun mietittiin asiaa hetken, suurin osa
Haasteet, joita keksin, johtuivat kolmesta eri asiasta:
- flopit / flop-tehokkuus
- kuormantasaus / reitittimen vakaus
- datan laatu ja määrä
Floppeja
Tiheiden mallien kouluttaminen on nykyään melko suoraviivaista. Koulutus
Dynamiikka on pääosin kytketty, ja jos arkkitehtuurissa on tarpeeksi parametreja,
Malli oppii melkein hyvin monista virheistäsi huolimatta (tämä on kostanut minua
perse useamman kerran). [DeepSeek-tyylinen ultra-harva]( MoE:t ovat erilaisia, koska harjoitusdynamiikkasi ovat
jossain määrin irrallisena. Vain osa MLP:istäsi on aktiivisia tietylle tokenille,
Ja koulutuksen edetessä aktiiviset asiantuntijat muuttuvat ja kehittyvät ajan myötä. Tämä on
Mikä tekee moniaikaisesta koulutuksesta ja datan uudelleenmuotoilusta niin tehokasta MoE:lle
(varsinkin isompia). Saat suuria päättelytehokkuuden voittoja ja pieniä...

Johtavat
Rankkaus
Suosikit
