# Miksi MoE:n kouluttaminen on niin vaikeaa Viime aikoina olen huomannut haluavani pienen, tutkimukseen keskittyvän koulutusvaraston Niihin voin tehdä pieniä kokeita nopeasti ja helposti. Nämä kokeet vaihtelevat uusien tarkkaavaisuusarkkitehtuurien (MLA, SWA, NSA, KDA – kaikki kytkettävät) kokeilemisesta monitarkkaan koulutukseen useimmille Viime aikoina monioptimointijärjestelmät 'uusilla' optimoijilla. Kokeilin 3-duuria kilpailijoita (Nemo, Megatron ja Torchtitan), mutta monista ja monista syistä he Se ei todellakaan sopinut tarkoituksiini ja kaikki olivat melko kivuliaita. Aseta, käytä ja käynnistä vakaasti. Kaipasin taas Googlen työkaluja Ja tuotantokoulutuspinon uudelleenkirjoittaminen tätä tarkoitusta varten (joka on räätälöity tehty suuren infrastruktuurin valvontaan ja vakauteen) tuntui myös köyhältä Ajan käyttö ja heikentäisi sekä vanhan että uuden repositoa. Tämä sai minut kuitenkin pohtimaan, miksi Training Frontierin laatu oli 'liian pieni'? MoE:t (esimerkiksi alle 20B parametrit yhteensä) ovat niin vaikeita? Miksi Repo / Lib I ei tehnyt Wanted on jo olemassa? Kun mietittiin asiaa hetken, suurin osa Haasteet, joita keksin, johtuivat kolmesta eri asiasta: - flopit / flop-tehokkuus - kuormantasaus / reitittimen vakaus - datan laatu ja määrä Floppeja Tiheiden mallien kouluttaminen on nykyään melko suoraviivaista. Koulutus Dynamiikka on pääosin kytketty, ja jos arkkitehtuurissa on tarpeeksi parametreja, Malli oppii melkein hyvin monista virheistäsi huolimatta (tämä on kostanut minua perse useamman kerran). [DeepSeek-tyylinen ultra-harva]( MoE:t ovat erilaisia, koska harjoitusdynamiikkasi ovat jossain määrin irrallisena. Vain osa MLP:istäsi on aktiivisia tietylle tokenille, Ja koulutuksen edetessä aktiiviset asiantuntijat muuttuvat ja kehittyvät ajan myötä. Tämä on Mikä tekee moniaikaisesta koulutuksesta ja datan uudelleenmuotoilusta niin tehokasta MoE:lle (varsinkin isompia). Saat suuria päättelytehokkuuden voittoja ja pieniä...