Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un enorme modello di fondazione open source sbloccato da @_xjdr
XJDR è un mad scientist, quindi ci sono voluti alcuni tentativi per capirlo davvero, e potrei ancora non apprezzare appieno il risultato finale.
Normalmente, se vuoi addestrare un modello di base completamente nuovo da zero, hai bisogno di un sacco di GPU solo per avviare un serio ciclo di addestramento. È costoso.
Uno dei tipi più difficili da addestrare è il design Mixture of Experts in stile DeepSeek. È potente, ma il sistema di routing e la configurazione dell'addestramento sono così delicati che i test su piccola scala spesso vanno a rotoli. Così finisci per aver bisogno di un grande cluster solo per imparare qualcosa, e quando un ciclo fallisce non puoi sapere se la tua idea era sbagliata o se la configurazione si è semplicemente rotta, quindi la ricerca muore e non impari nulla.
XJDR sta open sourcing nmoe, una fabbrica di addestramento pronta all'uso cablata come farebbe un esperto, specificamente affinché questa classe di modelli possa essere addestrata e ricercata su una singola macchina senza rotture costanti. I piccoli esperimenti si comportano come un vero addestramento, quindi puoi ottenere un chiaro sì o no prima di spendere otto cifre e mesi di tempo.
In realtà, le persone possono eseguire prove economiche e veloci dove cambi una cosa alla volta, come come funzionano i routing del modello tra specialisti, come impara (ricetta di addestramento), quali dati gli fornisci e come ottieni più qualità per dollaro. Stai praticamente stressando nuove idee per modelli di base migliori nello stesso modo in cui testeresti A/B un prodotto, ma puoi farlo al di fuori di un grande laboratorio.
L'impatto netto è un'iterazione più rapida e un notevole risparmio sui costi, oltre a più team che possono realisticamente costruire nuovi modelli di fondazione. Questo può significare un modello di classe DeepSeek migliore, modelli in stile specialista completamente nuovi e molta più concorrenza e ricerca aperta perché la barriera d'ingresso scende drasticamente e più delle scoperte avvengono in pubblico.
Rimanete sintonizzati, sta open sourcing la maggior parte di esso!
Congratulazioni @_xjdr. Siamo molto felici di supportarti e di essere una piccola parte della tua storia.
Principali
Ranking
Preferiti
