Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ok, non voglio essere un hater, ma il documento sul scaling RL da 4,2 milioni di dollari sembra essere un po' sopravvalutato per quello che è? Un po' dal documento stesso, ma soprattutto dai postatori su Twitter.
Da una lettura iniziale sembra essere un altro insieme di modifiche a GRPO, tranne che questa volta è addestrato su budget di calcolo diversi, ma - cosa cruciale - solo su modelli relativamente piccoli (Llama 3 8B e Llama 4 Scout), e un dataset che è 100% domande di matematica.
La principale novità è che hanno adattato una curva al grafico delle ricompense che è, uh, interessante suppongo?
La ciliegina sulla torta è il repository di codice che è un file incentrato su `from scipy.optimize import curve_fit`
Sono tutto per una ricerca RL più principled, ma non puoi proclamare leggi di scaling in un singolo contesto, quando gli ambienti di addestramento RL possono essere argomentabilmente più diversi dei dataset di pre-addestramento. Inoltre, ho ancora un sospetto (e nessun budget per verificarlo) che l'RL su modelli enormi (>100B?) sia una bestia qualitativamente diversa rispetto a modelli più piccoli.
La cosa fantastica delle leggi di scaling degli LLM è che per un dato budget, puoi stimare alcuni iperparametri a priori, risparmiando sulla congettura degli iperparametri. Faccio fatica a trovare qualche intuizione analoga qui.
Ma hey, ha utilizzato 400k ore GPU.

Principali
Ranking
Preferiti

