DApp Store | Hub Web3 pour les événements et les jeux | OKX Wallet

Que peut-on faire avec Discover?

background background

discoveryBanners

Rubriques tendance

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN-4,83 %

#

Boop.Fun leading the way with a new launchpad on Solana.

header

Ariel

Ariel

Ariel22 oct., 21:55

OpenAI : lance un navigateur Anthropic : publie un article de blog Deepmind : résout les équations de Navier-Stokes Meta : ...merde, faisons un licenciement

200,58K

Ariel

Ariel19 oct., 06:22

Ok, je ne veux pas être un hater, mais le document sur le scaling RL à 4,2 millions de dollars semble un peu trop hypé par rapport à ce qu'il est ? Un peu par le document lui-même, mais surtout par les posteurs sur Twitter. D'après une première lecture, il semble que ce soit encore un ensemble d'ajustements à GRPO, sauf que cette fois, il est entraîné sur différents budgets de calcul, mais - de manière cruciale - uniquement sur des modèles relativement petits (Llama 3 8B et Llama 4 Scout), et un ensemble de données qui ne contient que des questions de mathématiques. La principale nouveauté est qu'ils ont ajusté une courbe au graphique de récompense, ce qui est, euh, cool je suppose ? La cerise sur le gâteau est le dépôt de code qui est un fichier centré autour de `from scipy.optimize import curve_fit` Je suis tout à fait pour une recherche RL plus principielle, mais on ne peut guère proclamer des lois de scaling dans un seul cadre, lorsque les environnements d'entraînement RL peuvent être plus diversifiés que les ensembles de données de pré-entraînement. De plus, j'ai toujours un soupçon (et pas de budget pour vérifier) que le RL sur de grands modèles (>100B ?) est une bête qualitativement différente de celle sur des modèles plus petits. La grande chose à propos des lois de scaling des LLM est que pour un budget donné, vous pouvez estimer certains hyperparamètres a priori, ce qui permet d'économiser sur les conjectures d'hyperparamètres. J'ai du mal à trouver des insights analogues ici. Mais bon, cela a utilisé 400k heures GPU.

42,67K

Meilleurs

Classement

Favoris

©2017 - 2025 WEB3.OKX.COM

Français 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

En savoir plus sur OKX Web3

Télécharger Learn À propos de nous Offres d'emploi Nous contacter Conditions d’utilisation Avis de confidentialité X (anciennement Twitter)

Produit

Tableau de bord du portefeuille Swap Marché Earn Découvrir Créer Explorateur Sécurité

Assistance

Centre d'assistance Vérification officielle Annonces Grille tarifaire DEX Connexion avec OKX Portefeuille Bitcoin Portefeuille Ethereum Portefeuille Solana