Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nathan Lambert
Onderzoek @allen_ai, redeneren, open modellen, RL(VR/HF)...
Contact via e-mail.
Schrijft @interconnectsai,
Schreef het RLHF-boek,
De loper van de berg.
Ik voel sterk dat, hoewel ik de uitdagingen begrijp waarmee ze te maken hebben om dit te runnen, dit de verkeerde beslissing is. Wat Arxiv in de praktijk is versus wat het in werkelijkheid is, is heel anders.
In de praktijk zijn er al moderatieregels, maar ze worden zo minimaal gehandhaafd (door de overbelasting) dat ze effectief niet bestaan. Zie dingen zoals Schaeffer, Rylan. "Pretraining on the test set is all you need." arXiv preprint arXiv:2309.08632 (2023). Veel meer gevallen. Arxiv-moderatie is al een onvoorspelbare zwarte doos die de verspreiding van onderzoek en de voorspelbaarheid van het onderzoeksecosysteem belemmert.
Het is belangrijk op te merken dat Arxiv beleid heeft dat dit, studentenprojecten, misschien het RLHF-boek en andere vaak geposte dingen "niet toegestaan" maakt.
In feite zou Arxiv in de andere richting moeten gaan. Wees het platform waar iedereen accepteert dat ELKE CS-onderzoek is, en kijk later of het goed is.
Dit voelt als de vroege stadia van een langzame dood van Arxiv. Waar ze over 2-3 jaar hetzelfde zullen zeggen voor "technisch" onderzoek, en dan daar peer review zullen vereisen. Dit alles gaat gewoon het publiceren van onderzoek vertragen, omdat peer review tijd kost. Peer review wordt tegelijkertijd volledig opnieuw opgebouwd in het tijdperk van AI en het zal nog langer duren om het op te lossen.
Peer review gaat opnieuw worden vormgegeven als AI eerst met menselijke supervisie. Het wordt momenteel verondersteld volledig menselijk te zijn. Het zal over 20 jaar een heel ander proces zijn.
Nadat Arxiv een peer review vereiste voor technisch werk heeft ingesteld, zal het de langzame dood van het platform zijn. Een concurrent zal opkomen. Een glibberige helling is begonnen, en ik ben blij om het team hierover te adviseren, aangezien het lijkt op een verlies-verlies ruil.
Bijvoorbeeld, hiermee zou ik mijn RLHF-boek PDF nooit op Arxiv kunnen publiceren, ook al was het extreem gevraagd en is het waarschijnlijk een zeer goed gelezen PDF (meer dan veel van mijn onderzoekswerk).
Houd arxiv als de standaard. We willen niet dat dit wordt gerund door een winstgevend bedrijf. Hosting en open toegang tot onderzoek is een fundamentele overwinning voor de mensheid. Uitzoeken hoe het te cureren is een nieuw probleem voor het AI-tijdperk, laat het alsjeblieft niet over aan onze enigszins gebroken peer review-instellingen. Maak er iets nieuws van dat AI-native is. Leun in de toekomst.
Werk de beleidsregels van Arxiv bij om de realiteit weer te geven, niet een glijdend doel dat waarschijnlijk onmogelijk te bereiken is.

Thomas G. Dietterich31 okt 2025
De sectie Computerwetenschappen van @arxiv vereist nu een voorafgaande peer review voor literatuuroverzichten en standpunten. Details in een nieuwe blogpost
180
Ik ben ervan overtuigd het zo snel mogelijk te proberen, we zouden allemaal FP16 moeten proberen, kijk naar deze grafiek man. FP16 is perfect in foutreductie.
"Dit is precies waarom overstappen naar FP16 een fundamentele oplossing biedt. Met zijn 10 mantissa-bits biedt FP16 8 keer meer precisie (2^10 waarden vs. 2^7 waarden) dan BF16. Deze hogere nauwkeurigheid betekent dat de outputs van de trainings- en inferentie-engines veel waarschijnlijker numeriek identiek zijn. De verhoogde precisie creëert een buffer die de kleine implementatieverschillen tussen de twee engines absorbeert, waardoor afrondingsfouten worden voorkomen die zich ophopen en een beleidsafwijking veroorzaken.
Voor RL-fijnafstemming is het dynamische bereik van de gewichten en activaties van het model al vastgesteld tijdens de voortraining. Daarom is het extreme bereik van BF16 minder kritisch, terwijl de precisie die het opgeeft een dominante tekortkoming wordt. Door terug te keren naar FP16, ruilen we het onnodige bereik van BF16 in voor de kritische precisie, waardoor we effectief de kloof tussen training en inferentie dichten zonder enige complexe algoritmische of technische omweg."

52
Boven
Positie
Favorieten


