Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nieuwe blogpost over asymmetrie van verificatie en "wet van de verificateur":
Asymmetrie van verificatie - het idee dat sommige taken veel gemakkelijker te verifiëren zijn dan op te lossen - wordt een belangrijk idee omdat we RL hebben dat eindelijk in het algemeen werkt.
Goede voorbeelden van asymmetrie van verificatie zijn dingen als sudoku-puzzels, het schrijven van de code voor een website als Instagram en BrowseComp-problemen (er zijn ~ 100 websites nodig om het antwoord te vinden, maar gemakkelijk te verifiëren als je eenmaal het antwoord hebt).
Andere taken hebben een bijna-symmetrie van verificatie, zoals het optellen van twee getallen van 900 cijfers of sommige gegevensverwerkingsscripts. Toch zijn andere taken veel gemakkelijker om haalbare oplossingen voor te stellen dan om ze te verifiëren (bijvoorbeeld het controleren van een lang essay of het vermelden van een nieuw dieet zoals "eet alleen bizons").
Een belangrijk ding om te begrijpen over asymmetrie van verificatie is dat je de asymmetrie kunt verbeteren door vooraf wat werk te doen. Bijvoorbeeld als je de antwoordsleutel hebt voor een wiskundig probleem of als je testcases hebt voor een Leetcode-probleem. Dit vergroot het aantal problemen met gewenste verificatie-asymmetrie aanzienlijk.
"De wet van de verificateur" stelt dat het gemak waarmee AI kan worden getraind om een taak op te lossen, evenredig is met hoe verifieerbaar de taak is. Alle taken die mogelijk op te lossen en gemakkelijk te verifiëren zijn, worden opgelost door AI. De mogelijkheid om AI te trainen om een taak op te lossen, is evenredig met het feit of de taak de volgende eigenschappen heeft:
1. Objectieve waarheid: iedereen is het erover eens wat goede oplossingen zijn
2. Snel te verifiëren: elke oplossing kan in een paar seconden worden geverifieerd
3. Schaalbaar om te verifiëren: veel oplossingen kunnen tegelijkertijd worden geverifieerd
4. Laag geluidsniveau: de verificatie is zo nauw mogelijk gecorreleerd met de kwaliteit van de oplossing
5. Voortdurende beloning: het is gemakkelijk om de goedheid van veel oplossingen voor een enkel probleem te rangschikken
Een voor de hand liggende instantiatie van de wet van de verificateur is het feit dat de meeste benchmarks die in AI worden voorgesteld, gemakkelijk te verifiëren zijn en tot nu toe zijn opgelost. Merk op dat vrijwel alle populaire benchmarks in de afgelopen tien jaar voldoen aan criterium #1-4; Benchmarks die niet voldoen aan criteria #1-4 zouden moeite hebben om populair te worden.
Waarom is verifieerbaarheid zo belangrijk? De hoeveelheid leren in AI die plaatsvindt, wordt gemaximaliseerd wanneer aan de bovenstaande criteria is voldaan; Je kunt veel gradiëntstappen nemen waarbij elke stap veel signaal heeft. Snelheid van iteratie is van cruciaal belang - het is de reden dat de vooruitgang in de digitale wereld zoveel sneller is gegaan dan de vooruitgang in de fysieke wereld.
AlphaEvolve van Google is een van de beste voorbeelden van het benutten van asymmetrie van verificatie. Het richt zich op opstellingen die aan alle bovenstaande criteria voldoen en heeft geleid tot een aantal vorderingen in de wiskunde en andere gebieden. Anders dan wat we de afgelopen twee decennia in AI hebben gedaan, is het een nieuw paradigma in die zin dat alle problemen worden geoptimaliseerd in een omgeving waarin de treinset gelijk is aan de testset.
Asymmetrie van verificatie is overal en het is opwindend om een wereld van gekartelde intelligentie te overwegen waar alles wat we kunnen meten, wordt opgelost.

299,31K
Boven
Positie
Favorieten