Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Er is veel verwarring online over wat een RL-omgeving echt is.
Het is letterlijk gewoon een benchmark.
- Een omgeving
- Een starttoestand
- Een verifier die controleert of een eindtoestand correct of acceptabel is
De omgeving is een klein sandbox die de LLM de kans geeft om daadwerkelijk te interageren — acties te ondernemen, uitkomsten te zien en de wereld waarin het zich bevindt te beïnvloeden. In het geval van TerminalBench is het gewoon een Docker-container die een echte ontwikkelaarsterminal emuleert, compleet met bestanden, afhankelijkheden en systeemtools die het model kan gebruiken.
De starttoestand definieert wat het model ziet wanneer de taak begint — de invoer, context en initiële voorwaarden. In een coderingsbenchmark kan dit de staat van een Git-repository zijn wanneer de gebruiker voor het eerst begon te werken: de bestanden, het bugrapport, de falende tests en de startprompt van de gebruiker die het model vertelt wat er gedaan moet worden. Het is de "probleemopzet," bevroren in de tijd, zodat elk model vanuit dezelfde positie begint en de uitkomst eerlijk kan worden vergeleken.
Ten slotte is de verifier wat het geheel meetbaar maakt. Het is het onderdeel dat controleert of het model de taak daadwerkelijk heeft opgelost — de geautomatiseerde beoordelaar die rommelige uitkomsten omzet in een eenvoudige score of een slaag/zak-signal.
Dat is waarom je mensen in laboratoria hoort zeggen "we hebben getraind op verifiers". Ze hebben het over een geautomatiseerde manier om het gedrag van het model te scoren. Dit wordt dan de beloningsfunctie voor RL, of het slaag/zak-signaal voor benchmarks.

Boven
Positie
Favorieten

