Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
3 beste praktijken voor het schrijven van AI-evaluaties:
1. Balans tussen snelheid en grondigheid
Begin met een dozijn testgevallen en iteratief van daaruit. Bouw geen 100-en als je nog steeds grote wijzigingen aan de prompts aanbrengt. Identificeer en los de grootste faalmodi op, en breid vervolgens de dekking uit.
2. Obsessie over evaluatiecriteria en handmatige labels
Je evaluatiecriteria en gouden dataset zijn de basis van alles. Je kunt niet om dit handmatige werk in spreadsheets heen - obsessie over het goed maken van je menselijke labels.
3. Schaal de LLM-rechter niet te vroeg
Streef naar ~80% overeenstemming tussen je LLM-rechter en menselijke labelers voordat je opschaalt. Controleer de resultaten regelmatig - neem niet aan dat het altijd juist is.
Morgen deel ik een beginnersgids over AI-evaluaties die stap voor stap een voorbeeld doorloopt dat iedereen kan volgen.
📌 Meld je aan om het in je inbox te ontvangen:
(P.S. Dit is hoe ik me voorstel dat een LLM-rechter eruitziet)

4,52K
Boven
Positie
Favorieten