gebruik is de beste evaluatie
a16z
a16z8 aug, 11:26
.@christinahkim zegt dat de grens niet meer benchmarks zijn. Het is gebruik. Eval-scores zijn verzadigd, maar het dagelijks leven niet. Het echte signaal van vooruitgang is hoeveel mensen AI gebruiken om echte dingen gedaan te krijgen. Dat is hoe we zullen weten dat we de AGI naderen.
22,2K