For kunder er evals i beste fall markedsføringsmateriell Hvordan agenter brukes IRL og hvordan man best kan måle det som betyr noe, er vanskeligere, selv blant de forskjellige undergruppene av kodeagenter (generalist, PR-gjennomgang, tekst til app) Har tenkt på hvordan en "G2" ser ut i denne verden