Er det noen lekeplass eller tilsvarende for å se verktøybruken / agentisk ytelse til forskjellige modeller? Jeg vil i hovedsak gi den 5 verktøy og min vanlige forespørsel Og lekeplassen genererer ~5-10 saker og kjører alle de valgte modellene Og så observerer jeg+endrer modell, spør
4,6K