Het wordt steeds moeilijker om AIs te testen naarmate ze "slimmer" worden in een breed scala aan taken. De gemiddelde taak in GDPval kostte een uur voor experts om te beoordelen, en zelfs die taken duwden de huidige AIs niet tot hun grenzen.
We bevinden ons nog steeds in een tijdperk waarin geen enkel model alles domineert. Voor mensen die veel met AI doen, ga je afwisselen tussen Gemini, Claude en ChatGPT.
En dat is niet alleen omdat modellen specifieke vaardigheden hebben, elk heeft een persoonlijkheid die bijdraagt aan de bruikbaarheid bij taken.
De belangrijkste les van de afgelopen weken is dat de Big Four Amerikaanse laboratoria allemaal lijken te hebben ontdekt hoe ze de exponentiële snelheid van verbetering van LLM's kunnen voortzetten, althans in de nabije toekomst.
Als gevolg hiervan blijven agents vooruitgang boeken in coderen en in kantoortaken zoals PowerPoint.