GPT-5 saavuttaa 94,6 %:n tarkkuuden AIME 2025:ssä, mikä viittaa lähes inhimilliseen matemaattiseen päättelyyn. Pyydä sitä tekemään kysely tietokannastasi, ja onnistumisprosentit putoavat teini-ikäisiin. Spider 2.0:n vertailuarvot paljastavat ammottavan aukon tekoälyn ominaisuuksissa. Spider 2.0 on kattava tekstistä SQL:ksi -vertailuarvo, joka testaa tekoälymallien kykyä luoda tarkkoja SQL-kyselyitä luonnollisen kielen kysymyksistä todellisissa tietokannoissa. Vaikka suuret kielimallit ovat valloittaneet matematiikan, koodauksen ja päättelyn tietotyön, tekstistä SQL:ksi on edelleen sitkeän vaikeaa. Kolme Spider 2.0 -vertailuarvoa testaavat todellisia tietokantakyselyjä eri ympäristöissä. Spider 2.0-Snow käyttää Snowflake-tietokantoja, joissa on 547 testiesimerkkiä, ja sen tarkkuus on 59,05 %. Spider 2.0-Lite kattaa BigQueryn, Snowflaken ja SQLiten 547 muulla esimerkillä, saavuttaen vain 37,84 %. Spider 2.0-DBT testaa koodin luomista DuckDB:tä vastaan 68 esimerkillä, ja huippu on 39,71 %. Tämä suorituskykyero ei johdu yrittämisen puutteesta. Marraskuusta 2024 lähtien 56 ehdotusta 12 malliperheestä on kilpaillut näillä vertailuarvoilla. Claude, OpenAI, DeepSeek ja muut ovat kaikki työntäneet mallejaan näitä testejä vastaan. Kehitys on ollut tasaista, noin 2 prosentista noin 60 prosenttiin viimeisen yhdeksän kuukauden aikana. Palapeli syvenee, kun otetaan huomioon SQL:n rajoitukset. SQL:llä on rajallinen sanavarasto verrattuna englantiin, jossa on 600 000 sanaa, tai ohjelmointikieliin, joissa on paljon laajemmat syntaksit ja kirjastot. Lisäksi siellä on paljon SQL:ää, jolla voit harjoitella. Jos jotain, tämän pitäisi olla helpompaa kuin avoimet päättelytehtävät, joissa mallit ovat nyt erinomaisia. Edes täydellinen SQL-generointi ei kuitenkaan ratkaisisi todellista liiketoimintahaastetta. Jokainen yritys määrittelee "tulot" eri tavalla. Markkinointi mittaa asiakashankintakustannuksia kampanjakulujen mukaan, myynti laskee sen asiakkuuskulujen perusteella ja talous sisältää täyteen ladatut henkilöstökulut. Nämä semanttiset erot aiheuttavat hämmennystä, jota tekninen tarkkuus ei pysty ratkaisemaan. Spider 2.0:n tulokset viittaavat perustavanlaatuiseen totuuteen datatyöstä. SQL-syntaksin tekninen taito on vain lähtökohta. Todellinen haaste on liiketoimintakontekstissa. Ymmärtää, mitä tiedot tarkoittavat, miten eri tiimit määrittelevät mittarit ja milloin reunatapauksilla on merkitystä. Kuten kirjoitin Semantic Cultivators -kirjassani, silta raakadatan ja liiketoiminnan merkityksen välillä vaatii ihmisen harkintaa, jota nykyinen tekoäly ei pysty toistamaan.
4,3K