Ei edes pronssia: LLM-tutkintojen arviointi vuoden 2025 kansainvälisissä matematiikan olympialaisissa 🥉 Mukava blogikirjoitus MathArenan takana olevalta tiimiltä: LLM:ien arviointi saastumattomissa matematiikkakilpailuissa (), joka tarjoaa riippumattoman analyysin LLM-suorituksesta IMO:ssa.
Näyttää siltä, että edistynyt versio Geministä, jossa on Deep Think, ratkaisi juuri 5 kuudesta IMO-ongelmasta, ansaitsi yhteensä 35 pistettä ja saavutti virallisesti kultamitalitason suorituksen. Onnittelut saavutuksesta @lmthang❗️ En malta odottaa, että pääsen pelaamaan tällä mallilla
42,7K