Nici măcar bronz: evaluarea LLM-urilor la Olimpiada 🥉 Internațională de Matematică 2025 O postare frumoasă pe blogul echipei din spatele MathArena: Evaluarea LLM-urilor pe competițiile de matematică necontaminate () care oferă o analiză independentă a performanței LLM pe IMO.
Se pare că o versiune avansată a Gemini cu Deep Think tocmai a rezolvat 5 din cele 6 probleme IMO, câștigând 35 de puncte totale și obținând oficial performanța la nivel de medalie de aur. Felicitări pentru realizarea @lmthang❗️ abia aștept să mă joc cu acest model
42,7K