Nicht einmal Bronze: Bewertung von LLMs bei der Internationalen Mathematikolympiade 🥉 2025 Netter Blogbeitrag vom Team hinter MathArena: Evaluating LLMs on Uncontamination Math Competitions () mit unabhängiger Analyse der LLM-Leistung auf IMO.
Es sieht aus wie eine fortgeschrittene Version von Gemini, die Deep Think gerade 5 von 6 IMO-Problemen gelöst hat, insgesamt 35 Punkte erzielt hat und offiziell eine Leistung auf Goldmedaillen-Niveau erreicht hat. Herzlichen Glückwunsch zu diesem Erfolg @lmthang❗️ Ich kann es kaum erwarten, mit diesem Modell zu spielen.
42,62K