An der Internationalen Mathematik-Olympiade schaffen neuste KI-Modelle von Google Deepmind und Open AI Goldmedaillen-Bewertungen. Braucht es in Zukunft noch menschliche Mathematiker?

Hochbegabte junge Mathematikerinnen und Mathematiker nehmen jährlich an der Internationalen Mathematik-Olympiade teil. Eine Goldmedaille gewinnen nur die Allerbesten unter ihnen.
Es gibt Schülerinnen und Schüler, denen sind Mathe-Tests ein Schrecken. Einer kleinen Minderheit bieten aber erst die Aufgaben an der Internationalen Mathematik-Olympiade (IMO) eine Herausforderung. Regulären Schulstoff findet man an diesem Wettbewerb nicht. Und Hilfsmittel sind verboten. Kopfrechnen? Völlig nutzlos.
Am wohl härtesten Mathe-Wettbewerb der Welt müssen die Teilnehmer abstraktes mathematisches Denken nutzen, um Sätze aus der Algebra, Geometrie, Kombinatorik und Zahlentheorie zu beweisen. Am Ende nimmt nur die Hälfte der Teilnehmer eine Medaille mit nach Hause. Gold gewinnen nur die Allerbesten.
Für KI-Firmen ist die IMO seit langem eine Messlatte. Ihr Ziel: ein KI-Modell, das an die Problemlösefähigkeiten der begabtesten Jugendlichen herankommt.
Die diesjährige IMO in Australien war in diesem Sinne historisch: Zum ersten Mal in der über 60-jährigen Geschichte des Wettbewerbs erreichten künstliche Intelligenzen eine Punktzahl, die für eine Goldmedaille ausreichen würde – das gelingt nur rund zehn Prozent der IMO-Teilnehmer. Und jetzt eben auch zwei bisher unveröffentlichten KI-Modellen, einem von Google Deepmind und einem von Open AI. Beide knackten fünf der sechs Aufgaben und erhielten somit 35 von maximal 42 Punkten. Eine noch höhere Punktezahl erreichten immerhin 26 Schüler. Fünf Teilnehmer schrieben sogar eine perfekte Note.
«Ich bin beeindruckt. Dies ist eine ganz grosse Errungenschaft», sagt der Mathematiker Daniel Litt, Professor an der Universität Toronto, im Gespräch. Mit seiner Begeisterung ist er nicht allein. Auch der prominente KI-Skeptiker Gary Marcus hinterfragte zwar die Bedeutung der Ergebnisse in seinem Blog, nannte die Leistungen der KI aber «furchtbar beeindruckend».
Bei Google Deepmind und Open AI freuten sich die Unternehmenschefs höchstpersönlich auf der Plattform X (ehemals Twitter) über den Meilenstein.
we achieved gold medal level performance on the 2025 IMO competition with a general-purpose reasoning system! to emphasize, this is an LLM doing math and not a specific formal math system; it is part of our main push towards general intelligence.
when we first started openai,… https://t.co/X46rspI4l6
— Sam Altman (@sama) July 19, 2025
«Ich bin sicher, dass 99,999 Prozent der Menschen an der Mathematik-Olympiade keine einzige Aufgabe lösen könnten», sagt Jasper Dekoninck. Er forscht am ETH AI Center und doktoriert im Fach Informatik. Dekoninck ist Teil eines Teams, das sich mit den mathematischen Fähigkeiten von KI-Modellen beschäftigt. Die Forschergruppe hatte die Aufgaben der Mathematik-Olympiade von fünf öffentlich verfügbaren KI-Modellen lösen lassen. Keines davon erreichte auch nur die 15 Punkte, die für eine Bronzemedaille nötig wären.
Umso verblüffender findet es Dekoninck, dass die noch geheim gehaltenen Modelle von Google und Open AI nun so viel besser seien. Man könne zurzeit nur spekulieren, welche Innovationen zu diesem Leistungssprung geführt hätten, sagt er.
Durch «paralleles Denken» zum Erfolg
Google Deepmind verrät in einem Blog-Beitrag kaum technische Details. Das neue Modell sei eine generalistische Sprach-KI, die im Prinzip jede Nutzerfrage beantworten könne, schreiben die Google-Forscher darin. Letztes Jahr hatte Google mit einem speziell für Mathematik konzipierten KI-System an der IMO nur Silbermedaillen-Niveau erreicht.
Neu an der diesjährigen KI mit dem Namen «Deep Think» sei, dass sie auf «paralleles Denken» setze. Anders als in gängigen «denkenden» KI-Modellen, die einen linearen Gedankengang simulierten, könne das neue Modell mehrere Lösungswege gleichzeitig erkunden und dann die beste Lösung auswählen.
Zum Modell von Open AI sagte CEO Sam Altmann nur, dass es sich um ein «experimentelles Modell» handele, das noch viele Monate von einem kommerziellen Produkt entfernt sei. Dieses Modell sei aber Teil der langfristigen Bemühungen seiner Firma, eine künstliche allgemeine Intelligenz zu entwickeln. Damit ist eine KI gemeint, die in allen kognitiven Fähigkeiten den besten menschlichen Spezialisten ebenbürtig ist.
Fragwürdige Testergebnisse als Werbemittel
Für die KI-Firmen sind Prüfungen wie die IMO ein beliebtes Schaufenster. Sie nutzen diese Tests, um die Fortschritte ihrer neusten Modelle anzupreisen. So prahlte Elon Musk kürzlich damit, dass Grok 4 – das neueste Modell seiner KI-Firma XAI – beim sogenannten «Humanity’s Last Exam» alle anderen KI-Modelle in den Schatten gestellt habe. Grok 4 sei somit über alle Fachgebiete hinweg intelligenter als jeder Doktorand.
Aber solche Tests sind wegen der oft mangelnden Transparenz umstritten. Es ist nämlich nicht immer klar, wie viel Rechenaufwand die KI beim Lösen der Aufgaben betreiben, ob Menschen im Hintergrund mithelfen und ob die Testaufgaben vorher bekannt und in den Trainingsdaten der KI enthalten waren. Problematisch ist auch, dass die Details der KI-Modelle selbst oft unter Verschluss gehalten werden.
Kritik hat diesmal vor allem Open AI geerntet. Die Firma liess die Lösungen ihrer KI nicht von den Organisatoren der IMO benoten, wie das Google Deepmind tat. Stattdessen setzte Open AI unabhängige Prüfer ein, die mindestens einmal eine Medaille an der IMO gewonnen hatten. Zudem meldete Open AI die Ergebnisse seiner KI, bevor die IMO-Organisatoren die offiziellen Medaillengewinner bekanntgaben – wodurch das Unternehmen für seine Werbeaktion den eigentlichen Protagonisten das Rampenlicht stahl.
Selbst im Falle von Google Deepmind sagten die IMO-Organisatoren in einer Medienmitteilung, dass sie nur die Richtigkeit der Lösungen, nicht aber die verwendete Methodologie bescheinigen könnten. Denn diese hätten die Firmen nicht offengelegt. Prominente Mathematiker kritisierten ebenfalls die undurchsichtige Vorgehensweise der KI-Firmen.
Fields Medal winner Terence Tao cutting through the hype on the OpenAI IMO Gold performance, with a characteristically well measured perspective. pic.twitter.com/luYWAPt5Wz
— Cyril Gorlla (@CyrilGorlla) July 19, 2025
Dieser Kritik schliesst sich der KI-Forscher Frieder Simon von der Oxford University an. Simon organisiert die AIMO, eine Mathematik-Olympiade ausschliesslich für KI-Modelle. Damit will er für mehr Transparenz sorgen. Die Aufgaben an der AIMO seien auf dem Niveau einer nationalen Mathe-Olympiade für Menschen, also nur knapp unter dem Schwierigkeitsgrad des internationalen Wettbewerbs. Die Gewinner der AIMO müssen laut Simon den Code hinter ihrer KI sowie Details zur verwendeten Computerhardware preisgeben. Dadurch seien die Resultate reproduzierbar.
Weil er an der AIMO bereits die Fortschritte jüngster KI-Modelle gesehen habe, sei er von den Leistungen der neusten Modelle von Google und Open AI nicht überrascht, sagt Simon. Im April habe die Sieger-KI an der AIMO 34 von 50 Punkten erzielt. Diese Resultate habe man intern validiert, aber noch nicht veröffentlicht.
Zunehmende Verschmelzung von KI und Mathematik
Dass KI immer besser Mathe kann, steht auch für Simon trotz der bemängelten Intransparenz fest. Heisst das nun, dass auch Mathematiker Angst haben müssen, von den Maschinen verdrängt zu werden? In dieser Frage gehen die Meinungen der Experten auseinander.
«Angst ist ein starkes Wort», sagt der Oxford-Forscher Simon. Er ist dennoch überzeugt, dass KI in immer mehr Teilgebiete der Mathematik vordringen werde.
Laut Simon werden zurzeit immer mehr KI-Tools entwickelt, die Mathematiker in ihrer Arbeit unterstützen. KI könne zwar noch keine Beweise verstehen oder erklären, auch wenn sie diese selber produziert habe. Aber auch diese Lücke werde die KI-Entwicklung eines Tages schliessen, sagt er. Simon ist sicher: «In einer Welt, in der KI immer schneller mit der Mathematik verschmilzt, drohen viele Mathematiker obsolet zu werden. Und das gilt nicht nur für Mathematiker, sondern für alle Wissensarbeiter.»
Werden menschliche Mathematiker zum gesellschaftlichen Luxusgut?
Allerdings ist es wohl mit einem guten Resultat an der Mathematik-Olympiade noch nicht getan. Der Mathematikprofessor Daniel Litt gibt zu bedenken: Die Fähigkeiten, die an der Mathematik-Olympiade geprüft würden, hätten wenig zu tun mit dem, was ein forschender Mathematiker leisten müsse. Litt denkt, KI werde noch lange keine qualitativ hochstehende mathematische Forschung betreiben können.
Angst vor der KI-Technologie habe er jedoch nicht, sagt Litt. Im Gegenteil: «Ich freue mich auf KI-Tools, die mir schwierige mathematische Konzepte beibringen können und mir auch gelegentlich beim Erbringen eines Beweises einen Teil der Arbeit abnehmen.»
Und was, wenn die KI eines Tages auch seinen Job effizienter erledigt als jeder Mathematiker? «Dann werden wir vor einer anthropologischen Frage stehen», sagt Litt. «Wir werden als Gesellschaft entscheiden müssen, ob wir uns menschliche Mathematiker leisten wollen.»