Google Gemini 2.5 Pro schlägt OpenAI beim Verstehen langer Texte

10

Überraschender Sieger

Google schlägt OpenAI beim Verstehen langer Texte


10.06.2025 – 14:32 UhrLesedauer: 2 Min.

imago images 0780932218Vergrößern des Bildes

KI-Chatprogramme im Test: Bei längeren Texten werden Leistungsunterschiede deutlich. (Quelle: NurPhoto/imago-images-bilder)

Googles KI-System übertrifft OpenAI beim Verstehen komplexer Geschichten. Der Test zeigt: Die meisten Modelle versagen bei längeren Texten komplett.

Ein neuer Leistungstest (“Benchmark”) hat deutliche Schwächen aktueller KI-Modelle beim Verstehen komplexer Geschichten aufgedeckt. Googles Gemini 2.5 Pro erzielte hier die besten Ergebnisse und übertraf sogar OpenAIs neuestes o3-Modell, wie das internationale Fachmagazin “The Decoder” berichtet.

Der von der Plattform fiction.live entwickelte Leistungstest prüft, ob Sprachmodelle komplexe Erzählungen über längere Textpassagen hinweg verstehen können. Anders als bei herkömmlichen Tests müssen die KI-Systeme dabei nicht nur Informationen finden, sondern auch Charakterentwicklungen nachvollziehen und versteckte Bedeutungen erfassen.

OpenAIs Modell o3 zeigte zunächst starke Leistungen und erreichte bis zu 128.000 Tokens eine Erfolgsquote von 100 Prozent. Bei 192.000 Tokens brach die Performance jedoch auf 58,1 Prozent ein. Googles Gemini 2.5 Pro (Preview-Version vom 5. Juni) blieb dagegen stabil und erzielte bei derselben Tokenzahl noch 90,6 Prozent.

Die Testergebnisse zeigen deutliche Unterschiede zwischen den Modellen: Während o3 bei kürzeren Texten die Spitzenposition hält, fällt es bei längeren Kontexten deutlich ab. DeepSeek-R1 übertraf dabei überraschend o3-mini und positioniert sich als kostengünstige Alternative für preisbewusste Nutzer.

Fiction.live nutzte für den Test eine Auswahl komplexer Geschichten und entwickelte dazu Fragen, die echtes Verständnis erfordern. Die Aufgaben prüfen beispielsweise, ob Modelle Beziehungsveränderungen zwischen Charakteren über Zeit nachvollziehen oder zwischen Geheimnissen unterscheiden können, die nur Lesern oder auch den Figuren bekannt sind.

“Die meisten LLMs (“Large Language Models”, auf Deutsch “große Sprachmodelle”, Anm. d. Red.) können diese Aufgaben bewältigen, aber nicht über längere Kontexte hinweg”, erklären die Entwickler von fiction.live. Der Test sei bewusst schwieriger gestaltet als andere Benchmarks, da er Subtext und tieferes Verständnis statt bloßer Informationssuche fordere.

Für Schriftsteller könnte Googles Ergebnis einen Durchbruch bedeuten. Fiction.live bezeichnet Gemini 2.5 Pro als erstes Modell, das “möglicherweise für längere Schreibaufgaben nutzbar” sei. Bisher scheiterten KI-Systeme regelmäßig daran, Handlungsstränge zu verfolgen oder Charaktermotivationen korrekt zu erfassen.

Die getesteten Tokenzahlen liegen allerdings noch weit unter Googles beworbener maximaler Kontextfenstergröße von einer Million Token. Bei noch größeren Kontexten dürfte auch Geminis Genauigkeit abnehmen, schreibt “The Decoder”.