Sepp Hochreiter will Chat-GPT übertreffen

9

Sepp Hochreiter hatte mit seiner Doktorarbeit die KI revolutioniert. Dann stahl ihm Open AI die Show. Wird er es schaffen, zurückzuschlagen?

Sepp Hochreiter hätte den Bauernhof der Eltern übernehmen sollen. Stattdessen gab er KI ein Gedächtnis.

Sepp Hochreiter hätte den Bauernhof der Eltern übernehmen sollen. Stattdessen gab er KI ein Gedächtnis.

Michael Rausch-Schott / Picture Alliance

In einem schmalen Büro an der Universität Linz – kahle Wände, Schreibtisch, eine Tafel voller Formeln – telefoniert schnell, fast atemlos ein Mann, ohne den der KI-Boom kaum stattgefunden hätte. «Ohne Sepp kein Siri», steht auf einem Zettel an der Wand.

Optimieren Sie Ihre Browsereinstellungen

NZZ.ch benötigt JavaScript für wichtige Funktionen. Ihr Browser oder Adblocker verhindert dies momentan.

Bitte passen Sie die Einstellungen an.

Der Professor für maschinelles Lernen trägt Jeans und ein gestreiftes Hemd, dessen Kragen schlampig unter dem Ausschnitt eines grauen Pullovers steckt. Man mag sich einen Wissenschafter glamouröser vorstellen, dessen Forschung in Smartphones auf der ganzen Welt steckt. Aber das passt nicht zu Hochreiter. Ihn treibt nicht Gewinnstreben an, sondern die Leidenschaft für Mathematik.

An seinen Leistungen hat er bisher wenig verdient. Das könnte sich nun ändern. Jetzt, wo die ganze Welt zu Experten für künstliche Intelligenz (KI) wird, sieht er seine Chance gekommen, Chat-GPT die Show zu stehlen. Ein eigenes KI-Modell, worauf Europa schon so lange hofft, das könnte in Linz entstehen.

Doch Hochreiters Geschichte zeigt zwei typisch europäische Dinge: Erstens, wie wichtig ein durchlässiges Bildungssystem ist. Zweitens, dass man sich mit Bescheidenheit selbst im Weg stehen kann.

Der Realschüler half den Gymnasiasten bei den Aufgaben

Weit in die Welt hinaus wollte Hochreiter nie. Seit fast zwanzig Jahren forscht er hier in Linz, rund 170 Kilometer von seinem Geburtsort Mühldorf am Inn entfernt. «Ich bin auf einem Bauernhof aufgewachsen», erzählt er. Den hätte er übernehmen sollen. Doch ihn reizte die Welt des logischen Denkens weit mehr.

«Mit den Gymnasiasten» spielte der Realschüler Schach. Deutsche Realschulen bereiten eher auf eine berufliche Ausbildung als auf ein Studium vor. Für seine bodenständigen Eltern «gerade noch vorstellbar».

Doch die provinzielle Enge hinderte ihn nicht daran, zu lernen. Mit seinen Schachfreunden sass er oft in der Stadtbibliothek, vertiefte sich in Mathe- und Physikbücher, diskutierte darüber. «Diese Fächer faszinierten uns extrem», sagt er. Er half den Gymnasiasten bei Aufgaben für Wettbewerbe, an denen er selbst nicht teilnehmen durfte. Schach lehrte ihn, sich konzentriert in etwas hineinzudenken. Zwei Stunden Spiel erschienen ihm oft wie drei Minuten.

Vielleicht hat Schach ihn auch gelehrt, Hindernisse auf dem Weg zur Erfüllung seines Traums zu umschiffen. Die Universität war ihm versperrt, also ging er 1985 an eine Fachhochschule – wo es aber keine Mathematik gab. «Ich überlegte, wo am meisten Mathe drinsteckt», erzählt Hochreiter. Die Antwort: Informatik. Er war so gut in dem Fach, dass er es bald an der renommierten TU München weiterstudieren konnte. Doch selbst dort langweilten den Schnelldenker viele Inhalte. «Es wurde Wissen wiedergekäut, das schon zwanzig Jahre alt war», sagt Hochreiter.

Hochreiter reizte die Komplexität der neuronalen Netze

Doch dann traf er in einem Seminar auf etwas Neues, was ihn faszinierte: neuronale Netze – lernfähige Software, die grob dem menschlichen Gehirn nachempfunden ist. Sie bestehen aus mehreren Schichten virtueller Neuronen, die untereinander vernetzt sind. In einem Trainingsprozess mit sehr vielen Beispieldaten lernt das Netz, Muster in Daten zu erkennen, etwa Katzen auf Bildern oder sprachliche Strukturen, wie dass «Wolken» und «Regen» oft gemeinsam vorkommen.

Wer heute «KI» sagt, meint meist neuronale Netze mit sehr vielen Schichten, Deep Learning genannt. Um 1990 aber interessierte sich kaum jemand dafür. Den Begriff «künstliche Intelligenz» gab es zwar schon. Doch man meinte damit Software, die Probleme mithilfe einprogrammierter Regeln und Wissensdatenbanken löste, sogenannte Expertensysteme.

«Das Gebiet der neuronalen Netze war noch offen und wahnsinnig spannend», erzählt Hochreiter. Besonders gefiel ihm der mathematische Kern dieser Methode: die Suche nach der optimalen Lösung für ein Problem mit unzähligen Stellschrauben. Die Komplexität reizte ihn.

Sein neues Faible führte Hochreiter zu dem Mentor, dessen Name heute oft mit dem seinen genannt wird: Jürgen Schmidhuber. «Der war charismatisch», sagt Hochreiter. Ein ungleiches Paar traf da aufeinander: der extrovertierte KI-Visionär, der Studenten begeistert und Anerkennung sucht, und der bescheidene Mathe-Nerd, der in Aufgaben versinkt und sich selbst vergisst.

Doch ihre Zusammenarbeit war fruchtbar. Sie erforschten etwas, was für das Verarbeiten von Sprache durch KI wichtig ist: zeitliche Abfolgen von Daten, sogenannte Zeitreihen. Um Muster in Zeitreihen zu erkennen, braucht das neuronale Netz eine Art Gedächtnis, sonst kann es keine Zusammenhänge zwischen neuen und früheren Daten herstellen. Damals gab es hierfür «rekurrente neuronale Netze». Diese senden Signale nicht nur vorwärts durchs neuronale Netz, sondern auch rückwärts. Das ist, als würde man einzelne Bilder aus einem Film herausnehmen und mit früher im Film auftauchenden Einzelbildern vergleichen, um etwaige Muster zu erkennen, beispielsweise einen Schauplatz, der immer wieder auftaucht.

Statt in die Forschung ging er zur Allianz-Versicherung

Doch so erreicht man nur eine Art Kurzzeitgedächtnis. Lange Zeitreihen lassen sich kaum analysieren – das neuronale Netz vergisst zu viel. Hochreiter widmete sich diesem Problem in seiner Diplomarbeit bei Schmidhuber. Er analysierte die Mathematik dieses Vergessens und erfand ein Gegenmittel: Er gab neuronalen Netzen ein längeres Gedächtnis.

Dieses funktioniert ähnlich wie das menschliche Kurzzeitgedächtnis, da es etwas zugunsten neuer, wichtigerer Information vergessen kann. Doch es kann Daten auch über längere Zeit behalten. Daher bezeichnete Hochreiter es als «langes Kurzzeitgedächtnis», auf Englisch «long short-term memory», kurz: LSTM, genannt.

Das LSTM kann durch Zeitreihen laufen und sich Wesentliches merken. Beim Satz «Die braune Katze, die gerne mit dem roten Ball spielt, sitzt auf der Fensterbank» etwa könnte das LSTM «Katze sitzt auf Fensterbank» als die relevante Information speichern und den Rest als irrelevant verwerfen.

Sepp Hochreiter hatte ein grundlegendes Problem der neuronalen Netze gelöst. Doch um ihre Macht zu beweisen, fehlte die Rechenpower. «Wir haben damals nicht gewusst, dass es so gut funktionieren würde», sagt Hochreiter. Er publizierte das Ergebnis seiner Diplomarbeit nicht in einem Fachjournal. Während sein Mentor nach Amerika ging, nahm Hochreiter eine feste Stelle bei der Allianz an. «Das war bequem», gibt er zu. Doch Software für Schadensfälle zu programmieren, langweilte ihn schnell.

Erst in den nuller Jahren gelang der Durchbruch

So kehrte er an die TU München zurück, um dort zu promovieren. Er arbeitete auch wieder mit Schmidhuber zusammen, der inzwischen in Lugano forschte. Der ehrgeizigere Schmidhuber griff das Thema LSTM wieder auf und wollte es mit Hochreiter in einem Fachjournal publizieren.

Doch das gelang erst nach einigen Jahren, 1997. «Selbst dann interessierte sich kaum jemand dafür», sagt Hochreiter. Zum Beweis erzählt Hochreiter von einer Beinahebegegnung mit der KI-Legende Geoffrey Hinton. Sein Herz habe «gepumpert», als Hinton auf der Fachkonferenz «Neurips» auf ihn zugekommen sei – doch der ging vorbei. Hochreiter machte nicht auf sich aufmerksam, war schon «froh, die gleiche Luft atmen zu dürfen».

Die Zeit war noch nicht reif für seine Erfindung. Die KI-Welt blickte noch auf Expertensysteme wie Deep Blue von IBM, das 1996 den Schachweltmeister Garri Kasparow schlug. Doch Hochreiter blieb seinem Faible treu, auch wenn es schwierig war, damit eine Stelle zu finden. Schliesslich landete er bei einer Hirnforschergruppe an der TU Berlin, die neuronale Netze immerhin als Werkzeug zur Modellierung von Gehirnfunktionen nutzte.

Doch Anfang der nuller Jahre tat sich etwas. Projekte in der Biologie wie das Human-Genome-Projekt, das das gesamte Erbgut des Menschen aufzeichnete, lieferten riesige Datenmengen, die man nur mit Computern analysieren konnte. Das Fach Bioinformatik entstand. Ziel war es, Muster in den Daten zu erkennen, etwa Zusammenhänge zwischen Genen und Krankheiten wie Krebs. Dafür eignen sich neuronale Netze. Hochreiter bewarb sich um Bioinformatik-Professuren. In Linz wurde er 2006 fündig. «Unter dem Deckmantel der Bioinformatik» konnte er hier seine neuronalen Netze weiter erforschen.

Und die nahmen Fahrt auf. Rechner wurden immer leistungsfähiger und konnten mehr Daten verarbeiten. In den späten nuller Jahren erreichten sie die Schwelle, die es für neuronale Netze brauchte.

Hochreiter hat keine Lust auf Scheinwerferlicht

In der Zeit habe ihn Jürgen Schmidhuber oft mit Fragen zu LSTM angerufen, sagt Hochreiter. Der entwickelte die Technologie in Lugano für die Sprachverarbeitung weiter. Auch auf der Fachkonferenz «Neurips» hatte sich etwas geändert: Diesmal kam sein Idol Geoffrey Hinton auf Hochreiter zu. «Sepp! Sie sind alle deinetwegen hier!»

«Ich war bekannt wie ein bunter Hund», sagt Hochreiter. Er sagt es ganz unprätentiös – eine nüchterne Feststellung. Tatsächlich veränderte LSTM bald den Alltag der Menschen: Die Sprachassistenten Siri und Alexa nutzten es bald ebenso wie Googles Übersetzungsdienste.

Ausserhalb der Forscherszene blieben Schmidhuber und Hochreiter aber weitgehend unbekannt. Und selbst dort blieben ihnen einige Preise verwehrt. Schmidhuber wurmt das. Er wird nicht müde, bei Preisen und Erfindungen im KI-Bereich auf Forscher hinzuweisen, die seiner Ansicht nach übergangen wurden, unter anderem er selbst. In Markus Lanz’ Talkshow beklagte er, den Deutschen fehle der Ehrgeiz, Nummer eins zu sein.

Hochreiter hingegen ist eher Ziel dieser Klage. Auszeichnungen wie der Deutsche KI-Preis stehen unbeachtet zwischen Ordnern und Kaffeetassen in seinem Regal. Ein Mitarbeiter sagt über ihn: «Es drängt ihn nicht ins Scheinwerferlicht.»

Die Technologie, die Chat-GPT schlagen soll

Inzwischen ist der Höhenflug von LSTM wieder vorbei. 2017 erfanden Forscher bei Google eine neue KI-Methode namens Transformer, die die Sprachverarbeitung erneut umwälzte. Transformer betrachten ganze Textabschnitte gleichzeitig, was die Verarbeitung im Vergleich zu LSTM stark beschleunigt. Viele Entwickler staunten über die Fähigkeiten der neuen Methode. Die Firma Open AI machte sie schliesslich jedem zugänglich – in Form von Chat-GPT.

Hochreiter nahm die Dominanz der Transformer zum Anlass, eine neue Nische zu suchen. Er fand sie bei deren grosser Schwäche: Transformer benötigen viel Rechenleistung und Energie. «Beim Training lesen sie jedes Wort in einem Buch», sagt Hochreiter. «Stellt man ihnen eine Frage, durchsuchen sie es erneut.» LSTM hingegen lese ein Buch wie ein Mensch: «Es merkt sich die Geschichte, kennt Zusammenhänge und beantwortet Fragen aus dem Gedächtnis.»

Letzten Mai sprach er davon, dass man mit einer neuen Technologie Chat-GPT schlagen würde. Sein Team hat XLSTM entwickelt, eine KI-Architektur mit längerem Gedächtnis und grösserem Speicher als LSTM. In einem Forschungspapier schrieben er und sein Team, dass XLSTM bei gleicher Modellgrösse mindestens so gut sei wie die Transformer-basierten Sprachmodelle.

Jetzt klingt Hochreiter etwas anders. Das Startup NXAI, das XLSTM vermarktet, zielt auf Drohnen, Roboter, Smartphones oder E-Autos ab. Wie bei Sprach-KI geht es auch bei diesen Anwendungen um zeitlich angeordnete Daten. Aber Schnelligkeit und Effizienz sind noch wichtiger. Firmen wie Audi und Siemens haben bereits Interesse an XLSTM angemeldet.

Jörg Bienert vom deutschen KI-Verband findet XLSTM für die Industrie auf jeden Fall interessant. Aber was ist mit dem grossen Traum eines europäischen KI-Modells? Es sei nicht erkennbar, ob XLSTM an die sprachliche Leistung von grossen, etablierten Modellen wie Chat-GPT heranreichen könne, sagt Bienert.

Superintelligenz? Ein «Schmarrn»

Hochreiter glaubt nach wie vor, dass sein Modell nicht nur in kleinen, sondern auch in grossen Anwendungen mit Transformer-Modellen konkurrieren kann. Das zu testen, ist allerdings teuer. Es brauchte jene Menge an Investitionen in Rechenpower, die Firmen wie Open AI oder Deepseek aufwenden. Für eine Linzer Forschungsgruppe schwierig zu erreichen. Vor allem, wenn man in seinen Visionen so nüchtern ist wie Hochreiter.

Superintelligenz sei «ein Schmarrn», sagt der Forscher. Heutige KI scheitere oft an einfachen Aufgaben. «Ihr fehlt Weltwissen.» Auch beim Lernen bleibe der Mensch überlegen: «Kinder brauchen ein paar Beispiele, KI Tausende», sagt Hochreiter. «Es fehlt noch etwas, um KI auf menschliches Niveau zu bringen – aber wir wissen nicht, was.» Darin, wie er das sagt, schwingt grosser Respekt vor der natürlichen Intelligenz mit.

Dem Chor aus dem Silicon Valley, der behauptet, das menschliche Denken zu übertreffen, sei nur noch eine Frage von Algorithmen, Daten und Rechenkraft, schliesst er sich nicht an. Das ist wohl redlich, aber amerikanisches Risikokapital zieht man so nicht an.

Und damit wird weiterhin der Nachweis fehlen, ob XLSTM weltweit Nummer eins werden könnte. Steht sich Europa wieder einmal selbst im Weg? Hochreiter wirkt jedenfalls ziemlich zufrieden. Hauptsache, er kann Mathematik machen.