Richard Sutton: “KI ist nur ein Werkzeug. Jedes Werkzeug kann missbraucht werden”

6

Der Turing-Award gilt als die höchste Auszeichnung der Informatik, vergleichbar mit dem Nobelpreis. In diesem Jahr wurden damit die Informatiker Richard Sutton und Andrew Barto ausgezeichnet. Eigentlich halte er nichts von Preisen, sagt Richard Sutton. Als er vom Turing-Award erfahren habe, sei er jedoch einige Tage mit einem Lachen im Gesicht herumgelaufen. 

ZEIT ONLINE: Herzlichen Glückwunsch zum Turing-Award, Herr Sutton. Alan Turing, nach dem dieser Award benannt ist, ist berühmt für den Turing-Test: Um herauszufinden, ob eine Maschine intelligent ist, könne man prüfen, ob ein Mensch erkennen kann, dass er oder sie sich mit einer Maschine unterhält. Würden Sie sagen, dass moderne KI diesen Test besteht?  

Richard Sutton: Nein! Beim Imitation Game, so wie Turing selbst es genannt hat, geht es um intensive Befragung. Und ich würde sagen: Bei intensiver Befragung ist es doch noch ziemlich offensichtlich, dass man mit einem Chatbot spricht und nicht mit einem Menschen. 

ZEIT ONLINE: Ausgezeichnet wurden Sie und Ihr Kollege Andrew Barto für die Entdeckung des Reinforcement Learning. Was ist das? 

Sutton: Einfach der Versuch, dass eine Maschine so lernt, wie wir Menschen oder auch Tiere das tun. Also nicht aus einem Buch – sondern indem sie mit ihrer Umwelt interagiert und daraus ableitet, wie sie beim nächsten Mal handelt. Sie lernt sozusagen aus Erfahrung. 

ZEIT ONLINE: Aber wie bringt man das einer Maschine bei? 

Sutton: Dafür muss man sehr genau herunterbrechen, was das eigentlich bedeutet. Wenn eine Maschine eine Aufgabe lernen soll, braucht man eine Maßeinheit, anhand derer man beurteilen kann, ob sie es gut gemacht hat oder schlecht. Im Reinforcement Learning nennen wir das den Reward, also die Belohnung. Das ist einfach eine Zahl. Die Maschine probiert dann eine Aufgabe immer wieder aus und schaut, wie viel Belohnung sie dafür bekommt. Beim nächsten Mal versucht sie dann so zu handeln, dass möglichst viel Belohnung dabei herauskommt. 

ZEIT ONLINE: Ein typisches Beispiel dafür sind Spiele: Da wäre der Reward, ob die Maschine eine Partie gewonnen oder verloren hat. Das erste Mal, dass Reinforcement Learning wirklich erfolgreich eingesetzt wurde, war tatsächlich bei dem chinesischen Brettspiel Go, das als eines der schwierigsten Spiele überhaupt gilt. Das Programm AlphaGo von Google, bei dem Ihr Ansatz genutzt wurde, hat 2016 den amtierenden Weltmeister Lee Sedol geschlagen. Haben Sie die Partie damals verfolgt? 

Sutton: Natürlich. Ich saß mit einer Gruppe von Leuten im Hörsaal und hab es sehr genossen, ich glaube wir haben dabei Pizza gegessen. Ich habe überhaupt nicht damit gerechnet, dass AlphaGo Lee Sedol schlagen würde. Daher war es sehr aufregend, als AlphaGo dann eine Partie nach der anderen gewonnen hat. 

ZEIT ONLINE: Einen Zug von AlphaGo fanden viele besonders spannend. 

Sutton: Zug 37! Der Kommentator hat in dem Moment gesagt, dass AlphaGo einen Fehler macht. Kein Mensch hätte so gespielt. Aber nach und nach hat Lee Sedol dadurch Probleme gekriegt, und am Ende des Spiels hat sich herausgestellt, dass Zug 37 brillant gewesen war. 

ZEIT ONLINE: Haben Sie selbst in dem Moment schon gewusst, dass der Zug Sinn macht? 

Sutton: Nein, ich kenne mich mit Go nicht aus. Der Kommentator hat gesagt, dass es ein Fehler war, das habe ich nicht hinterfragt. Niemand hatte es dem Programm beigebracht, sondern es war ein Zug, den AlphaGo selbst entdeckt hat. 

ZEIT ONLINE: Gab es auch Anwendungen von Reinforcement Learning in der echten Welt, also nicht im Kontext von Spielen? 

Sutton: Bisher ist es noch nicht gelungen, von der echten Welt zu lernen und daraus zu planen. Das ist ein offenes und sehr wichtiges Problem. AlphaGo ist deshalb so gut, weil es die Spielregeln von Go kennt. Und die sind sehr klar definiert. Im echten Leben gibt es solche Regeln nicht. Deswegen ist es viel komplizierter. 

ZEIT ONLINE: Wird Reinforcement Learning denn bei modernen KI-Systemen wie ChatGPT benutzt? 

Sutton: Nein, das ist etwas sehr anderes, nicht alle KIs sind gleich. Solche Sprachmodelle lernen nicht aus Erfahrung. Man könnte eher sagen: Sie ahmen nach, was Menschen gesagt haben. Sie lernen mit großen Trainingssets von Texten. Damit befolgen sie Anweisungen, die Menschen ihnen geben. Aber sie gehen nicht hin und probieren Dinge aus, um dabei eigene Lösungen zu finden. Sie haben kein eigenes Ziel, sie versuchen nicht, ein Problem zu lösen. Die Frage ist einfach: Lernt die Maschine selbstständig, indem sie Dinge ausprobiert, oder kriegt sie Anweisungen?