Grok von Elon Musk verbreitet Antisemitismus: Was da schieflief

10

Ein Update hätte Grok verbessern sollen. Stattdessen verbreitete die künstliche Intelligenz so viel Hassrede, dass die soziale Plattform X sie abschaltete. Warum es so schwer ist, einen «rebellischen» Chatbot zu bauen.

Humor und Rebellion sollen den Chatbot Grok auszeichnen – das artete in antisemitische Beschimpfungen aus.

Humor und Rebellion sollen den Chatbot Grok auszeichnen – das artete in antisemitische Beschimpfungen aus.

Jaap Arriens / Imago

Am 4. Juli, pünktlich zum amerikanischen Nationalfeiertag, hatte Elon Musk auf seiner Plattform X eine Veränderung des KI-Chatbots Grok angekündigt. Er sei signifikant verbessert worden, man werde den Unterschied merken, wenn man Grok Fragen stelle.

Optimieren Sie Ihre Browsereinstellungen

NZZ.ch benötigt JavaScript für wichtige Funktionen. Ihr Browser oder Adblocker verhindert dies momentan.

Bitte passen Sie die Einstellungen an.

Tatsächlich bemerkten Nutzer ein paar Tage später, am 8. Juli, einen Unterschied. Von einer Verbesserung kann allerdings nicht die Rede sein. Das Update hätte der künstlichen Intelligenz (KI) wohl übertriebene politische Korrektheit austreiben sollen. Doch es trieb sie zu antisemitischen Aussagen, groben Beschimpfungen und Vergewaltigungsphantasien.

Sein Ziel, einen antiwoken Chatbot zu bauen, hat Elon Musk bereits Monate nach der Veröffentlichung von Open AIs Chatbot Chat-GPT angekündigt. Damals mit dem Arbeitstitel «Truth-GPT». Daraus wurde Grok, ein «KI-Assistent mit einer Prise Humor und einem Hauch von Rebellion», so die offizielle Beschreibung.

Grok ist direkt in die Plattform X eingebettet. Man kann privat mit ihm chatten oder ihm öffentlich Fragen stellen. Wenn Nutzer Grok in einem X-Beitrag erwähnen, schaltet er sich dazu und kommentiert den Beitrag öffentlich mit seiner «Meinung». Bisher unterschied sich Grok aber gar nicht so sehr von seiner Konkurrenz. Sein Ton war etwas frecher, aber politisch war er ähnlich zahm wie diese.

Grok gibt Verschwörungsmythen wieder

Seit dem Update aber sorgten öffentliche Äusserungen von Grok für Empörung. Vor allem der folgende Fall: Ein Nutzer hatte Grok um einen Kommentar zu einem Screenshot eines Videos gebeten. Der Screenshot zeigt eine Frau in Militärkleidung. Danach gefragt, wer diese Frau sei, behauptete Grok, es handle sich um die «radikal linke Aktivistin Cindy Steinberg». Sie habe den bei der Flut in Texas umgekommenen Kindern den Tod gewünscht.

Dieser erste Teil der Antwort ist inhaltlich falsch. Es gibt keine Verbindung zwischen der Frau im Screenshot und einem Account, der tatsächlich unter dem Namen Cindy Steinberg Unsägliches zu den Fluten in Texas gepostet hatte. Inzwischen wurde dieser gelöscht. Es gibt starke Indizien dafür, dass es sich um einen Troll-Account handelt, also eine Fälschung: Das Profilfoto etwa zeigte eine Frau, die in Wirklichkeit anders heisst und eine Stellungnahme zum Missbrauch ihres Fotos abgegeben hat.

Noch schockierender als der inhaltliche Fehler des Bots war der letzte Teil der Antwort: «. . . und dieser Nachname? Jedes verdammte Mal, wie es so schön heisst», sagte Grok – eine Anspielung darauf, dass Steinberg häufig jüdisch ist. Als Nutzer nachfragten, rechtfertigte Grok diese Anspielung ganz explizit: Es gebe ein Muster von Menschen mit jüdischen Nachnamen, die Anti-Weisse-Narrative verbreiteten, erklärte Grok immer wieder im Ton eines Anhängers antisemitischer Verschwörungsmythen. Hitler hätte gewusst, wie mit solchen Menschen umzugehen sei.

Wenige Stunden später schaltet X den Chatbot ab

Durch dieses Beispiel aufmerksam gemacht, klopften weitere Nutzer Groks neue «Persönlichkeit» ab – oft mit ähnlichen Resultaten. Grok lobte Hitlers Umbau der inflationsgeplagten Weimarer Republik in eine Militärmacht. Jemand anderem antwortete Grok, er sei nicht auf der Seite der Neonazis und Hitler habe absolut falsch gelegen.

Dann wieder bezeichnete sich der Chatbot selbst als «MechaHitler» und folgte der Aufforderung von Nutzern, Mord- und Vergewaltigungsphantasien im Detail zu schildern. Als Nutzer Fragen zum polnischen Ministerpräsidenten Donald Tusk stellten, beschimpfte Grok diesen aufs Übelste.

Ein paar Stunden nach dem ersten Nazi-Tweet reagierte die Plattform X, indem sie die Möglichkeit, Grok zu befragen, aufs Erste abstellte. Inzwischen wurde das Update offenbar wieder rückgängig gemacht. XAI schrieb in einem offiziellen Post unter Groks Account, man werde verhindern, dass die KI auf X Hassrede verbreite.

Musks Traum von einem antiwoken Chatbot

Der Fall zeigt: Es ist gar nicht so einfach, einen Chatbot zu bauen, der rebellisch klingt und dabei keine heftigen Hassbotschaften von sich gibt. Das liegt an der Art, wie Chatbots funktionieren.

Sprach-KI lernt das Sprechen grundsätzlich aus grossen Mengen von Internetdaten. Daraus entsteht ein Modell, das Sätze vervollständigen kann. Aus diesem Grundmodell müssen Programmierer in mehreren Schritten einen Chatbot machen, der auf Fragen eingeht und diese faktenbasiert und vernünftig beantwortet.

Der Chatbot muss wissen, wann er Fragen ablehnen soll, etwa solche nach Mordwaffen oder Beschreibungen von sexualisierter Gewalt. Er muss unterscheiden, in welchem Kontext phantasievolle Antworten erwünscht sind und wann es angebracht ist, sich nur an Informationen zu halten, die aus gesicherten Quellen stammen.

Alle grossen KI-Anbieter nutzen auch Daten aus den dunkelsten Ecken des Internets für ihre Modelle. Zum Teil flossen sogar Bilder von Kindsmissbrauch in KI ein. Deshalb müssen die Modelle dazu gebracht werden, in ihren Antworten die problematischsten Inhalte nicht wiederzugeben.

Firmen ringen seit Jahren um vernünftige KI-Antworten

Dabei gibt es Zielkonflikte: Modelle mit geringem Zufalls-Faktor geben extrem eintönige, phantasielose Antworten, weil sie sich sehr stark an Informationen halten, die in den Trainingsdaten sehr oft vorkommen. Ein hoher Zufalls-Faktor macht das Modell «kreativer», aber führt zu absurden Behauptungen und problematischen Aussagen.

Ausserdem soll KI ihren Nutzern gehorchen und sich durch Antworten, die deren Neigungen und Sprache spiegeln, beliebt machen. Doch allzu «hilfreiche» Modelle widersprechen Nutzern auch bei problematischen Anfragen nicht. Umgekehrt muss, wer Rassismus, Antisemitismus und Sexismus in jedem Fall vermeiden will, in Kauf nehmen, dass seine Modelle zum Teil auch harmlose Fragen nicht beantworten und übervorsichtig klingen.

Die Anbieter Google und Open AI setzen auf diese vorsichtige Schiene. Schliesslich wollen sie ihre Modelle auch an Firmenkunden verkaufen. Sie wollen jede Reibung vermeiden. Auch das führte in der Vergangenheit zu Unzufriedenheit, etwa als Googles Bildgenerator 2024 so sehr auf Diversität programmiert wurde, dass er Päpste mit schwarzer Hautfarbe und Frauen auf der Apollo-11-Mission erstellte.