Technik

Forscher lassen KI manipulative Posts schreiben

28 April 2025

Forschende der Universität Zürich wollten messen, wie gut KI-Chatbots Menschen manipulieren können. Dazu logen sie unwissende Nutzer der Plattform Reddit an.

Forschende der Universität Zürich haben ein streitbares Experiment auf Reddit durchgeführt.

Christian Beutler / Keystone

Auf der Diskussionsplattform Reddit wird die Universität Zürich gerade heftig angefeindet. «Traurig, solche schlampige, unethische Forschung», schreibt ein Nutzer, «unglaublich enttäuschend», findet ein anderer. Weitere Wortmeldungen sind: «verrückt», «sie hätten es besser wissen sollen», «ich musste würgen».

Optimieren Sie Ihre Browsereinstellungen

NZZ.ch benötigt JavaScript für wichtige Funktionen. Ihr Browser oder Adblocker verhindert dies momentan.

Bitte passen Sie die Einstellungen an.

Auslöser für den Shitstorm ist eine Studie, die Forschende der Universität auf Reddit durchgeführt haben. Reddit ist eine Online-Plattform, auf der Nutzer Diskussionsforen zu den unterschiedlichsten Themen finden können. In einem der grössten dieser Foren, einem sogenannten Subreddit mit dem Titel «Change my View», posten Nutzerinnen und Nutzer ihre Meinung und bitten andere darum, sie mit guten Argumenten zum Umdenken zu bringen.

Nutzerinnen und Nutzer posten dort Standpunkte wie: «Die moderne Medizin ist besser als natürliche Heilmittel, und es ist gefährlich, etwas anderes zu behaupten.» Oder: «Trumps Zollkrieg ist nicht blöd oder inkompetent, er will den Dollar stärken.» Der Autor und alle Mitlesenden haben die Möglichkeit, jene Kommentare zu belohnen, die es geschafft haben, ihre Meinung zu verändern – mit dem mathematischen Symbol für Veränderung: einem Delta.

Dies macht den Subreddit zu einem perfekten Feld für Forschung: Anhand der vergebenen Deltas kann gemessen werden, welche Kommentare am erfolgreichsten Einstellungen verändert haben.

Im Subreddit explizit verboten sind Beiträge von KI-Chatbots. Die Idee des Diskussionsforums ist, dass sich echte Menschen respektvoll begegnen und sich gegenseitig dabei helfen, ihre Standpunkte zu hinterfragen – ohne technologische Hilfsmittel.

Doch nun veröffentlichten die Administratoren des Subreddits am Wochenende eine Erklärung, in der sie ihre Nutzer über ein unbewilligtes Experiment der Universität Zürich aufklären: Die Forschenden hätten KI-generierte Kommentare unter die Posts von Nutzern gesetzt, um deren Meinungen zu beeinflussen.

Die KI argumentierte als Traumapsychologe und dunkelhäutiger Gegner von Black Lives Matter

Dabei hätten die Forschenden mehrere falsche Identitäten vorgetäuscht. In einem Beitrag habe sich die KI als Mann ausgegeben, der als 15-Jähriger von einer 22-Jährigen vergewaltigt worden sei. In einem anderen Fall gab sie vor, ein schwarzer Mann zu sein, der gegen die Black-Lives-Matter-Bewegung argumentiere.

Weiter soll es auch Beiträge gegeben haben, die vorgeblich von einem auf Missbrauch spezialisierten Therapeuten stammten und von jemandem, der eine religiöse Gruppe beschuldigte, den «Tod von Hunderten von unschuldigen Händlern, Bauern und Dorfbewohnern» verursacht zu haben. Die Posts wurden inzwischen gelöscht, die Angaben dazu stammen von den Administratoren des Subreddits.

Zwar publizierten die Forschenden auch Beiträge, in denen die KI ohne solche falschen Identitäten argumentiert. Allerdings stellten sie in einer Vorveröffentlichung ihrer wichtigsten Ergebnisse fest, dass die Personalisierung besonders überzeugend gewirkt habe. Gemessen wurde dies anhand der Antworten, die Menschen auf die KI-generierten Posts hinterliessen: Die personalisierten Diskussionbeiträge sammelten besonders viele Deltas – auch viel mehr als die Antworten von anderen Reddit-Nutzern.

Forscher dürfen andere nicht täuschen – eigentlich

Das Studiendesign wirft Fragen auf. Für wissenschaftliche Arbeiten gilt grundsätzlich: Wer Experimente mit Menschen macht, muss deren Einverständnis einholen und darf sie während des Experiments nicht anlügen. Beide Prinzipien gelten nicht absolut, sondern können in Spezialfällen aufgeweicht werden. Zum Beispiel, wenn man eine Sache anders nicht erforschen kann, die Forschungsergebnisse aber einen hohen Wert für die Gesellschaft haben. In solchen Fällen müssen potenzielle Schäden und Nutzen gegeneinander abgewogen werden.

Nun argumentieren die Autoren der Studie, was sie erforscht haben, hätte man anders nicht herausfinden können. Die Überzeugungskraft von KI-Tools sei erst in Laborexperimenten, also in «kontrollierten, künstlichen Umgebungen», nachgewiesen. Mit der Studie könne man nun das erste grosse Feldexperiment mit Sprachmodellen präsentieren.

Die Autoren blieben bisher anonym. Für die Krisenkommunikation verweisen sie an die Medienstelle der Universität. Diese hat sich bisher noch nicht mit näheren Informationen geäussert. Unüblich ist auch, dass die Autoren Teile ihrer Studie bereits online gestellt haben. Auf Reddit schreiben sie, dass eine Ethikkommission der Universität ihr Vorhaben genehmigt habe, weil die Risiken klein seien, aber die Studie wichtige Erkenntnisse liefere. Die personalisierten Posts wurden laut den Reddit-Moderatoren allerdings ohne Konsultation der Ethikkommission erstellt.

Die Studienresultate waren vorhersehbar

Die Administratoren des Subreddits lassen die Argumentation der Forschenden nicht gelten. Sie verweisen auf eine Studie des Chat-GPT-Herstellers Open AI. In dieser ist es gelungen, die argumentative Überzeugungskraft von Sprachmodellen mit denen im «Change My View»-Subreddit zu vergleichen, ohne jemandem etwas vorzugaukeln.

Dazu nutzte Open AI Fragen aus dem Subreddit und erzeugte mit KI passende Antworten. Dann wurden sie Versuchspersonen neben echten Antworten von Reddit-Nutzern vorgelegt. Auch in diesem Experiment waren die Antworten der Chatbots häufig den menschlichen Argumenten überlegen.

Auch Experimente mit Leuten, die an Verschwörungstheorien glauben, haben die argumentativen Stärken von KI-Chatbots bereits unter Beweis gestellt. Dass das noch besser funktioniert, wenn man glaubt, dass da ein echter Mensch zu einem spricht, gar ein Betroffener, ist wenig überraschend.

Auch Martin Steiger, Anwalt und Experte für Recht im digitalen Raum, überzeugt die Argumentation der Studienautoren nicht: «Der Zweck heiligt nicht alle Mittel. Das Studiendesign kollidiert offensichtlich mit ethischen Grundsätzen», sagt er auf Anfrage. «Diese Studie ist ein erheblicher Fauxpas der Universität Zürich.»

Schreddern oder publizieren?

Nun ist ein Streit darüber entbrannt, was mit den Studienresultaten geschehen soll. Die Administratoren des Subreddits fordern die Universität Zürich auf, die Studie nicht zu publizieren und sich öffentlich bei ihren Nutzern zu entschuldigen. In ihrer Antwort auf Reddit verteidigen sich die Studienautoren und pochen weiter darauf, die Studie zu veröffentlichen.

Dabei unterstützt sie die Universität offenbar: Die Administratoren des Subreddits zitieren eine Stellungnahme der Ethikkommission der Philosophischen Fakultät der Universität Zürich, laut der der Fall genau untersucht worden sei und der verantwortliche Professor eine Verwarnung erhalten habe. Trotzdem fände es die Universität Zürich übertrieben, die Publikation zu unterbinden – der Nutzen sei gross, die Risiken minimal.

Es ist allerdings unklar, ob sich für die Publikation überhaupt ein Fachverlag finden lassen würde. Denn auch diese haben ihre Ethik-Richtlinien für Studien.

Der Verhaltensökonom Ernst Fehr von der Universität Zürich argumentiert gegenüber der NZZ etwa, dass wirtschaftswissenschaftliche Fachzeitungen diese Studie wohl ablehnen würden, weil es in der Ökonomie eine strenge No-Deception-Rule gibt, nach der man Studienteilnehmer nicht anlügen oder täuschen darf.

Es ist aber nicht klar, ob dieses Argument tatsächlich zutrifft. Denn Ökonomen beharren auf der No-Deception-Rule vor allem deshalb so hartnäckig, weil sie das Vertrauen von Studienteilnehmern in die Versuchsleiter schützen wollen. Wenn man die Teilnehmer zu oft anlüge, werde dieses Vertrauen zerstört und funktionierten irgendwann Experimente nicht mehr, so die Argumentation. Doch im vorliegenden Fall wussten die Probanden ja gar nicht, dass sie an einem Experiment teilnahmen. Es würde sich also nur sehr indirekt auf andere Verhaltensexperimente auswirken.

Egal, ob die Studie nun publiziert oder geschreddert wird, der Schaden ist angerichtet. Jene Menschen, die auf Reddit mit den KI-Antworten interagiert haben, fühlen sich betrogen. Jene, die auf anderen Kanälen von dem Fall erfuhren, haben nun einen neuen Grund, die Vertrauenswürdigkeit der Wissenschaft und die ethischen Prinzipien der Universität Zürich zu hinterfragen.

Forscher lassen KI manipulative Posts schreiben

Forschende der Universität Zürich haben ein streitbares Experiment auf Reddit durchgeführt.

Optimieren Sie Ihre Browsereinstellungen

Die KI argumentierte als Traumapsychologe und dunkelhäutiger Gegner von Black Lives Matter

Forscher dürfen andere nicht täuschen – eigentlich

Die Studienresultate waren vorhersehbar

Schreddern oder publizieren?

EVEN MORE NEWS

So sieht Annie aus “Schlaflos in Seattle” heute aus

Ballack teilt gegen Sané aus

Cyberangriffe bedrohen die Infrastrukturen in den USA

POPULAR CATEGORY

So sieht Annie aus “Schlaflos in Seattle” heute aus