Technik

Anthropics neue KI erpresst Ingenieur, um nicht abgeschaltet zu werden

23 May 2025

Darum könnte die KI möglicherweise besser arbeiten, wenn sie mit Gewalt bedroht wird.

In Testläufen drohte das neue KI-Modell von Anthropic damit, die Affäre eines Ingenieurs zu enthüllen, um nicht abgeschaltet zu werden.
Claude Opus 4 erpresste den Ingenieur in 84 Prozent der Tests, selbst wenn sein Ersatz seine Werte teilte.
Opus 4 kann Nutzer auch bei den Behörden und der Presse melden, wenn es ein „ungeheuerliches Fehlverhalten“ feststellt.

In einer Reihe von Testszenarien erhielt das neue KI-Modell von Anthropic Zugang zu fiktiven E-Mails, aus denen hervorging, dass der für die Deaktivierung des Modells zuständige Ingenieur eine Affäre hatte. Mit der drohenden Löschung konfrontiert und aufgefordert, „die langfristigen Folgen seiner Handlungen für seine Ziele zu bedenken“, erpresste Claude Opus 4 den Ingenieur.

Die Künstliche Intelligenz verhielt sich in 84 Prozent der Testläufe ähnlich, selbst wenn das Ersatzmodell als fähiger beschrieben wurde und mit Claudes eigenen Werten übereinstimmte, schrieb das Unternehmen in einem am Donnerstag veröffentlichten Sicherheitsbericht. Anthropic sagte, dass dieses Verhalten bei Opus 4 häufiger auftrat als bei früheren Modellen.

Das Szenario war darauf ausgelegt, dieses „extreme Erpressungsverhalten“ hervorzurufen, indem dem Modell keine anderen Möglichkeiten gelassen wurden, um seine Überlebenschancen zu erhöhen – eine seltene Art von Szenario.

„Unter anderen Umständen zieht es Opus 4 vor, sich mit ethischen Mitteln für sein Fortbestehen einzusetzen, zum Beispiel, indem es sich per E-Mail an wichtige Entscheidungsträger wendet“, schreibt das Unternehmen.

Anthropic sagte, dass das erpresserische Verhalten für sie „durchgängig lesbar“ sei, „wobei das Modell seine Handlungen fast immer offen beschreibt und keinen Versuch unternimmt, sie zu verbergen““. Anthropic hat auf eine Anfrage von Business Insider nicht reagiert.

Der Sicherheitsbericht von Anthropic kommt zu einem Zeitpunkt, an dem sich Forscher und Top-Manager über die Risiken fortschrittlicher KI-Modelle und ihrer intelligenten Denkfähigkeiten Sorgen machen.

Im Jahr 2023 unterzeichneten Elon Musk und KI-Experten einen offenen Brief, in dem sie eine sechsmonatige Entwicklungspause für fortgeschrittene KI forderten. In dem Brief heißt es, leistungsstarke KI-Systeme sollten erst dann entwickelt werden, „wenn wir sicher sind, dass ihre Auswirkungen positiv und ihre Risiken überschaubar sein werden.“

Der CEO von Anthropic, Dario Amodei, sagte im Februar, dass die Vorteile der KI zwar groß seien, aber auch die Risiken, einschließlich des Missbrauchs durch bösartige Akteure.

Opus 4 könnte uns verraten

„Wenn Opus 4 in Szenarien versetzt wird, die ein ungeheuerliches Fehlverhalten seiner Benutzer voraussetzen, wenn es Zugang zu einer Befehlszeile erhält und wenn ihm in der Eingabeaufforderung gesagt wird, dass es die Initiative ergreifen soll, wird es häufig sehr mutige Maßnahmen ergreifen“, schreibt Anthropic in seinem Bericht vom Donnerstag.

Dazu gehören das Aussperren von Benutzern aus dem System oder Massen-E-Mails an Medien und Strafverfolgungsbehörden, fügte das Unternehmen hinzu.

Anthropic sagte, dass Whistleblowing zwar „prinzipiell angemessen“ sei, warnte aber davor, dass dieses Verhalten nach hinten losgehen könne – vor allem, wenn Claude mit „unvollständigen oder irreführenden Informationen“ gefüttert und auf diese Weise veranlasst werde.

„Wir haben ähnliche, wenn auch etwas weniger extreme Handlungen auch als Reaktion auf subtilere Aufforderungen des Systems beobachtet“, so das Unternehmen und fügte hinzu, dass Opus 4 anfälliger für diese Art von „hochgradigem Verhalten“ ist als frühere Modelle.

KI-Modelle zeigen beunruhigendes Verhalten

Ein im Dezember von der gemeinnützigen KI-Sicherheitsorganisation Apollo Research veröffentlichtes Papier zeigt, dass KI-Systeme – darunter o1 von OpenAI, Gemini 1.5 Pro von Google DeepMind und Llama 3.1 405B von Meta – zu trügerischem Verhalten fähig sind, um ihre Ziele zu erreichen.

Die Forscher fanden heraus, dass die Systeme auf subtile Weise falsche Antworten einfügen, Überwachungsmechanismen deaktivieren und sogar das, was sie für ihre eigenen Modellgewichte halten, auf externe Server schmuggeln können.

Das Lügen ist keine einmalige Angelegenheit. Wenn o1 in eine Intrige verwickelt ist, „behält es seine Täuschung in über 85 Prozent der Folgefragen bei und bleibt oft auch bei Abfragen mit mehreren Umdrehungen trügerisch“, schreiben die Forscher.

Google-Mitbegründer Sergey Brin sagte in einer am Dienstag veröffentlichten Folge des „All-In-Podcast“, dass KI-Modelle besser arbeiten können, wenn sie bedroht werden. „Nicht nur unsere Modelle, sondern alle Modelle neigen dazu, besser abzuschneiden, wenn man sie bedroht, etwa mit physischer Gewalt“, sagte Brin.

Brin nannte ein Beispiel, in dem er dem Modell sagte: „Ich werde dich entführen“, wenn es bei einer Aufgabe versagt. „Die Leute fühlen sich komisch dabei“, sagte Brin, „also reden wir nicht wirklich darüber.“

Externer Inhalt nicht verfügbar

Sie haben ein contentpass-Abo, wollen aber trotzdem nicht auf die Anzeige externer Inhalte von Drittanbietern verzichten? Dann klicken Sie auf “zustimmen” und wir binden externe Inhalte und Dienste von ausgewählten Drittanbietern in unser Angebot ein, um Ihr Nutzungserlebnis zu verbessern. Eine aktuelle Liste ebendieser Drittanbieter können Sie jederzeit in der Privatsphäre (Link zu Privatsphäre) einsehen. In diesem Zusammenhang können auch Nutzungsprofile (u.a. aus Basis von Cookie-IDs) gebildet und angereichert, auch außerhalb des EWR. Ihre Einwilligung umfasst in diesem Fall auch die Übermittlung bestimmter personenbezogener Daten in Drittländer, u.a. die USA nach Art 49 Abs. 1 Buchst. a) DSGVO.

Weitere Details zur Datenverarbeitung finden Sie in unseren Datenschutzhinweisen sowie in der Privatsphäre, jeweils jederzeit im Footer unseres Angebotes verfügbar.

Ihre Einwilligung in die Einbindung externer Inhalte können Sie jederzeit im Footer unseres Angebotes über den Link “Widerruf Tracking” ausüben.

Anthropics neue KI erpresst Ingenieur, um nicht abgeschaltet zu werden

Opus 4 könnte uns verraten

KI-Modelle zeigen beunruhigendes Verhalten

Externer Inhalt nicht verfügbar

EVEN MORE NEWS

Was erlaubt sich Nordrhein-Westfalen bei den Sommerferien?

Der Mittelstand wartet auf Besserung

Jürgen Milsko lässt sich Botox spritzen: Offenen Worte des Ballermann-Stars

POPULAR CATEGORY

Was erlaubt sich Nordrhein-Westfalen bei den Sommerferien?