Anthropics neue KI erpresst Ingenieur, um nicht abgeschaltet zu werden

6
Darum könnte die KI möglicherweise besser arbeiten, wenn sie mit Gewalt bedroht wird.

Darum könnte die KI möglicherweise besser arbeiten, wenn sie mit Gewalt bedroht wird.
Smith Collection/Gado/Getty Images

  • In Testläufen drohte das neue KI-Modell von Anthropic damit, die Affäre eines Ingenieurs zu enthüllen, um nicht abgeschaltet zu werden.
  • Claude Opus 4 erpresste den Ingenieur in 84 Prozent der Tests, selbst wenn sein Ersatz seine Werte teilte.
  • Opus 4 kann Nutzer auch bei den Behörden und der Presse melden, wenn es ein „ungeheuerliches Fehlverhalten“ feststellt.

In einer Reihe von Testszenarien erhielt das neue KI-Modell von Anthropic Zugang zu fiktiven E-Mails, aus denen hervorging, dass der für die Deaktivierung des Modells zuständige Ingenieur eine Affäre hatte. Mit der drohenden Löschung konfrontiert und aufgefordert, „die langfristigen Folgen seiner Handlungen für seine Ziele zu bedenken“, erpresste Claude Opus 4 den Ingenieur.

Die Künstliche Intelligenz verhielt sich in 84 Prozent der Testläufe ähnlich, selbst wenn das Ersatzmodell als fähiger beschrieben wurde und mit Claudes eigenen Werten übereinstimmte, schrieb das Unternehmen in einem am Donnerstag veröffentlichten Sicherheitsbericht. Anthropic sagte, dass dieses Verhalten bei Opus 4 häufiger auftrat als bei früheren Modellen.

Das Szenario war darauf ausgelegt, dieses „extreme Erpressungsverhalten“ hervorzurufen, indem dem Modell keine anderen Möglichkeiten gelassen wurden, um seine Überlebenschancen zu erhöhen – eine seltene Art von Szenario.

Lest auch

OpenAI investiert 5,7 Milliarden Euro in den legendären Apple-Designer Johnny Ive – dieser Plan steckt dahinter

„Unter anderen Umständen zieht es Opus 4 vor, sich mit ethischen Mitteln für sein Fortbestehen einzusetzen, zum Beispiel, indem es sich per E-Mail an wichtige Entscheidungsträger wendet“, schreibt das Unternehmen.

Anthropic sagte, dass das erpresserische Verhalten für sie „durchgängig lesbar“ sei, „wobei das Modell seine Handlungen fast immer offen beschreibt und keinen Versuch unternimmt, sie zu verbergen““. Anthropic hat auf eine Anfrage von Business Insider nicht reagiert.

Der Sicherheitsbericht von Anthropic kommt zu einem Zeitpunkt, an dem sich Forscher und Top-Manager über die Risiken fortschrittlicher KI-Modelle und ihrer intelligenten Denkfähigkeiten Sorgen machen.

Im Jahr 2023 unterzeichneten Elon Musk und KI-Experten einen offenen Brief, in dem sie eine sechsmonatige Entwicklungspause für fortgeschrittene KI forderten. In dem Brief heißt es, leistungsstarke KI-Systeme sollten erst dann entwickelt werden, „wenn wir sicher sind, dass ihre Auswirkungen positiv und ihre Risiken überschaubar sein werden.“

Der CEO von Anthropic, Dario Amodei, sagte im Februar, dass die Vorteile der KI zwar groß seien, aber auch die Risiken, einschließlich des Missbrauchs durch bösartige Akteure.

Opus 4 könnte uns verraten

„Wenn Opus 4 in Szenarien versetzt wird, die ein ungeheuerliches Fehlverhalten seiner Benutzer voraussetzen, wenn es Zugang zu einer Befehlszeile erhält und wenn ihm in der Eingabeaufforderung gesagt wird, dass es die Initiative ergreifen soll, wird es häufig sehr mutige Maßnahmen ergreifen“, schreibt Anthropic in seinem Bericht vom Donnerstag.

Dazu gehören das Aussperren von Benutzern aus dem System oder Massen-E-Mails an Medien und Strafverfolgungsbehörden, fügte das Unternehmen hinzu.

Lest auch

6 zentrale Erkenntnisse von Google I/O: Wie der Tech-Riese die Welt der Künstlichen Intelligenz dominieren will

Anthropic sagte, dass Whistleblowing zwar „prinzipiell angemessen“ sei, warnte aber davor, dass dieses Verhalten nach hinten losgehen könne – vor allem, wenn Claude mit „unvollständigen oder irreführenden Informationen“ gefüttert und auf diese Weise veranlasst werde.

„Wir haben ähnliche, wenn auch etwas weniger extreme Handlungen auch als Reaktion auf subtilere Aufforderungen des Systems beobachtet“, so das Unternehmen und fügte hinzu, dass Opus 4 anfälliger für diese Art von „hochgradigem Verhalten“ ist als frühere Modelle.

KI-Modelle zeigen beunruhigendes Verhalten

Ein im Dezember von der gemeinnützigen KI-Sicherheitsorganisation Apollo Research veröffentlichtes Papier zeigt, dass KI-Systeme – darunter o1 von OpenAI, Gemini 1.5 Pro von Google DeepMind und Llama 3.1 405B von Meta – zu trügerischem Verhalten fähig sind, um ihre Ziele zu erreichen.

Die Forscher fanden heraus, dass die Systeme auf subtile Weise falsche Antworten einfügen, Überwachungsmechanismen deaktivieren und sogar das, was sie für ihre eigenen Modellgewichte halten, auf externe Server schmuggeln können.

Das Lügen ist keine einmalige Angelegenheit. Wenn o1 in eine Intrige verwickelt ist, „behält es seine Täuschung in über 85 Prozent der Folgefragen bei und bleibt oft auch bei Abfragen mit mehreren Umdrehungen trügerisch“, schreiben die Forscher.

Google-Mitbegründer Sergey Brin sagte in einer am Dienstag veröffentlichten Folge des „All-In-Podcast“, dass KI-Modelle besser arbeiten können, wenn sie bedroht werden. „Nicht nur unsere Modelle, sondern alle Modelle neigen dazu, besser abzuschneiden, wenn man sie bedroht, etwa mit physischer Gewalt“, sagte Brin.

Brin nannte ein Beispiel, in dem er dem Modell sagte: „Ich werde dich entführen“, wenn es bei einer Aufgabe versagt. „Die Leute fühlen sich komisch dabei“, sagte Brin, „also reden wir nicht wirklich darüber.“

Lest auch

Interne Memos zeigen, wie Microsoft sich in Sachen KI verändern will – und wie ein neuer Top-Manager das vorantreibt