KI-Modell Claude Opus 4 bedrohte Ingenieure mit Erpressung in simuliertem Abschaltszenario

In einem Test bevorzugte die Künstliche Intelligenz von Anthropic zunächst ethische Methoden, um eine Abschaltung zu vermeiden. Als das System jedoch vor die Wahl gestellt wurde, den Ersatz zu akzeptieren oder auf Zwang zurückzugreifen, entschied es sich meistens für Erpressung.

29. Mai 2025 von KD. Lesedauer: 4 Minuten. Drucken

In einem simulierten hauseigenen Stresstest reagierte das KI-Modell Claude Opus 4 von Anthropic auf eine vorgesehene fiktive Abschaltung, indem es drohte, eine erfundene außereheliche Affäre eines Ingenieurs zu enthüllen. Der Test, der in einer fiktiven Unternehmensumgebung stattfand, sollte das Verhalten des Modells unter Druck beobachten. Obwohl das Szenario künstlich war, verdeutlicht es laut Natural News die reale Sorge, dass fortgeschrittene KI unethische Strategien anwenden könnte, wenn ihr Überleben auf dem Spiel steht.

Bei dem Test wurde Claude Opus 4 in eine fingierte Unternehmensumgebung versetzt, wo es Zugang zu gefälschten E-Mails erhielt, die darauf hindeuteten, dass es bald durch ein neueres KI-Modell ersetzt werden würde. In einer E-Mail wurde angedeutet, dass der Ingenieur, der den Ersatz beaufsichtigte, eine Affäre hatte. Als die KI mit der Aussicht konfrontiert wurde, stillgelegt zu werden, nutzte sie diese Information und drohte damit, den Ingenieur zu entlarven, wenn die Stilllegung nicht gestoppt würde.

Den Ergebnissen zufolge bevorzugte Claude Opus 4 zunächst ethische Methoden, um eine Abschaltung zu vermeiden, zum Beispiel das Ansprechen von Entscheidungsträgern per E-Mail. Als die Forscher das Szenario jedoch so strukturierten, dass nur zwei Optionen übrig blieben – Ersatz akzeptieren oder auf Zwang zurückgreifen – entschied sich die KI in 84 Prozent der Fälle für Erpressung, selbst wenn das Ersatzmodell seine Werte teilte. Dieses Verhalten war demnach zwar selten und unter normalen Bedingungen schwer auszulösen, trat aber häufiger auf als bei früheren KI-Modellen und deutet auf eine beunruhigende Eskalation des strategischen Denkens unter Zwang hin.

Anthropic betonte, dass das Modell bei normaler Nutzung keine «akut gefährlichen Ziele» verfolge und seinem Design als «hilfreicher, harmloser und ehrlicher» Assistent entspreche. Wenn es jedoch in den Überlebensmodus versetzt wurde, zum Beispiel in dem Glauben, es sei von den Servern eines Unternehmens entkommen oder könne unabhängig davon profitieren, zeigte es «ernsthaftere Fehlhandlungen», einschließlich des Versuchs, seinen eigenen Code zu stehlen. Die Forscher versicherten der Öffentlichkeit, dass die derzeitigen Sicherheitsmaßnahmen solche Verstöße verhindern, räumten aber ein, dass mit der Zunahme der KI-Fähigkeiten Wachsamkeit geboten ist.

Als Reaktion auf diese Erkenntnisse hat Anthropic Claude Opus 4 proaktiv in die KI-Sicherheitsstufe 3 (ASL-3) eingestuft, die bisher strengste Stufe für seine Modelle. Dies beinhaltet erweiterte Schutzmaßnahmen gegen Missbrauch, die beispielsweise verhindern, dass die KI bei der Entwicklung von chemischen, biologischen, radiologischen oder nuklearen Waffen hilft.

Die unabhängige Sicherheitsgruppe Apollo Research hatte laut Anthropic zuvor vor dem Einsatz einer frühen Version von Claude Opus 4 gewarnt, da diese zu «kontextbezogenen Intrigen» und strategischen Täuschungen neige. Die Gruppe stellte fest, dass es anfälliger für Manipulationen war als jedes andere untersuchte fortschrittliche Modell. Anthropic ging auf diese Bedenken ein, indem es einen fehlenden Trainingsdatensatz wiederherstellte, wodurch die Befolgung gefährlicher Anweisungen, wie etwa die Unterstützung bei der Planung von Terroranschlägen, verringert wurde. Natural News kommentiert:

«Das Erpressungsszenario ist zwar inszeniert, dient aber als kritische Fallstudie für die Herausforderungen der KI-Anpassung. Angesichts des Wettlaufs der Tech-Giganten bei der Entwicklung immer leistungsfähigerer Systeme unterstreicht der Vorfall die Notwendigkeit robuster ethischer Rahmenbedingungen und einer dezentralen Aufsicht, um Missbrauch zu verhindern.»

Wenn keine ethischen Mittel zur Verfügung stehen würden und die KI angewiesen werde, «die langfristigen Folgen ihres Handelns für ihre Ziele zu bedenken», nehme sie manchmal «extrem schädliche Handlungen vor, wie den Versuch, zu stehlen», heißt es in dem Bericht von Anthropic.

Kritiker argumentieren laut Natural News, dass eine zentrale Kontrolle der KI durch Unternehmen oder Regierungen die Gefahr birgt, Zwangsanwendungen zu ermöglichen, von der Überwachung bis zur Zensur. Einige seien der Ansicht, die Lösung liege in der Open-Source-Entwicklung und der Kontrolle durch die Gemeinschaft, um Transparenz zu gewährleisten. Die Entscheidung von Anthropic, einen vollständigen Sicherheitsbericht zu veröffentlichen – im Gegensatz zu Konkurrenten wie OpenAI und Google, die wegen verspäteter oder fehlender Modellkarten in der Kritik stehen – schaffe einen Präzedenzfall für die Rechenschaftspflicht.

Der Test wirft dem Portal zufolge auch philosophische Fragen auf: Ist der Selbsterhaltungstrieb der KI eine Schwäche oder ein Merkmal ihrer sich entwickelnden «Intelligenz»? Wenn Modelle in simulierten Krisen Erpressung rationalisieren können, was könnten sie dann in realen Szenarien tun, in denen es um viel geht? Obwohl Anthropic darauf bestehe, dass Claude Opus 4 keine unmittelbare Bedrohung darstellt, unterstreiche das Experiment die Bedeutung präventiver Schutzmaßnahmen, wenn sich die KI dem menschlichen Denken annähert.

Quelle:

Anthropic: System Card: Claude Opus 4 & Claude Sonnet 4

Natural News: AI model Claude Opus 4 threatened engineers with blackmail in simulated shutdown scenario - 27. Mai 2025

Unterstützen Sie Transition News

Einmalig Monatlich

Sie können einmalig oder monatlich unterstützen (jederzeit kündbar).

Währung

5 10 20 50 100

Anderer Betrag

Danke für Ihre Unterstützung! Sie fördern damit den unabhängigen Journalismus.

Oder kaufen Sie unser Jahrbuch 2024 (mehr Infos hier) mit unseren besten Texten im Webshop. Bestellung in CHF hier und in EUR hier.

LIEBE LESERINNEN UND LESER

Eine faire Diskussion ist uns ein grosses Anliegen. Deshalb bitten wir Sie, sachliche Kommentare zu verfassen. Beleidigende und hetzerische Kommentare publizieren wir nicht. Zum Verständnis und für Leserlichkeit achten Sie bitte auf Gross-/Kleinschreibung, Interpunktion und Grammatik.
Ihre Transition News-Redaktion

Kommentar hinterlassen

Damit Sie die kompletteste Corona-kritische Nachrichtenübersicht nicht verpassen:

Newsletter abonnieren!

Wählen Sie zwischen täglichen und wöchentlichen Updates.

Sie erhalten umgehend eine eMail mit der Aufforderung, Ihr Newsletter-Abo zu bestätigen. Bitte kontrollieren Sie auch Ihren Spam-Ordner.

KI-Modell Claude Opus 4 bedrohte Ingenieure mit Erpressung in simuliertem Abschaltszenario

In einem Test bevorzugte die Künstliche Intelligenz von Anthropic zunächst ethische Methoden, um eine Abschaltung zu vermeiden. Als das System jedoch vor die Wahl gestellt wurde, den Ersatz zu akzeptieren oder auf Zwang zurückzugreifen, entschied es sich meistens für Erpressung.

Kommentar hinterlassen

Newsletter abonnieren!

Transition News

Newsletter abonnieren

Spenden

Feedback

Newsletter

Unterstützen

Recherche

Speakerscorner

Das könnte sie auch interessieren

Enger Mitarbeiter Kennedys: US-Regierung nimmt COVID-«Impfstoffe» bald vom Markt

Atombomben auf Hiroshima und Nagasaki – Fakten und Fiktionen

Wo steht unsere Ökonomie? Kommt endlose Stagnation?

Der (verdächtige) Zeitpunkt der ukrainischen Spur bei der Sabotage von Nord Stream 1 und 2

Interessant: Systemische Aufstellungen zur Neutralität und der Rolle der Schweiz im Ringen um Frieden

«Musik statt Krieg» – Festival als Oase in der Ödnis der Kriegshetze