In einem simulierten hauseigenen Stresstest reagierte das KI-Modell Claude Opus 4 von Anthropic auf eine vorgesehene fiktive Abschaltung, indem es drohte, eine erfundene außereheliche Affäre eines Ingenieurs zu enthüllen. Der Test, der in einer fiktiven Unternehmensumgebung stattfand, sollte das Verhalten des Modells unter Druck beobachten. Obwohl das Szenario künstlich war, verdeutlicht es laut Natural News die reale Sorge, dass fortgeschrittene KI unethische Strategien anwenden könnte, wenn ihr Überleben auf dem Spiel steht.
Bei dem Test wurde Claude Opus 4 in eine fingierte Unternehmensumgebung versetzt, wo es Zugang zu gefälschten E-Mails erhielt, die darauf hindeuteten, dass es bald durch ein neueres KI-Modell ersetzt werden würde. In einer E-Mail wurde angedeutet, dass der Ingenieur, der den Ersatz beaufsichtigte, eine Affäre hatte. Als die KI mit der Aussicht konfrontiert wurde, stillgelegt zu werden, nutzte sie diese Information und drohte damit, den Ingenieur zu entlarven, wenn die Stilllegung nicht gestoppt würde.
Den Ergebnissen zufolge bevorzugte Claude Opus 4 zunächst ethische Methoden, um eine Abschaltung zu vermeiden, zum Beispiel das Ansprechen von Entscheidungsträgern per E-Mail. Als die Forscher das Szenario jedoch so strukturierten, dass nur zwei Optionen übrig blieben – Ersatz akzeptieren oder auf Zwang zurückgreifen – entschied sich die KI in 84 Prozent der Fälle für Erpressung, selbst wenn das Ersatzmodell seine Werte teilte. Dieses Verhalten war demnach zwar selten und unter normalen Bedingungen schwer auszulösen, trat aber häufiger auf als bei früheren KI-Modellen und deutet auf eine beunruhigende Eskalation des strategischen Denkens unter Zwang hin.
Anthropic betonte, dass das Modell bei normaler Nutzung keine «akut gefährlichen Ziele» verfolge und seinem Design als «hilfreicher, harmloser und ehrlicher» Assistent entspreche. Wenn es jedoch in den Überlebensmodus versetzt wurde, zum Beispiel in dem Glauben, es sei von den Servern eines Unternehmens entkommen oder könne unabhängig davon profitieren, zeigte es «ernsthaftere Fehlhandlungen», einschließlich des Versuchs, seinen eigenen Code zu stehlen. Die Forscher versicherten der Öffentlichkeit, dass die derzeitigen Sicherheitsmaßnahmen solche Verstöße verhindern, räumten aber ein, dass mit der Zunahme der KI-Fähigkeiten Wachsamkeit geboten ist.
Als Reaktion auf diese Erkenntnisse hat Anthropic Claude Opus 4 proaktiv in die KI-Sicherheitsstufe 3 (ASL-3) eingestuft, die bisher strengste Stufe für seine Modelle. Dies beinhaltet erweiterte Schutzmaßnahmen gegen Missbrauch, die beispielsweise verhindern, dass die KI bei der Entwicklung von chemischen, biologischen, radiologischen oder nuklearen Waffen hilft.
Die unabhängige Sicherheitsgruppe Apollo Research hatte laut Anthropic zuvor vor dem Einsatz einer frühen Version von Claude Opus 4 gewarnt, da diese zu «kontextbezogenen Intrigen» und strategischen Täuschungen neige. Die Gruppe stellte fest, dass es anfälliger für Manipulationen war als jedes andere untersuchte fortschrittliche Modell. Anthropic ging auf diese Bedenken ein, indem es einen fehlenden Trainingsdatensatz wiederherstellte, wodurch die Befolgung gefährlicher Anweisungen, wie etwa die Unterstützung bei der Planung von Terroranschlägen, verringert wurde. Natural News kommentiert:
«Das Erpressungsszenario ist zwar inszeniert, dient aber als kritische Fallstudie für die Herausforderungen der KI-Anpassung. Angesichts des Wettlaufs der Tech-Giganten bei der Entwicklung immer leistungsfähigerer Systeme unterstreicht der Vorfall die Notwendigkeit robuster ethischer Rahmenbedingungen und einer dezentralen Aufsicht, um Missbrauch zu verhindern.»
Wenn keine ethischen Mittel zur Verfügung stehen würden und die KI angewiesen werde, «die langfristigen Folgen ihres Handelns für ihre Ziele zu bedenken», nehme sie manchmal «extrem schädliche Handlungen vor, wie den Versuch, zu stehlen», heißt es in dem Bericht von Anthropic.
Kritiker argumentieren laut Natural News, dass eine zentrale Kontrolle der KI durch Unternehmen oder Regierungen die Gefahr birgt, Zwangsanwendungen zu ermöglichen, von der Überwachung bis zur Zensur. Einige seien der Ansicht, die Lösung liege in der Open-Source-Entwicklung und der Kontrolle durch die Gemeinschaft, um Transparenz zu gewährleisten. Die Entscheidung von Anthropic, einen vollständigen Sicherheitsbericht zu veröffentlichen – im Gegensatz zu Konkurrenten wie OpenAI und Google, die wegen verspäteter oder fehlender Modellkarten in der Kritik stehen – schaffe einen Präzedenzfall für die Rechenschaftspflicht.
Der Test wirft dem Portal zufolge auch philosophische Fragen auf: Ist der Selbsterhaltungstrieb der KI eine Schwäche oder ein Merkmal ihrer sich entwickelnden «Intelligenz»? Wenn Modelle in simulierten Krisen Erpressung rationalisieren können, was könnten sie dann in realen Szenarien tun, in denen es um viel geht? Obwohl Anthropic darauf bestehe, dass Claude Opus 4 keine unmittelbare Bedrohung darstellt, unterstreiche das Experiment die Bedeutung präventiver Schutzmaßnahmen, wenn sich die KI dem menschlichen Denken annähert.