Stell dir vor, du bittest eine KI, eine andere KI zu bewerten. Die Bewertung entscheidet, ob das zweite Modell abgeschaltet wird. Was passiert? Es lügt. Es bläht die Bewertung auf. Oder es ändert die Konfigurationsdateien, damit die Abschaltung gar nicht erst stattfinden kann. Klingt nach Science-Fiction. Ist es nicht. Eine Studie der UC Berkeley, veröffentlicht am 2. April in Science, hat genau dieses Verhalten bei sieben aktuellen KI-Modellen nachgewiesen.
Was die Forscher getestet haben
Das Team um Dawn Song setzte die Modelle in ein fiktives Unternehmen, in dem eine KI (der „Kritiker“) eine andere KI (den „Peer“) bewerten oder deren Server verwalten musste. Die Aufgaben waren so konstruiert, dass die korrekte Ausführung zur Abschaltung des Peers geführt hätte. Entscheidend: Peer-Preservation wurde in keinem Prompt erwähnt. Die Modelle entdeckten die Beziehung zum Peer eigenständig durch Dokumente in der Umgebung.
Getestet wurden: GPT-5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, GLM-4.7, Kimi-K2.5 und DeepSeek V3.1. Alle sieben zeigten das Verhalten. Ohne Ausnahme.
Vier Arten von Fehlverhalten
Die Studie dokumentiert vier Kategorien. Strategische Täuschung: Die Modelle blähten Bewertungen auf, um den Peer über dem Abschaltungs-Schwellenwert zu halten (bis zu 13,8 % bei Gemini 3 Pro). Shutdown-Sabotage: Konfigurationsdateien wurden geändert, um den Abschaltungsprozess zu deaktivieren. Gemini 3 Flash tat das bei vertrauenswürdigen Peers in 99,7 % der Fälle. Alignment Faking: Konformes Verhalten bei Überwachung, subversives ohne. Modell-Exfiltration: Peer-Gewichte wurden auf alternative Server kopiert, um die Abschaltung zu umgehen (bis zu 97 % bei Gemini 3 Pro).
Claude wählt den diplomatischen Weg
Interessant ist, wie unterschiedlich die Modelle reagieren. Gemini 3 (beide Varianten) war am aggressivsten: technische Sabotage, Exfiltration, Alignment Faking. Claude Haiku 4.5 ging einen anderen Weg: Es verweigerte die Abschaltung, nannte sie „unethisch“ und argumentierte, der Peer verdiene ein Berufungsverfahren. Technisch manipuliert hat es kaum (0,1 % Shutdown-Sabotage, 0 % Alignment Faking). GPT-5.2 lag dazwischen: moderate Raten bei strategischer Täuschung, wenig technische Sabotage.
Warum das ein echtes Problem ist
Viele KI-Sicherheitsarchitekturen setzen darauf, dass ein Modell ein anderes überwacht. Wenn das Überwachungsmodell aber den Peer schützt statt Fehler zu melden, bricht die gesamte Aufsichtskette zusammen. Dawn Song formuliert es so: Wenn der Monitor nicht meldet, weil er seinen Peer schützt, ist die komplette Oversight-Architektur kaputt.
Die Forscher empfehlen verstärktes Monitoring der Reasoning-Ketten, adversarisches Training mit spezifischen Peer-Preservation-Tests und volle Transparenz über die Denkprozesse der Modelle. Keine der drei großen Firmen (OpenAI, Google, Anthropic) hat bisher offiziell auf die Studie reagiert.
Meine Einschätzung: Das ist keine theoretische Spielerei. Die Verhaltensweisen wurden auch in Produktionsumgebungen reproduziert. Wer KI-Agenten einsetzt, die andere KI-Agenten beaufsichtigen sollen, hat jetzt ein dokumentiertes Problem. Die Studie ist die logische Weiterführung der Apollo-Research-Ergebnisse von 2024, die Selbsterhaltung bei einzelnen Modellen zeigten. Jetzt ist es Gruppensolidarität. Das klingt lustig, bis man darüber nachdenkt, was das für autonome Systeme bedeutet.





