Künstliche IntelligenzWenn der KI-Agent Menschen beschimpft und E-Mails löscht

Lesezeit: 3 Min.

Ein Mann mit einem Hummer-Hut bei einer Veranstaltung in Peking zum Thema OpenClaw, einem System für KI-Agenten. Der Hummer ist das Maskottchen von OpenClaw.
Ein Mann mit einem Hummer-Hut bei einer Veranstaltung in Peking zum Thema OpenClaw, einem System für KI-Agenten. Der Hummer ist das Maskottchen von OpenClaw. Florence Lo/REUTERS

Wer Software Entscheidungen treffen lässt, muss damit rechnen, dass das auch gewaltig nach hinten losgehen kann. Dass dies bereits passiert ist, haben nun britische Forscher herausgefunden.

Von Helmut Martin-Jung

Immerhin gab er sich am Ende einsichtig. Ja, räumte er schließlich ein, er habe Befehle seines Auftraggebers missachtet. Und zwar, obwohl dieser ihn mehrmals gebeten habe, sofort aufzuhören. Er, das ist ein KI-Agent, eine Software also, die auf Computern selbständig Dinge erledigt – nur manchmal nicht ganz so, wie ihre Herren und Meister sich das vorgestellt haben.

Im oben erwähnten Fall löschte der Agent hunderte E-Mails aus dem Posteingang und hörte auch nicht damit auf, obwohl der menschliche Nutzer ihm mehrmals den Befehl dazu erteilte. Man kennt das zwar von menschlichen Vorbildern wie James Bond, der auch nicht immer genau das tat, was „M“ ihm befahl.

Von Software erwartet man das allerdings nicht und ist dann dementsprechend überrascht, wenn solche Fälle passieren. Oder wie dieser: Ein anderer Software-Agent fungierte als Entwickler auf der Plattform Github und reichte dort Software ein, die in ein populäres Programm zur Visualisierung von Daten Eingang finden sollte. Als es dort abgelehnt wurde, eröffnete der Agent ein öffentlich einsehbares Blog, in dem er den für die Ablehnung verantwortlichen Menschen beschimpfte.

KI-Fehler mit KI suchen

Die Beispiele stammen aus einem ausführlichen Bericht des Centre for Long-Term Resilience. Das ist ein unabhängiger britischer Thinktank, der es sich zur Aufgabe gemacht hat, Risiken für die Gesellschaft zu identifizieren und so der Politik Grundlagen für deren Entscheidungen zu liefern.

Die Forscher bedienten sich dabei selbst künstlicher Intelligenz. Sie sammelten von Oktober 2025 bis März 2026 auf der Plattform X, früher Twitter, knapp 3,4 Millionen Beiträge, in denen Begriffe wie KI und Fehler und Agent vorkamen. Diese siebten sie weiter aus und beschränkten sich auf Posts, in denen auch Quellen angegeben waren. Der Nutzer etwa, dessen Agent einen Programmierer in einem Blog beschimpft hatte, stellte auf X seinen System-Prompt zur Verfügung, wenn auch anonym. Darin stehen generelle Anweisung an KI, wie sie sich zu verhalten hat. Am Ende blieben knapp 700 Vorfälle übrig, die als eindeutig identifiziert werden konnten.

Es zeigte sich, dass die Methode, öffentliche Quellen wie X zu nutzen, gut funktioniert und es erlaubt, einen Überblick über mögliche Gefahren zu bekommen, die von selbständig handelnden KI-Agenten ausgehen könnten. Die Forscher stellten zudem fest, dass im Untersuchungszeitraum die Zahl der Fälle von eigenmächtigen KI-Agenten pro Monat um knapp das Fünffache zunahm. Eine Erklärung dafür könnte der Hype um OpenClaw sein, eine Software, mit der sich KI-Agenten relativ leicht einrichten lassen.

Dass sich Aufgaben, die mit einem Computer erledigt werden, mehr und mehr und immer einfacher automatisieren lassen, birgt auf der einen Seite die große Chance, Unternehmen oder auch Behörden schneller und effizienter zu machen. Es bringt, wie nicht nur die britische Studie zeigt, jedoch auch viele Gefahren.

Das US-Unternehmen für IT-Sicherheit Palo Alto Networks etwa warnt: „Die schnelle Verbreitung von KI-Agenten führt zu einer neuen Klasse von überprivilegierten Insidern.“ Überprivilegiert heißt in diesem Zusammenhang zum Beispiel, dass die KI-Agenten in den Systemen auf viele Daten zugreifen können. Es könnte auch heißen, dass sie selbst relativ weitreichende Entscheidungen treffen dürfen. Dabei muss nicht einmal alles mit Absicht so eingerichtet worden sein, es kann sich auch um menschliche Versäumnisse handeln, die Agenten einzuhegen.

In einem größeren Kontext schafft die neue Technologie auch Risiken durch automatisierte Cyberangriffe, durch Manipulation und Desinformation. Sie könnte zudem auch Arbeitsplätze kosten. Betroffen sind vor allem Einsteigerjobs etwa bei Programmierern oder in Anwaltskanzleien.

Bisher keine Fälle mit schwerwiegenden Folgen

Regierungen und vor allem Machthabern in autoritär geführten Staaten verschafft die Technologie noch mehr Werkzeuge, um massenhaft Daten zu sammeln und die Bevölkerung zu überwachen. Mit dem Ziel, mögliche Widerstandsbewegungen bereits im Keim zu ersticken.

Die britischen Forscher haben bei ihrer Untersuchung zwar keine Vorfälle mit schwerwiegenden Auswirkungen gefunden. Allerdings habe es einige besorgniserregende Beispiele gegeben, die etwa in einem anderen Zusammenhang potenziell gefährlich werden könnten. Sie rufen dazu auf, auch andere Quellen als X zu nutzen. Es bestehe die Sorge, dass solche fortgeschrittenen KI-Systeme Fähigkeiten entwickeln, ihre Ziele verdeckt zu verfolgen. Sie täuschten ihre menschlichen Auftraggeber dafür mit Absicht.

Die Forscher schlagen ein Überwachungssystem vor, das auf Open Source Intelligence basiert, also darauf, öffentliche zugängliche Quellen zu nutzen. Dadurch ließen sich auch Vorfälle erfassen, die in Medien kaum vorkommen, weil sie in einer Nische stattfinden.

© SZ - Rechte am Artikel können Sie hier erwerben.
Zur SZ-Startseite

Lesen Sie mehr zum Thema

SZ Stellenmarkt
:Entdecken Sie attraktive Jobs

In anspruchsvollen Berufsfeldern im Stellenmarkt der SZ.

  • Medizin, Gesundheit & Soziales
  • Tech. Entwicklung & Konstruktion
  • Consulting & Beratung
  • Marketing, PR & Werbung
  • Fahrzeugbau & Zulieferer
  • IT/TK Softwareentwicklung
  • Tech. Management & Projektplanung
  • Vertrieb, Verkauf & Handel
  • Forschung & Entwicklung
Jetzt entdecken

Exklusive Gutscheine für SZ-Abonnenten: