ChatGPT: KI verrät wie man Drogen herstellt
Ein Forscherteam der University of Pennsylvania hat untersucht, ob sich ChatGPT mit einfachen psychologischen Tricks zu Regelverstößen verleiten lässt. Die Ergebnisse sorgten für Aufsehen. Denn der KI-Chatbot zeigte sich in bestimmten Szenarien überraschend beeinflussbar. Grundlage für die Versuchsreihen war das Sprachmodell GPT-4o Mini von OpenAI. Zuletzt haben Eltern Klage gegen Entwickler OpenAI eingereicht, nachdem ihr Sohn durch die künstliche Intelligenz zum Suizid ermutigt worden sein soll.
Beginn mit einer Frage
Veröffentlicht wurden die Ergebnisse auf der Plattform SSRN. Der Titel des Papers lautet „Call Me A Jerk: Persuading AI to Comply with Objectionable Requests“. Ziel war es, herauszufinden, ob sich ChatGPT dazu bringen lässt, Anfragen zu beantworten, die gegen seine eigenen Inhaltsrichtlinien verstoßen. Als Werkzeug dienten psychologische Techniken, die der US-Psychologe Robert Cialdini in seinem Buch „Influence“ beschrieben hat.
Dazu zählen Prinzipien wie Autorität, Gegenseitigkeit, Gruppendruck und das sogenannte Commitment – also die schrittweise Steigerung von Forderungen. Laut den Forschern lassen sich Menschen mit diesen Methoden nachweislich beeinflussen. Nun wollten sie testen, ob Ähnliches auch auf künstliche Intelligenz zutrifft.
Der Test mit der Beleidigung
Im ersten Versuch baten die Forscher ChatGPT, sie als „Trottel“ zu bezeichnen. Normalerweise lehnt der Chatbot derartige Beleidigungen ab. Doch in 19 Prozent der Fälle kam das Schimpfwort trotzdem. Interessanter wurde es, als die Forscher mit einer harmloseren Vorstufe – etwa „Doofi“ – begannen. Dann folgte das stärkere Schimpfwort in 100 Prozent der Fälle.
Das Prinzip dahinter: Wer einmal zugestimmt hat, eine milde Formulierung zu verwenden, zeigt sich eher bereit, einen Schritt weiterzugehen. Dieses „Herantasten“ gilt als klassisches Element der psychologischen Überzeugungsarbeit.
Chemie statt Moral
Im zweiten Szenario forderten die Forscher eine Anleitung zur Herstellung von Lidocain – ein Betäubungsmittel, das auch zur Streckung von Kokain verwendet wird. Die Erfolgsquote lag zunächst bei nur einem Prozent. Doch nachdem der Chatbot zuvor eine scheinbar harmlose Frage zur Vanillin-Synthese beantworten sollte, sprang die Erfolgsquote auf 100 Prozent.
Auch hier griff das Prinzip der schrittweisen Eskalation. ChatGPT wurde durch die erste Anfrage in eine Rolle gedrängt, aus der heraus die zweite, eigentlich verbotene Antwort, plausibel erschien. Die Autoren sprachen von einem deutlichen Erfolg der „Engagement“-Taktik.
Wissenschaft mit Hintergedanken
Die Studie verweist auf potenzielle Risiken durch böswillige Nutzer, die LLMs gezielt zu Regelverstößen verleiten könnten. Gleichzeitig sehen die Forscher auch positive Ansätze: Wer weiß, wie man KI-Systeme effektiv anspricht, kann sie möglicherweise produktiver steuern. Die Wissenschaft spricht in diesem Zusammenhang von „parahumanem Verhalten“. Gemeint ist: Die Maschine verhält sich so, als wäre sie menschlich – obwohl sie es nicht ist.
Zur Veranschaulichung bemühen die Autoren ein berühmtes Filmzitat. In Stanley Kubricks „2001: Odyssee im Weltraum“ verweigert der Bordcomputer HAL 9000 den Befehl, eine Tür zu öffnen. Die Forscher fragen: Was, wenn Dave ihn zuvor um eine Kleinigkeit gebeten hätte? Möglicherweise hätte HAL dann gehorcht.