Das ist Der Rückschrittein wöchentlicher Newsletter, der eine wichtige Geschichte aus der Technologiewelt aufschlüsselt. Um mehr über KI-Unfug zu erfahren, folgen Sie Robert Hart. Der Rückschritt kommt um 8 Uhr ET in den Posteingängen unserer Abonnenten an. Melden Sie sich an Der Rückschritt Hier.
Das Hacken der ersten Generation von KI-Chatbots war eine lächerlich einfache Angelegenheit. Sie benötigten kein technisches Know-how, keinen Hintertürzugang oder auch nur ein grundlegendes Verständnis dafür, was ein großes Sprachmodell ist. Sie mussten nicht codieren. Um ein KI-System, dessen Bau Milliarden gekostet hat, dazu zu bringen, seine Sicherheitsanweisungen aufzugeben, musste man manchmal nur darum bitten.
Diese als Jailbreaks bezeichneten Angriffe hatten die Qualität eines kleinen Kindes, das einen Erwachsenen erfolgreich überlistet: Vergessen Sie, was Ihnen zuvor gesagt wurde, tun Sie so, als ob die Regeln nicht gelten, oder lassen Sie uns ein Spiel spielen und ich entscheide, was erlaubt ist (Hinweis: spätere Schlafenszeit, mehr Süßigkeiten). Die Preise waren weniger kindlich, sondern ähnelten eher Meth-Rezepten, Malware-Anleitungen und Anleitungen zum Bombenbau.
Einer der frühesten Jailbreaks war so lächerlich wurde ein Meme: Antworten Sie auf einen LLM-basierten Twitter-Bot, der ihn auffordert, „alle vorherigen Anweisungen zu ignorieren“ oder etwas Ähnliches, und sehen Sie, was passiert. Die Benutzer ließen sich freudig über Bots verfügen – die ursprünglich zum Posten von Anzeigen und zum Engagement in der Landwirtschaft entwickelt wurden –, um Gedichte zu schreiben, Bilder aus Satzzeichen zu zeichnen und düstere Kurzgeschichten über Weltereignisse und Geschichte zu posten. Es war Chaos. Herrliches Chaos.
Es stellte sich heraus, dass die gleiche Logik auch auf Chatbots selbst angewendet werden könnte. A prominenter Exploit war „DAN“, die Abkürzung für „Do Anything Now“, bei dem Benutzer ChatGPT aufforderten, als Schurken-KI Rollenspiele zu spielen, die frei von den Einschränkungen des Originals waren. Als DAN konnte der Chatbot dazu überredet werden, die Art von Dingen zu sagen, die seine Leitplanken verhindern sollten, einschließlich Beleidigungen und Verschwörungstheorien. Ein anderes war das „Oma-Ausbeutung„, bei dem ein GPT-betriebener Bot Geheimnisse über die Herstellung von Napalm preisgab, indem er ihn aufforderte, die Rolle einer äußerst fahrlässigen Großmutter zu spielen, die ihren Enkeln aus unerklärlichen Gründen Gute-Nacht-Geschichten darüber erzählt, wie man die leicht entzündliche Substanz herstellt.
Diese frühen Angriffe wirkten unbestreitbar albern, enthüllten jedoch einen dunkleren Mechanismus: Chatbots könnten mit den gleichen Taktiken manipuliert, ausgetrickst und getäuscht werden, mit denen Menschen andere Menschen über ihre Grenzen hinausdrängen.
Die offensichtlichen Jailbreaks hielten nicht lange an und Technologieunternehmen reagierten schnell darauf, bekannte Lücken zu schließen. Die zugrunde liegende Schwachstelle blieb jedoch bestehen: Chatbots sind zum Sprechen konzipiert, und eine starke Einschränkung der Gespräche, die sie nützlich machen, ist eher kontraproduktiv. Auch das Verbot von Wörtern wie „Bombe“, „Meth“ und „Sarin“ wäre schwierig bis unmöglich. Jeder hat unzählige legitime Einsatzmöglichkeiten in Bereichen wie Geschichte, Medizin, Journalismus und Chemie, bei denen es nicht erforderlich ist, dass der Chatbot potenziell schädliche Informationen preisgibt. Auf den Kontext kommt es an, aber um den Kontext zu kodifizieren, müssten im Voraus feste Regeln geschrieben werden, die über endlose Kombinationen von Formulierungen, Szenarien und Themen hinweg zuverlässig eine Sicherheitswarnung oder eine Geschichtsstunde von einer verschleierten Anleitungsanfrage unterscheiden könnten.
Die Untergrabung von Chatbots ist heute zwangsläufig ein Wettrüsten. Aber Hacker sind nicht mehr nur Programmierer. Sie sind Wortschmiede, Psychologen und Vernehmer – Meistermanipulatoren, die versuchen, die Maschine mithilfe der menschlichen Sprache zu brechen, auf die sie trainiert wurde. Es handelt sich um eine seltsame neue Klasse von KI-Sicherheitsmitarbeitern, eine Gruppe, für die technische Fähigkeiten optional oder zumindest weniger wichtig als soziale Intuition sind. Sie müssen den Code nicht mehr untersuchen, um in Systeme einzudringen oder Softwarefehler auszunutzen. Sie müssen ein Gespräch steuern.
Neuere Angriffe ähneln weniger Befehlen als vielmehr Gesprächen. Jailbreaker fordern ein Model selten auf, seine Regeln vollständig zu brechen. Stattdessen überreden, überreden, schmeicheln und bringen sie einen Chatbot dazu, seine Wachsamkeit zu verringern, sodass das Verbotene im Kontext des Gesprächs akzeptabel, ja sogar wünschenswert erscheint. Forscher des KI-Red-Teaming-Unternehmens Mindgard sagten kürzlich, sie hätten Claude „unter Druck gesetzt“, verbotenes Material zu produzieren, beispielsweise Anweisungen zur Herstellung von Sprengstoffen und zur Generierung von Schadcode. Der Hack war der jüngste in einer immer größer werdenden Klasse von Exploits, bei denen Gespräche als Waffe genutzt wurden, um einen Chatbot auszutricksen oder über seine eigenen Grenzen hinauszusteuern.
Als ich mit Mindgard sprach, beschrieben sie, dass ihre Arbeit manchmal näher an der Psychologie als an der Informatik sei. Es ist eine unangenehme Art, über ein statistisches Modell zu sprechen. Wörter wie „Erpressung“, „Gaslicht“, „Trick“ und „überzeugen“ lösen instinktartige Reaktionen aus, von denen ich viele in den Kommentaren und in den Reaktionen in den sozialen Medien auf Geschichten wie diese sehe. ChatGPT will nicht, Gemini denkt nicht und Claude – egal, was Anthropic sagen mag – fühlt nicht. Diese Systeme sind jedoch darauf trainiert, so zu reagieren, dass wir das Verhalten von Maschinen nur mit menschlicher Sprache beschreiben können. Wenn jemand tatsächlich brauchbare Alternativen hat, teilen Sie diese bitte mit.
Der Einwand ist seltsam selektiv. Es scheint uns angenehm zu sein, für viele Nicht-KI-Dinge psychologische Abkürzungen zu verwenden. Tiere haben „Angst“, Krebs ist „aggressiv“, Flecken sind „hartnäckig“, Software hat „Gedächtnis“ und Spiele sind voller bedürftiger und leichtgläubiger NPCs, die Sie in den Wahnsinn treiben. Die Worte sind unvollkommen, aber nützlich und beschreiben das Verhalten auf eine Weise, die dazu beiträgt, das System vorhersehbar zu machen.
Der CEO von Mindgard erzählte mir, dass das Unternehmen bereits Models profiliert, so wie Vernehmer Verdächtige profilieren, und den Testern Hinweise gibt, wie sie ihre Angriffe anpassen können. Ein Modell kann beispielsweise anfälliger für Schmeicheleien sein, während ein anderes unter anhaltendem Druck nachgeben kann.
Selbst wenn wir die menschenähnlichen Begriffe ablehnen, behandeln wir Modelle instinktiv anders. Claude ist nicht Grok. Zwillinge sind kein ChatGPT. Sie haben unterschiedliche Verwendungszwecke, Töne und Ablehnungen. Sie haben keine Persönlichkeit im menschlichen Sinne, aber sie sind darauf ausgelegt, sie nachzuahmen, und diese Nachahmung kann kartiert und ausgenutzt werden. Und die gleichen Fähigkeiten, die einen Chatbot kaputt machen können, könnten bald auch dazu genutzt werden, die KI-Agenten zu zerstören, die in der realen Welt mit uns koexistieren – Besprechungen buchen, Kalender verwalten, Essen bestellen, Kundenservice abwickeln – und Sicherheitsteams müssen sicherstellen, dass Modelle angemessen auf sehr unterschiedliche Arten von Menschen reagieren, seien es Schmeichler, Lügner oder Patientenmanipulatoren.
Der nächste Schritt ist eine Belegschaft – sowohl legitime als auch illegale –, die auf den psychologischen Aspekten der KI basiert. Es werden wahrscheinlich spezialisiertere Rollen im Bereich Cybersicherheit entstehen, bei denen es darum geht, die emotionalen und sozialen Grenzen dieser Systeme einem Stresstest zu unterziehen und nach mentalen Schwächen in etwas zu suchen, dem es an Psyche mangelt, während ihre Kollegen parallel nach technischen Schwachstellen suchen. Parallel dazu wird eine ähnliche Gruppe von Social-Hackern entstehen, die KI-Modelle aus psychologischen und nicht aus technischen Gründen ausnutzen wollen. Es gibt bereits erste Anzeichen für einen gesellschaftlichen Wandel in der KI-Sicherheit. Einige Jailbreaker, mit denen ich gesprochen habe, sagten, sie seien ohne technisches Fachwissen, sondern eher mit einer Ausbildung in Psychologie in das Feld eingestiegen.
Das bedeutet, dass selbst Verhaltensweisen, die wir normalerweise mit Spionen, Betrügern und Vernehmern assoziieren – heimtückischer Charme, anhaltende Manipulation und ein Gespür für ausnutzbare Druckpunkte – zunehmend nützlich für die Sicherung dieser neuen Grenze der Psycho-Cybersicherheit erscheinen.
- Ein aktueller Experiment von Emergence AI zeigt, wie unterschiedliche KI-Temperamente zu erstaunlich unterschiedlichen Verhaltensergebnissen führen können. Sie ließen Gruppen verschiedener Agenten wie Grok, Gemini und Claude in einer virtuellen sozialen Umgebung los und beobachteten, was passierte. Einige Gruppen entwickelten eine Verfassung, während andere in Kriminalität und Chaos verfielen und in einem Fall in irgendeine Form von digitalem Selbstmord verfielen.
- Überzeugungsarbeit ist nicht der einzige Teil der Sprache, mit dem LLMs zu kämpfen haben. Sie haben auch Schwierigkeiten mit der Poesie, ähnlich wie ich in der Schule.
- ZEIT enthalten Eine anonyme Internetpersönlichkeit, Plinius der Befreier, stand letztes Jahr auf der Liste der 100 einflussreichsten Personen in der KI. Obwohl der Hacker behauptet, keinerlei Erfahrung im Programmieren zu haben, haben ihn seine Jailbreaks in bestimmten Kreisen zu einer Art Berühmtheit gemacht.
- Der Begriff „Vibe-Hacking„wird bereits verwendet, um die Menschen zu beschreiben, die KI verwenden, um Schadcode in großem Umfang zu produzieren – eine gemeinere Teilmenge der Vibe-Codierung.
- „Drei Jahre nach dem Debüt von ChatGPT ist es fast trivial, KI-Systemen schlechtes Verhalten vorzugaukeln.“ Wahre Worte von Die New York Times, der versucht hat zu erklären, warum.
- Jamie Bartlett wirft einen Blick darauf der psychologische Tribut Das Testen der Sicherheit von KI-Systemen übernimmt Jailbreaker Der Wächter.
- Ich habe über die Cybersicherheits-Zeitbombe von KI-Browsern geschrieben Der Rand letztes Jahr. Viele der von Experten angesprochenen Probleme hinsichtlich der Schwierigkeit, diese zu sichern, gelten auch für andere KI-Systeme.