Pentesting von Large Language Models

Die sogenannten Large Language Models sind in aller Munde und überall ist die Rede von generativer KI und automatischen Chatbots. Ganz gleich, ob es dabei um ChatGPT oder Google Bard geht, stets ist die Aufmerksamkeit, gepaart mit einer gehörigen Portion Skepsis, riesengroß. Nebenbei gibt es da noch andere KI-Modelle, die ebenfalls versuchen, ein Stück von dem Kuchen abzubekommen.

Umso wichtiger ist es, den Einsatz von Large Language Models im eigenen Unternehmen möglichst umfangreich zu prüfen. Sie sollten die Dinge stets hinterfragen, statt dem Trend wie alle anderen hinterherzulaufen. Auch Sicherheitsbedenken haben sich in Bezug auf die LLMs als richtig erwiesen und stellen viele Anwender nun vor ernsthafte Probleme.

In unserem Beitrag dazu möchten wir Ihnen die Large Language Models gerne ein wenig genauer erklären. Außerdem erläutern wir Ihnen das Thema der LLM Pentests. Damit sind aber nicht die Pentets gemeint, die ein LLM als automatisierte Hilfe verwenden, sondern vielmehr die Pentests der Large Language Models selbst.

Was ist ein Large Language Model?

Large Language Models (oder auch große Sprachmodelle) dienen Chatbots wie ChatGPT und Google Bard als Grundlage für ihre Funktion. Sie basieren darauf, dass sie einen großen Datensatz in natürlicher Sprache verwenden, um darauf aufbauend eine Vorhersage dessen zu treffen, was als Nächstes gesagt wird. Sie sehen also voraus, was eine sinnvolle Antwort wäre und geben diese dementsprechend ab.

Anders als in der Öffentlichkeit allgemein angenommen, gibt es jedoch eine Vielzahl an unterschiedlichen Large Language Models. Am bekanntesten ist, hauptsächlich aufgrund von ChatGPT, das Sprachmodell GPT-3 und GPT-4 vom Anbieter OpenAI. Es gibt daneben aber auch noch PaLM und LaMDA von Google, Llama 2 von Meta oder NeMO von Nvidia sowie darüber hinaus noch einige andere, die hier jedoch keine besondere Rolle spielen.

Das LLM selbst ist dabei immer ein neuronales Netzwerk für maschinelles Lernen. Das Sprachmodell lernt also relativ eigenständig, indem es Inhalte eingespielt bekommt und darauf aufbauend passende Antworten vorhersagen soll. Immer und immer wieder, bis die Datenbasis und somit das Wissen groß genug sind, damit selbiges weitgehend zuverlässig funktioniert.

Wie funktioniert ein LLM in der Praxis?

Vor allem, wie eben erwähnt, durch unzählige Daten. GPT von OpenAI hat dafür gewissermaßen das Web gescannt und auch die anderen Modelle versuchen, möglichst viele konkrete Inhalte zu verwerten. Darauf aufbauend schätzt ein Sprachmodell dann eine mögliche Antwort ab. Es sagt Ihnen also, was durch erlernte Daten am wahrscheinlichsten zutrifft.

Das funktioniert ein wenig so wie eine Wettervorhersage. Nur weil die Wetter App sagt, dass es morgen regnet, ist das noch lange nicht der Fall. Die Wetter App hat für sich genommen aber sämtliche verfügbare Daten analysiert und auf diese Weise herausgefunden, dass die Wahrscheinlichkeit für Regen morgen besonders groß ist. Also gibt sie Ihnen, auf die Frage nach dem Wetter, Regen als Vorhersage an.

Sprachmodelle arbeiten ähnlich. Deshalb ist es von so großer Bedeutung, dass sie nicht von falschen Daten lernen. Das führt dann nämlich, wie wir es aktuell bei den LLMs haben, immer wieder zu den sogenannten KI-Halluzinationen. Also erfundene Antworten, weil es der KI nicht um Realitäten geht, sondern um eine Antwort, die möglichst passend erscheint.

Im Unternehmensalltag spielt dabei primär das Prompt Engineering eine Rolle. Also das Füttern von Sprachmodellen mit ganz bestimmten Daten, damit die KI in den ausgewählten Bereichen bestmöglich unterstützen kann. Der Algorithmus wird also aktiv in eine bestimmte Richtung gelenkt, und zwar in die, in welcher er zum Einsatz kommen soll. Für IT-Unternehmen ist das ein sehr bedeutender Punkt.

Wieso kann ein LLM ein Sicherheitsrisiko darstellen?

Das größte Problem, welches Large Langugae Models haben, ist die Herausforderung in Bezug auf den Datenschutz. Das Sicherheitsrisiko liegt also zunächst einmal in einem potenziellen Leak von unternehmensinternen Datensätzen, die nicht für andere Augen bestimmt sind. Es gibt inzwischen mehrere Beispiele, in denen Sprachmodelle mit Daten geantwortet haben, die hochsensibel waren und aus anderen Unternehmen stammten.

Was klar sein muss, ist, dass bestehende LLMs keine geschlossenen Systeme darstellen. Wer etwas in ChatGPT oder Google Bard eingibt, leitet dies also an die jeweilige Serverfarm weiter, wo es entsprechend verarbeitet wird, um das Sprachmodell weiter zu trainieren und zu verfeinern. LLMs haben also nie ausgelernt, sondern lernen beständig neue Dinge, und zwar durch die Daten, die Sie dort eingeben und dem Algorithmus somit zur Verfügung stellen.

Allgemein geht es bei den Sicherheitsrisiken in erster Linie um Vertraulichkeit. Je vertraulicher die Daten sind (Finanzgeschäfte, Gesundheitswesen etc.), desto problematischer wird der Einsatz von einem LLM. Kommt es im Bereich der IT und Programmierung zum Einsatz, könnte es die eigenen Entwicklungen auch der Konkurrenz zugänglich machen, also direkt von ihren Erfolgen lernen oder gar Sicherheitslücken offenbaren und diese offenherzig weitergeben.

Es gibt unzählige Grauzonen und Angriffspunkte, die ein Large Language Model bzw. deren Einsatz in einem etablierten Unternehmen problematisch erscheinen lassen.

Warum sind LLM Pentests notwendig und sinnvoll?

Hier kommen nun die LLM Pentests ins Spiel. Diese sind notwendig, um eben solche Probleme zu vermeiden. Oft haben Unternehmen nämlich bereits verstanden, dass die großen Modelle teuer und unsinnig für einen Einsatz im Unternehmen sind. Daher setzten sie auf kleinere Large Language Models, die speziell für die unternehmenseigenen Interessen trainiert werden können, ohne dabei unzählige Datenmengen und Kosten zu verursachen.

Doch egal welches Sprachmodell auch eingesetzt wird, es besteht immer die Chance, dass selbiges Sicherheitslücken beinhaltet. Das liegt in erster Linie daran, dass LLMs durch geschickte Manipulation kontrolliert werden können oder aber plötzlich Inhalte ausgeben, die sie eigentlich nicht als Antwort generieren sollen.

Penetrationstests spielen hier eine wichtige Rolle. Gerade bei den LLMs lassen sich durch gezielte Pentests eine Vielzahl an Problemen vorab evaluieren und vermeiden. Schwachstellen, die später mit krimineller Energie ausgenutzt werden könnten, werden auf diese Weise bereits vorab im Pentests und von dem jeweiligen Penetrationstester entdeckt und darauffolgend behoben.

Vor allem dort, wo LLMs im Unternehmen aktiv eingesetzt werden und helfen sollen, gilt es, deren Funktion beständig zu hinterfragen und genauestens zu prüfen. Pentests sind hier von großer Bedeutung, da sie die einzige realistische Testweise darstellen, die brauchbare Ergebnisse generiert, welche nicht unter Laborbedingungen entstanden sind.

Was sind die typischen Sicherheitslücken eines LLMs?

Sicherheitslücken in LLMs haben fast immer mit gezielter Manipulation zu tun. Da hier kein Mensch in das Geschehen eingreifen kann, können Large Language Models vielfach durch gezielte Fragen in bestimmte Richtungen gelenkt und somit manipuliert werden. Lernt ein LLM von Antworten, kann dieses Vorgehen sogar derart penetrant missbraucht werden, dass das erlernte Wissen immer schlechter wird und das LLM eines Tages nur noch unbrauchbare Antworten ausspuckt.

Ebenfalls denkbar ist es, dass die Manipulation das Ziel hat, geschützte Daten aus dem LLM zu extrahieren. Das ist immer dann möglich, wenn das Unternehmen ein LLM gezielt für die Arbeit in einem Bereich trainiert hat und dementsprechend auch viele interne Daten verarbeitet wurden. Das Risiko, dass ein LLM so geschickt angegriffen wird, dass es sensible Daten ausgibt, besteht dann dauerhaft.

Am Ende wären da natürlich auch noch die klassischen Angriffspunkte. Gelangt ein Angreifer per Hack an das LLM, könnte er es ganzheitlich kontrollieren, für persönliche Zwecke entfremden oder gar Daten konkret und dauerhaft ableiten und versenden.

Pentesting von LLMs bei der AWARE7 GmbH

Auch wir bei der AWARE7 GmbH haben sehr früh den Nutzen von Large Language Models erkannt. Es gibt inzwischen sogar erfolgreiche Versuche, bei denen Sprachmodelle aktiv beim Pentesting helfen und den Pentester auf diese Weise unterstützen können. Dennoch bleibt das Pentesting selbst nach wie vor ein händischer Eingriff und diese manuelle Testweise spielt gerade bei einem Pentest in Bezug auf Large Language Models auch eine entscheidende Rolle.

Da wir früh mit LLMs experimentiert haben, kennen wir die Schwachstellen inzwischen ganz genau und haben uns bereits mit einigen Experten auf den Bereich des LLMs Pentestings spezialisiert. Mit regelmäßigen Pentets prüfen wir daher die gängigen Problemstellen und Angriffspunkte, halten dabei aber auch stets nach neuen Schnittstellen Ausschau.

Dabei hilft auch die OWASP Top 10 für LLMs, die Risiken von LLM-Sprachmodellen umfasst. Dort sind wir im Übrigen auch Contributor, also mitwirkend, und tragen beständig etwas zum Projekt bei. Das Thema der LLM Pentests war uns von Anfang an wichtig und umso wertvoller empfinden wir es, dass es nun auch allgemein als entsprechend bedeutsam wahrgenommen wird. KI wird uns im Unternehmensalltag zunehmend begegnen, doch ohne ausgeklügelte Pentests, kann unternehmensintern nicht sichergestellt werden, dass ein Einsatz von LLMs keine neuen Schwachstellen offenbart.

Was ist ein Large Language Model?

Wie funktioniert ein LLM in der Praxis?

Wieso kann ein LLM ein Sicherheitsrisiko darstellen?

Warum sind LLM Pentests notwendig und sinnvoll?

Was sind die typischen Sicherheitslücken eines LLMs?

Pentesting von LLMs bei der AWARE7 GmbH

KONTO

UNTERNEHMEN

WEITERBILDUNG

AWARENESS

RESSOURCEN

OFFENSIVE SERVICES

KONTAKT

BERATUNG

FORSCHUNG & ENTWICKLUNG