KI-Modelle sind nur so gut wie die Daten, die in sie einfließen. Das macht diese Daten zu einem potenziellen Ziel für Angriffe.

Fortschritte in der künstlichen Intelligenz haben einen erheblichen Einfluss auf verschiedene Bereiche gehabt. Dies hat einer ganzen Reihe von Technikbegeisterten Anlass zur Sorge gegeben. Da diese Technologien in verschiedene Anwendungen expandieren, können sie zu einer Zunahme von gegnerischen Angriffen führen.

Was sind gegnerische Angriffe in der künstlichen Intelligenz?

Gegnerische Angriffe nutzen Spezifikationen und Schwachstellen in KI-Modellen aus. Sie verfälschen die Daten, aus denen KI-Modelle gelernt haben, und führen dazu, dass diese Modelle ungenaue Ergebnisse erzeugen.

Stellen Sie sich vor, ein Witzbold ändert Scrabble-Kacheln, die als Ananas angeordnet sind, in „Applepine“. Dies ist ähnlich wie bei gegnerischen Angriffen.

Vor ein paar Jahren war es die Norm, ein paar falsche Antworten oder Ausgaben von einem KI-Modell zu erhalten. Das Gegenteil ist jetzt der Fall, da Ungenauigkeiten zur Ausnahme geworden sind und KI-Anwender nahezu perfekte Ergebnisse erwarten.

instagram viewer

Wenn diese KI-Modelle auf reale Szenarien angewendet werden, können Ungenauigkeiten fatal sein und gegnerische Angriffe sehr gefährlich machen. Beispielsweise können Aufkleber auf Verkehrsschildern ein autonomes selbstfahrendes Auto verwirren und dazu führen, dass es in den Verkehr oder direkt auf ein Hindernis gerät.

Arten von gegnerischen Angriffen

Es gibt verschiedene Formen von gegnerischen Angriffen. Mit dem zunehmende Integration von KI in alltägliche Anwendungen, werden diese Angriffe wahrscheinlich schlimmer und komplexer.

Dennoch können wir gegnerische Angriffe grob in zwei Arten einteilen, je nachdem, wie viel der Bedrohungsakteur über das KI-Modell weiß.

1. White-Box-Angriffe

In White-Box-Angriffehaben Bedrohungsakteure vollständige Kenntnisse über die inneren Abläufe des KI-Modells. Sie kennen seine Spezifikationen, Trainingsdaten, Verarbeitungstechniken und Parameter. Dieses Wissen ermöglicht es ihnen, einen gegnerischen Angriff speziell für das Modell zu erstellen.

Der erste Schritt bei einem White-Box-Angriff besteht darin, die ursprünglichen Trainingsdaten zu ändern und sie so wenig wie möglich zu beschädigen. Die modifizierten Daten sind dem Original immer noch sehr ähnlich, aber signifikant genug, um zu bewirken, dass das KI-Modell ungenaue Ergebnisse liefert.

Das ist nicht alles. Nach dem Angriff bewertet der Bedrohungsakteur die Effektivität des Modells, indem er es mit gegnerischen Beispielen füttert –verzerrte Eingaben, die das Modell dazu bringen sollen, Fehler zu machen– und analysiert die Ausgabe. Je ungenauer das Ergebnis, desto erfolgreicher der Angriff.

2. Blackbox-Angriffe

Anders als bei White-Box-Angriffen, bei denen der Bedrohungsakteur das Innenleben des KI-Modells kennt, werden die Täter von Blackbox-Angriffe Keine Ahnung wie das Modell funktioniert. Sie beobachten das Modell einfach aus einem blinden Fleck und überwachen seine Eingangs- und Ausgangswerte.

Der erste Schritt bei einem Black-Box-Angriff besteht darin, das Eingabeziel auszuwählen, das das KI-Modell klassifizieren möchte. Der Bedrohungsakteur erstellt dann eine bösartige Version der Eingabe, indem er sorgfältig gestaltetes Rauschen hinzufügt, Störungen der Daten, die für das menschliche Auge unsichtbar sind, aber das KI-Modell dazu veranlassen können Defekt.

Die bösartige Version wird in das Modell eingespeist, und die Ausgabe wird beobachtet. Die vom Modell gelieferten Ergebnisse helfen dem Bedrohungsakteur, die Version so lange zu ändern, bis er sicher genug ist, dass es alle darin eingespeisten Daten falsch klassifizieren würde.

Techniken, die bei gegnerischen Angriffen verwendet werden

Böswillige Einheiten können verschiedene Techniken verwenden, um gegnerische Angriffe auszuführen. Hier sind einige dieser Techniken.

1. Vergiftung

Angreifer können einen kleinen Teil der Eingabedaten eines KI-Modells manipulieren (vergiften), um dessen Trainingsdatensätze und Genauigkeit zu gefährden.

Es gibt mehrere Formen der Vergiftung. Eine der häufigsten wird als Backdoor Poisoning bezeichnet, bei der nur sehr wenige Trainingsdaten betroffen sind. Das KI-Modell liefert weiterhin hochgenaue Ergebnisse, bis es „aktiviert“ wird, um bei Kontakt mit bestimmten Auslösern zu versagen.

2. Ausweichen

Diese Technik ist ziemlich tödlich, da sie eine Entdeckung vermeidet, indem sie das Sicherheitssystem der KI verfolgt.

Die meisten KI-Modelle sind mit Anomalieerkennungssystemen ausgestattet. Ausweichtechniken nutzen kontradiktorische Beispiele, die diese Systeme direkt verfolgen.

Diese Technik kann besonders gefährlich für klinische Systeme wie autonome Autos oder medizinische Diagnosemodelle sein. Dies sind Bereiche, in denen Ungenauigkeiten schwerwiegende Folgen haben können.

3. Übertragbarkeit

Bedrohungsakteure, die diese Technik verwenden, benötigen keine Vorkenntnisse über die Parameter des KI-Modells. Sie verwenden gegnerische Angriffe, die in der Vergangenheit gegen andere Versionen des Modells erfolgreich waren.

Wenn beispielsweise ein gegnerischer Angriff dazu führt, dass ein Bildklassifizierermodell eine Schildkröte mit einem Gewehr verwechselt, könnte der genaue Angriff dazu führen, dass andere Bildklassifizierermodelle denselben Fehler machen. Die anderen Modelle könnten auf einem anderen Datensatz trainiert worden sein und sogar eine andere Architektur haben, könnten aber dennoch Opfer des Angriffs werden.

4. Leihmutterschaft

Anstatt die Sicherheitssysteme des Modells mit Umgehungstechniken oder zuvor erfolgreichen Angriffen zu verfolgen, könnte der Bedrohungsakteur ein Ersatzmodell verwenden.

Bei dieser Technik erstellt der Angreifer eine identische Version des Zielmodells, ein Ersatzmodell. Die Ergebnisse, Parameter und Verhaltensweisen eines Ersatzmodells müssen mit dem kopierten Originalmodell identisch sein.

Das Surrogat wird nun verschiedenen feindlichen Angriffen ausgesetzt, bis einer dazu führt, dass es ein ungenaues Ergebnis liefert oder eine Fehlklassifizierung durchführt. Dann wird dieser Angriff auf die ursprüngliche Ziel-KI angewendet.

So stoppen Sie gegnerische Angriffe

Die Verteidigung gegen gegnerische Angriffe kann komplex und zeitaufwändig sein, da Bedrohungsakteure verschiedene Formen und Techniken einsetzen. Die folgenden Schritte können jedoch gegnerische Angriffe verhindern und stoppen.

1. Gegnerisches Training

Die effektivste Maßnahme, um gegnerische Angriffe zu verhindern, ist das gegnerische Training, das Training von KI-Modellen und -Maschinen anhand von gegnerischen Beispielen. Dies verbessert die Robustheit des Modells und ermöglicht es ihm, gegenüber den geringsten Eingabestörungen widerstandsfähig zu sein.

2. Regelmäßige Auditierung

Das Anomalieerkennungssystem eines KI-Modells muss regelmäßig auf Schwachstellen überprüft werden. Dazu gehört, das Modell bewusst mit gegnerischen Beispielen zu füttern und das Verhalten des Modells auf böswillige Eingaben zu überwachen.

3. Datenbereinigung

Bei dieser Methode wird geprüft, ob schädliche Eingaben in das Modell eingespeist werden. Nach der Identifizierung müssen sie sofort entfernt werden.

Diese Daten können mithilfe der Eingabevalidierung identifiziert werden, bei der die Daten auf Muster oder Signaturen von zuvor bekannten gegnerischen Beispielen überprüft werden.

4. Sicherheitsupdates

Es wäre schwierig, mit Sicherheitsupdates und Patches etwas falsch zu machen. Mehrschichtige Sicherheit wie Firewalls, Anti-Malware-Programme und Systeme zur Erkennung und Verhinderung von Eindringlingen kann dazu beitragen, externe Eingriffe von Bedrohungsakteuren zu blockieren, die ein KI-Modell vergiften wollen.

Gegnerische Angriffe könnten ein würdiger Gegner sein

Das Konzept der gegnerischen Angriffe stellt ein Problem für fortgeschrittenes Lernen und maschinelles Lernen dar.

Infolgedessen müssen KI-Modelle mit Abwehrmaßnahmen wie gegnerischem Training, regelmäßiger Prüfung, Datenbereinigung und relevanten Sicherheitsupdates ausgestattet werden.