Neuronale Netze: Wie sie angegriffen werden und wie man sie verteidigt

Seite 2: Adversarial Training

Um neuronale Netze vor Angriffen zu schützen, wurden diverse Strategien entwickelt. Eine Möglichkeit ist Adversarial Training, das manipulierte Bilder im Training einbindet, um die Robustheit des neuronalen Netzes zu erhöhen. Ziel ist es, dass die Kosten für Angriffe möglichst hoch sind und Menschen die Bildveränderungen deutlicher erkennen.

Für den Ansatz trainieren Data Scientists das neuronale Netz wie üblich mit Beispielen und passen dabei die Gewichte schrittweise an. Sie tauschen jedoch einige Beispiele durch manipulierte Bilder aus, die das System im Trainingsprozess laufend neu generiert, sodass immer das aktuelle Modell analysiert wird. Durch das Einbinden der manipulierten Trainingsdaten lernt das neuronale Netz aus seinen Schwachstellen und wird robuster.

Adversarial Training analysiert die Schwachstellen und härtet ein neuronales Netz, sodass im Laufe des Trainingsprozesses deutlich mehr Manipulation notwendig ist und der Angriff sichtbar wird (Abb. 3).

Die Auswirkung von Adversarial Training veranschaulicht Abbildung 3. In der ersten Spalte ist die Zielklasse gezeigt und in der zweiten das Originalbild. Ab der dritten Spalte sind manipulierte Bilder in den jeweiligen Trainingsepochen zu sehen. Die manipulierten Beispiele werden mit dem Ziel erzeugt, dass die Konfidenz für die Zielklasse über 80 Prozent liegt.

Zu Beginn ist das neuronale Netz mit manipulierten Bildern einfach angreifbar. Die Veränderungen sind für Menschen größtenteils nicht wahrnehmbar. Im Laufe des Prozesses nimmt der Aufwand zum Generieren manipulierter Bilder deutlich zu. Bei der Analyse der Entwicklung ist zu sehen, dass die Beispiele in der letzten Epoche sich in die Zielklasse transformiert haben (erste und zweite Zeile) oder visuelle Merkmale der Zielklasse hinzugefügt wurden (dritte und vierte Zeile). Insgesamt erfordern die Angriffe größere Bildmanipulationen, die für das menschliche Auge deutlicher erkennbar sind.

Daneben existieren weitere Verteidigungsmethoden. Unter anderem lassen sich Autoencoder nutzen, um das veränderte Bild vorab zu verarbeiten. Da die Manipulationen häufig im hochfrequenten Anteil stattfinden, lassen sich die Bilder durch einen Autoencoder glätten beziehungsweise entrauschen. Eine andere Option ist Gradient Masking: Viele Methoden basieren auf der Berechnung der Gradienten, und der Ansatz verfolgt die Strategie, die dazu gehörigen Informationen des Modells absichtlich zu verbergen, um Angreiferinnen und Angreifer zu verwirren. Ein letztes Beispiel ist das Erkennen manipulierter Bilder: Durch das Training auf normale und manipulierte Bilder erkennen Klassifikatoren, wenn ein Angriff stattfindet.

Wie in vielen Szenarien handelt es sich um ein Katz-und-Maus-Spiel: Auf neue Angriffsmethoden folgen Methoden zur Verteidigung der Angriffe, denen wiederum neue Attacken folgen. Die Forschung entwickelt derzeit aktiv neue Methoden zum Angreifen und Verteidigen neuronaler Netze. Dazu gehört das Verbessern der Übertragbarkeit von Mustern oder self-supervised Training eines Netzes zum Entfernen von Manipulationen.

Schwierige Verteidigung

Dass die Verteidigung nicht einfach ist, liegt in der Komplexität der Systeme begründet. Neuronale Netze werden auf Datensätzen mit Tausenden oder Millionen von Bildern trainiert. Im Vergleich zu der Anzahl aller möglichen Eingaben deckt der Trainingsdatensatz allerdings nur einen kleinen Teil ab. Im hochdimensionalen Raum können kleine Veränderungen an jedem einzelnen Pixel eine große Auswirkung während der Propagierung durch das neuronale Netz haben. Das hat zu Folge, dass es einfach ist, hier ein Beispiel zu erzeugen, das das neuronale Netz noch nie zuvor gesehen hat und das nicht durch die Trainingsdaten abgedeckt ist.

Die Anforderungen an ein neuronales Netz sind hoch: Es soll für jede Eingabe eine passende Antwort geben. Alternativ soll das neuronale Netz eine Konfidenz zurückgeben, die zeigt, mit welcher Sicherheit es eine Entscheidung getroffen hat. Für eine Vorlage, die außerhalb der Verteilung der Trainingsdaten liegt, soll das neuronale Netz eine geringe Konfidenz vorhersagen.