Neuronale Netze: Wie sie angegriffen werden und wie man sie verteidigt
Seite 2: Adversarial Training
Um neuronale Netze vor Angriffen zu schützen, wurden diverse Strategien entwickelt. Eine Möglichkeit ist Adversarial Training, das manipulierte Bilder im Training einbindet, um die Robustheit des neuronalen Netzes zu erhöhen. Ziel ist es, dass die Kosten für Angriffe möglichst hoch sind und Menschen die Bildveränderungen deutlicher erkennen.
FĂĽr den Ansatz trainieren Data Scientists das neuronale Netz wie ĂĽblich mit Beispielen und passen dabei die Gewichte schrittweise an. Sie tauschen jedoch einige Beispiele durch manipulierte Bilder aus, die das System im Trainingsprozess laufend neu generiert, sodass immer das aktuelle Modell analysiert wird. Durch das Einbinden der manipulierten Trainingsdaten lernt das neuronale Netz aus seinen Schwachstellen und wird robuster.
Die Auswirkung von Adversarial Training veranschaulicht Abbildung 3. In der ersten Spalte ist die Zielklasse gezeigt und in der zweiten das Originalbild. Ab der dritten Spalte sind manipulierte Bilder in den jeweiligen Trainingsepochen zu sehen. Die manipulierten Beispiele werden mit dem Ziel erzeugt, dass die Konfidenz fĂĽr die Zielklasse ĂĽber 80 Prozent liegt.
Zu Beginn ist das neuronale Netz mit manipulierten Bildern einfach angreifbar. Die Veränderungen sind für Menschen größtenteils nicht wahrnehmbar. Im Laufe des Prozesses nimmt der Aufwand zum Generieren manipulierter Bilder deutlich zu. Bei der Analyse der Entwicklung ist zu sehen, dass die Beispiele in der letzten Epoche sich in die Zielklasse transformiert haben (erste und zweite Zeile) oder visuelle Merkmale der Zielklasse hinzugefügt wurden (dritte und vierte Zeile). Insgesamt erfordern die Angriffe größere Bildmanipulationen, die für das menschliche Auge deutlicher erkennbar sind.
Daneben existieren weitere Verteidigungsmethoden. Unter anderem lassen sich Autoencoder nutzen, um das veränderte Bild vorab zu verarbeiten. Da die Manipulationen häufig im hochfrequenten Anteil stattfinden, lassen sich die Bilder durch einen Autoencoder glätten beziehungsweise entrauschen. Eine andere Option ist Gradient Masking: Viele Methoden basieren auf der Berechnung der Gradienten, und der Ansatz verfolgt die Strategie, die dazu gehörigen Informationen des Modells absichtlich zu verbergen, um Angreiferinnen und Angreifer zu verwirren. Ein letztes Beispiel ist das Erkennen manipulierter Bilder: Durch das Training auf normale und manipulierte Bilder erkennen Klassifikatoren, wenn ein Angriff stattfindet.
Wie in vielen Szenarien handelt es sich um ein Katz-und-Maus-Spiel: Auf neue Angriffsmethoden folgen Methoden zur Verteidigung der Angriffe, denen wiederum neue Attacken folgen. Die Forschung entwickelt derzeit aktiv neue Methoden zum Angreifen und Verteidigen neuronaler Netze. Dazu gehört das Verbessern der Übertragbarkeit von Mustern oder self-supervised Training eines Netzes zum Entfernen von Manipulationen.
Schwierige Verteidigung
Dass die Verteidigung nicht einfach ist, liegt in der Komplexität der Systeme begründet. Neuronale Netze werden auf Datensätzen mit Tausenden oder Millionen von Bildern trainiert. Im Vergleich zu der Anzahl aller möglichen Eingaben deckt der Trainingsdatensatz allerdings nur einen kleinen Teil ab. Im hochdimensionalen Raum können kleine Veränderungen an jedem einzelnen Pixel eine große Auswirkung während der Propagierung durch das neuronale Netz haben. Das hat zu Folge, dass es einfach ist, hier ein Beispiel zu erzeugen, das das neuronale Netz noch nie zuvor gesehen hat und das nicht durch die Trainingsdaten abgedeckt ist.
Die Anforderungen an ein neuronales Netz sind hoch: Es soll fĂĽr jede Eingabe eine passende Antwort geben. Alternativ soll das neuronale Netz eine Konfidenz zurĂĽckgeben, die zeigt, mit welcher Sicherheit es eine Entscheidung getroffen hat. FĂĽr eine Vorlage, die auĂźerhalb der Verteilung der Trainingsdaten liegt, soll das neuronale Netz eine geringe Konfidenz vorhersagen.