Braunschweiger Forscher wollen Fotofälscher stoppen

Braunschweig. Forscher der TU Braunschweig entwickeln eine Methode, die das Hacken von Bildern verhindert, mit denen Künstliche Intelligenzen lernen.

Ob Röntgenbilder auszuwerten oder ein Stopp- von einem Vorfahrtsschild zu unterscheiden: Systeme, die durch künstliche Intelligenz lernen, können immer mehr. Doch im Lernprozess gab es eine gravierende Sicherheitslücke. Im Interview spricht Professor Konrad Rieck, Leiter des Instituts für Systemsicherheit an der TU Braunschweig, darüber, wie er und sein Team sie geschlossen haben, wie künstliche Intelligenzen lernen und warum Ethik auch in der IT eine Rolle spielt.

„Was gehen mich Bildmanipulationen bei künstlicher Intelligenz an“, wird so manch einer denken. Wieso ist das Thema aber für uns alle relevant?

Künstliche Intelligenz reicht immer weiter in unser Leben. Wir forschen an autonomen Fahrzeugen, wir haben sprechende Assistenten wie Cortana oder Alexa. Auch in der Medizin wird künstliche Intelligenz genutzt: In Zukunft wird sie Diagnosen stellen können. Ich glaube, dass wir in den nächsten zehn Jahren sehr viel mit künstlicher Intelligenz zu tun haben werden. Also alle, nicht nur die Forscher.

Bildmanipulationen kennt man sonst aus Hochglanzzeitschriften oder sozialen Netzwerken. Was haben sie mit künstlicher Intelligenz zu tun?

In fast jedem von diesen Systemen spielen Bilder eine große Rolle. Ein autonomes Fahrzeug muss sehen, wie es fährt, ein medizinisches Diagnosesystem muss Bilder verarbeiten, Röntgenbilder zum Beispiel, eine Gesichtserkennungs-Software Fotos von Gesichtern. In fast allen diesen Systemen ist die Skalierung, das Runterrechnen von Fotos, ein wichtiger Arbeitsschritt. Diesen Schritt haben wir untersucht und erstaunlicherweise festgestellt, dass er in ganz vielen Systemen unsicher ist.

Wieso müssen die Bilder denn skaliert werden?

Das liegt daran, dass Fotos in der Praxis die unterschiedlichsten Größen und Formate haben. Die neuronalen Netze, die in diesen Systemen eingesetzt werden und quasi die künstliche Intelligenz bilden, haben meistens eine feste Eingabegröße.

Für die Vergleichbarkeit?

Um überhaupt zu lernen. Es gibt Ausnahmen, aber die meisten Systeme können nicht lernen, wenn die Eingaben nicht genau gleich groß sind. Deshalb müssen alle Bilder am Anfang auf die gleiche Größe gebracht werden. Die neuronalen Netze sind momentan außerdem noch nicht stark genug, um Bilder zu verarbeiten, wie wir sie mit dem Smartphone knipsen. Sie können nicht mal einen Megapixel an Daten verarbeiten – und welche Kamera hat heute schon nur noch einen Megapixel?

Und warum kriegen nicht beide, künstliche Intelligenz und Mensch, der mit ihr lernt, das verkleinerte Bild zu sehen?

Ja, das könnte man machen. Da gibt es dann aber ein anderes Problem: Wie gesagt, die Bilder sind relativ klein. Der Mensch ist nicht so gut darin, in so kleinen Bildern etwas zu sehen.

Ah, das verstehe ich.

Und Sie haben noch ein anderes Problem. Soll das neuronale Netz beispielsweise Straßenschilder lernen, braucht man Beispiel-Fotos, sagen wir, eine Million. Und jetzt finden Sie mal einen Menschen, der eine Millionen Straßenschilder durchguckt (lacht). Den wird es nicht geben. Man guckt da stichprobenartig rein. Irgendwann sagen Sie: Jetzt habe ich genug gesehen und übergeben an den Lern-Algorithmus.

Wie muss ich mir den Aufbau eines digitalen Bildes eigentlich vorstellen?

So ein Bild besteht aus Pixeln. Das sind einzelne Punkte. Jeder dieser Punkte hat eine Farbe. Bilder bestehen also aus einem ganz feinen Raster von diesen Punkten. Je kleiner das Bild, desto grober das Raster.

Auf Ihrer Webseite zeigen Sie Beispielbilder – der Mensch sieht eine Katze mit etwas Rauschen im Bild, die künstliche Intelligenz einen Hund. Wie geht das?

Das hängt mit dem Verkleinern zusammen. Es gibt da verschiedene Möglichkeiten, wie man das macht: schlau und doof (lacht). Doof ist leider schnell und niemand hatte daran gedacht, dass die Verkleinerungsmethode nicht sicher sein könnte. Wenn Sie ein Bild um den Faktor zehn verkleinern wollen, dann ist das einfachste, dass sie von zehn Pixeln neun wegschmeißen. Und dann haben Sie schon ein verkleinertes Bild. Aber: Wenn der Angreifer das weiß, kann er herausfinden, welches der zehn Pixel behalten wird. Jetzt ändert er nur jedes zehnte Pixel und macht da Bildpunkte für den Hund rein. Die anderen neun Pixel bleiben gleich. Im Bild ist nun ein feines Rauschen alle zehn Pixel, das fällt uns Menschen kaum auf. Im Prinzip ist auch das Hundebild zu sehen, aber es besteht aus so feinen Pünktchen, unser Gehirn sagt dann: Das ist nicht so wichtig. Wichtig sind die neun Pixel drumherum und dann sehen Sie die Katze. Und die künstliche Intelligenz sieht nur jedes zehnte Pixel, eben das verkleinerte Bild, und damit den Hund.

Wieso hat denn niemand auf dem Schirm gehabt, dass diese Methode nicht sicher sein könnte?

Diese Art des Angriffs ist ganz neu. Den haben chinesische Forscher vor einem Jahr vorgestellt. Wir mit unserem Team an der TU Braunschweig haben das als Allererste analysiert.

Wie hilft Ihre Methode gegen solche Angriffe?

Wir erzwingen, dass in dem einen Pixel, der erhalten bleibt, auch
Informationen von den neun anderen Pixeln reinkommen. Wenn das eine Pixel grün sein soll, weil der
Angreifer es grün haben will, und der Rest ist rot, dann würden wir quasi die neun Mal rot aus der Umgebung in dieses Pixel reinschreiben und dann wäre das im Endeffekt auch rot.

Kommen wir noch einmal auf Ihr Verkehrsschilder-Beispiel zurück: Inwieweit können mit manipulierten Bildern trainierte KI darüber hinaus gefährlich für den Menschen sein?

Bei der Gesichtserkennung kann das noch eine Rolle spielen. Es könnte jemand ein Foto einreichen bei einer Behörde, und wenn es verkleinert wird, ist jemand anderes auf dem Bild zu sehen. Das Beispiel zeigt übrigens, wie schwierig es ist, zu beurteilen, ob ein Angriff gut oder böse ist. In diesem Fall wäre er böse, wenn Sie ein Verbrecher sind und nicht erkannt werden. Er wäre aber vielleicht gut, wenn Sie von Ihrem Land nicht überwacht werden wollen.

Sie haben ein Jahr an ihrer Methode gearbeitet – haben Sie sich da auch solche moralischen Fragen gestellt?

Was für uns eher eine Rolle spielt, ist Ethik, und die ist von Land zu Land unterschiedlich. Ein Angriff kann gleichzeitig eine Verteidigung sein. Zum Beispiel, indem man sich vor etwas schützt, indem man unsichtbar bleibt.

Was wäre ein gutes Beispiel?

Das Abhören von Telefonen. Natürlich ist es ein Angriff, wenn man jemanden belauscht. Gleichzeitig können aber auch Verbrechen aufgedeckt werden, wenn die Polizei Telefone abhört. Angriffe und Verteidigungen muss man daher immer auch aus dem Blickwinkel der Ethik betrachten