 Gut, dann einen wunderschönen guten Abend. Schön, dass ihr alle hier seid. Ich bin Nanna und das ist Benjamin und wir wollen euch heute was über KI erzählen. Einmal vorab, wir werden am Ende nochmal die Chance für Fragen geben. Da könnt ihr gerne nach Belieben irgendwelche Sachen einbringen. Wenn es konkrete Rückfragen zu irgendwas gibt, was wir sagen könntet, das gerne auch schon währenddessen tun. Wenn das mehr so Big Picture-Fragen sind, wäre das am Ende schön, damit wir irgendwie mit der Zeit hin kommen. Grundsätzlich seht ihr da auch Kontaktadressen, hauptsächlich Twitter-Hände. Und wenn irgendwas ist, könnt ihr uns natürlich jederzeit kontaktieren. Und damit würde ich sagen, legen wir los. Sehr gerne. Gut, entschuldigung schon mal für die schlechten Wortspiele, das kann ich nicht anders. Genau, bevor wir euch was erzählen können über KI, geht es erst mal darum, dass wir uns hier alle ein bisschen auf den gleichen Stand bringen und überlegen, was ist KI, was bedeutet KI, sondern in dem Fall. Beschäftigung ist vor allem mit maschinellem Lernen, Deep Learning. Ich werde euch mal ganz kurz erklären, was das ist für alle Leute, die es noch nicht wissen, für den Rest kleine Auffrische. Die Grundidee ist im Gegensatz zur klassischen Programmierung, wo ich weiß, okay, ich habe meine Daten, ich habe ein Programm und dann gucke ich, was am Ende rauskommt oder ich schreibe das Programm so, dass das rauskommt, was ich haben will. Habe ich hier den Fall, ich habe Daten und zwar Eingabendaten und Ausgabendaten. Weiß aber nicht, was dazwischen steckt. Ich kenne kein echtes Programm davon. Und das versuche ich jetzt zu lernen aus den Daten, die ich vorliegen habe. Und damit... Wollen wir klicken? Genau. Fangen wir mal jetzt hinten an, nämlich was wollen wir damit erreichen, was für Ausgaben haben wir. Da kann es zum Beispiel sein, im einfachsten Fall wollen wir einfach eine binäre Entscheidung treffen, eine Klassifikationsaufgabe, wir haben uns irgendwelche Eingabendaten, wollen dann irgendwie entscheiden, ist was wahr, ist was falsch, zum Beispiel ist auf dem Foto, was ich hier gerade habe, ein Stachschwein. Nächste Stufe, ein bisschen komplizierter ist, ich will vielleicht numerische Werte vorhersagen, zum Beispiel Sicherheiten, mit denen ich jetzt bestimmte Entscheidungen treffe oder auch, wenn wir jetzt klassische Fallen, wo man schon am meisten vermutlich macht mit... Man nimmt Daten und guckt, was am Ende rauskommt und versucht daraus, was vorher zu sagen, ist die Wettervorhersage. Ich gucke mir an, welche Fälle gab es früher, wie war das Wetter in ähnlichen Situationen, wie warm wurde es dann zum Beispiel am nächsten Tag und dann gebe ich sage ich das voraus. Man kann man auch viel mehr machen mit Maschinen im Lernen, man kann zum Beispiel ganze Texte generieren. Es gibt da zum Beispiel diesen Harry Potter Kapitel, das erstaunlich gut geschrieben ist. Und auch übrigens sehr, sehr lustig. Und das Interessante daran ist vor allem, es gibt diese ganzen Posts im Internet, die immer sagen, boah, wir haben einem Bot, diese ganzen Folgen von, ich weiß nicht, NavyCIS gezeigt. Und jetzt haben wir ihn selber ein Skript schreiben lassen, das ist total lustig, guckt euch das an. Und das Ding ist, dass die meisten von einfach völliger Bullshit sind und von Menschen geschrieben wurden, weil es halt lustig ist. Dieses Ding ist tatsächlich quasi von der Tastatur vorhersage, Software geschrieben worden. Und es ist, wenn man sich nichts zu ernst nimmt und Harry Potter ein bisschen kennt, tatsächlich sehr lustig. Also wer Lust hat, kann sich Harry Potter in the Portrait of what looked like a large pile of ash gerne mal durchlesen. Das sind nur drei Seiten. Gut, Texte können wir generieren und wir können auch Bilder und ganze Videos generieren. Dazu kommen wir am Ende noch ganz besonders bekannt, so vielleicht Deepfakes, haben wir schon mal gehört. Wie gesagt, gehen wir später noch mal drauf ein. Und prinzipiell kann ich auch jedes andere Datenformat oder jede andere Repräsentation, jedes andere Digitale etwas, was es gibt, versuchen aus irgendetwas anderem zu generieren, aus irgendetwas anderen Daten zu lernen und den Computer das von alleine bauen zu lassen. Jetzt habe ich die Ausgabe uns angeguckt. Jetzt gibt es die Eingabe, das ist der zweite Teil. Auch da kann ich im Prinzip wieder alles Mögliche nehmen, was es so gibt. Zum Beispiel Bilder, zum Beispiel Texte, strukturierte Daten, wie es eben hatte mit den Wetterdaten, wie warm war es, wie viel Regenwahrscheinlichkeit, wie viel Prozent des Himmels waren von Wolken bedeckt und alle möglichen Informationen mehr. Und dann muss sich diese Eingabendaten noch in irgendeiner Form für den Computer nutzbar machen. Das passiert meistens dadurch, dass ich ein Vektor daraus repräsentiere. Ja, ja. Bei Bildern ist das wieder relativ simpel, denn Bilder sind im Prinzip schon lange Vektoren. Aus jedes Pixel ist ein Helligkeitswert. Das ist ein Tupel oder Triple von Farbwerten potenziell wieder. Das heißt im Prinzip sind das schon Zahlenketten, die ich hintereinander stelle. Die kann ich jetzt einfach aufschreiben und eventuell so nutzen. Oder je nach meinem Anwendungszweck will ich vielleicht erst mal eine Kantenerkennung drauf lassen oder das Bild in bestimmte Ausschnitte aufteilen und dann drauf lassen lassen. Das sind Details, die für bestimmte Anwendungszwecke vielleicht wichtig sind, aber das Grundprinzip ist, wie immer, Vektor daraus machen und dann gucken, was ich damit anstellen kann. Bei Text ist das ein bisschen schwieriger, weil der Computer nicht so gut auf Buchstaben rechnen kann und nur die ASCII-Werte zu nehmen sorgt meistens für Müll. Jetzt könnte ich zum Beispiel sagen, okay, ich teile das Ganze in sinnvolle Abschnitte auf, zum Beispiel einzelne Worte, zum Beispiel ganze Sätze, vielleicht sogar die einzelnen Zeichen. Dann gibt es Möglichkeit, das wieder als Vektor darzustellen, indem ich einfach einen Wörterbuch nehme und den Vektor sage, okay, worden hot codiert. Jedes Wort entspricht einem Vektor mit einem 1 1 drin und kombiniere ich die ganzen und alle Worte, die drin vorkommen, sind dann in dem Eingabendaten-Vektor. Das geht natürlich deutlich advance. Dann spricht man in dem Bereich von dem Fachbegriff in so genannten Embeddings. Da versucht man auch wieder mit maschinellem Lernen ausdaten und zum Beispiel Kontextinformationen. So dieses Wort steht häufig neben diesen zwei anderen Wörtern, eine Repräsentation zu lernen, die irgendwie sinnhaft ist, die eben irgendwie klar macht, dass Haus was anderes ist als Tomate, nicht nur, weil die Buchstaben anders sind, sondern auch, weil es eine andere Bedeutung hat. Jo, strukturierte Daten haben den Vorteil, sie sind bereits Vektoren. Trotzdem müssen wir da geübenfalls wieder anpassen, weil was in den einzelnen Feldern der strukturierten Daten sind, könnten jetzt auch wieder zahlwerte aus einem beliebigen, großen Bereich sein, dann muss ich die irgendwie normalisieren oder es könnten wieder Texteinträge sein, dann muss ich die Tricks von eben anwenden und so weiter. Gut. Wie dem auch sei, am Ende von allem habe ich hoffentlich ein Vektor, den ich jetzt in mein System reinschmeißen kann. Jetzt muss ich noch überlegen, was er mache ich damit. Und da ist das System relativ simpel. Es sagt einfach, okay, ich gucke mir jetzt ganz oft Daten an, vergleiche die Sachen, die reinkommen, werfe darauf Rechnungen und versuche vorher zu sagen, wie sieht das Ergebnis aus am Ende. Also mache ich mit dem ersten Datenset, vielleicht ist das in dem Fall, ist egal, es ist zum Beispiel ein positives Beispiel bei einem Klassifikationstask, das mache ich mit dem zweiten Beispiel. Und manchmal funktioniert meine Berechnung und sagt den richtigen Wert voraus, manchmal tut sie das nicht. Und je nachdem, wie sie das tat, nehme ich jetzt meine Eingabe-Daten, die ich in irgendeiner Form kombiniert habe, modifiziere jetzt, wie ich die in diese Berechnung, das ist im Prinzip eine lange Form, einfach eine Summe und dann macht meine Schwellwärtsberechnung in den meisten Fällen drauf, wie ich die habt eingehen lassen, Gewichte manche, Dinge stärker, manche schlechter. Und dann fange ich wieder von vorne an, solange bis durch das immer wieder klein bisschen anpassen von den Gewichten, ich eine gute Formel gelernt habe, die meine Entscheidung treffen kann. Und entsprechend kann man sich vorstellen, das geht jetzt ganz gut, wenn ich nur ein paar Eingabe-Werte habe und eine Zahl am Ende oder sowas voraussagen will. Und wenn ich jetzt kompliziertere Daten habe, dann nehme ich einfach das ganze Ding und baue mehrere Schichten davon hintereinander, dann wird die ganze Berechnung ein bisschen komplizierter, man braucht viel mehr GPUs, aber prinzipiell geht das so weiter. Und dann kommt der Part, den ich persönlich am maschinenellen Lernen am hässlichsten finde. Jetzt geht es darum, wer hat am meisten Rechenpower, wer hat die meisten GPUs vom Markt gekauft, die nicht die Blockchain in Leutern haben. Und dann bringt man die zum Glühnen, lässt alle möglichen Kombinationen von Schichten, von wie verbinde ich die, welche Aktivierungsformen, also welche Schwellwärtsfunktionen benutze ich und so weiter laufen lassen, bis man irgendwann eine Sammlung von Parametern gefunden hat, die für den aktuellen Fall, mit den aktuellen Daten, mit denen man testet, gut funktioniert. Dann schreibt man das Ganze, wenn man in wissenschaftlichen Bereichen ist, in den Paper, freut sich, wenn man nur wie 2 % Punkte oder 0,2 % Punkte besser ist als das bisheriges und veröffentlicht das. Jo, das ist das tolle maschinelle Lernen, was so wunderbar gehypt wird. Tolle Sache. Die können schon ganz empfiehlt, diese Dinge. Ja, sie sind meistens relativ spezialisiert, üblicherweise können sie eine Aufgabe gut und den Rest nicht so sehr, aber insgesamt ja eigentlich eine tolle moderne Erfindung, die so viele Probleme löst. Naja, vielleicht löst sie sie auch nicht. Wir haben letztes Jahr beide zusammen enttog gehalten auf den MMMCD, in den es darum geht, was passiert, wenn der Computer sich eigentlich selbst heckt, wenn diese Dinge schieflaufen. Und eines dieser Beispiele haben wir jetzt auch wieder mitgebracht, weil nämlich die KI alles andere als unfehlbar ist. Wir haben ja also ein wunderschönes Bild, was in ein entsprechender Bilderkennungssoftware geschmissen wurde, eines State of the Art KI, die ganz tolle Dinge tut. Und jetzt sagen, dass wir hier eine tolle Vogelgruppe haben, die gerade in die Luft bliegt. Ich sehe das anders. Vielleicht sind es auch eher Ziegen, würde ich jetzt behaupten. Alternativ bietet Microsoft Azure an, dass wir hier eine Gruppe geraffen haben, die neben einem Baum stehen. Auch das könnte man jetzt eher bunt diskutieren. Ich bin dagegen. Das ist natürlich immer nicht der einzige Punkt, wo KI auch mal fehlschlägt, wo sie jetzt die Ergebnisse liefern, mit denen wir nicht gerechnet haben. Vor allem ist es aber ein relativ harmloser Punkt. Nicht mehr ganz so harmlos ist das, wenn diese KI-Systeme im Alltag eingesetzt werden, zum Beispiel bei der Strafverfolgung. In China gibt es solche Systeme, die zum Beispiel dazu gedacht sind, um zu erkennen, ob Leute im Verkehrsbetrieb Delikte begehen, sowas wie am Steuertelefonieren. Dieser junge Mann hat das nicht getan. Der hat sich im Kopf gekratzt und prompt den Strafzettel bekommen, weil die KI dieses Bild so gedeutet hat, als würde er sich gerade ein Handy ans Ohr halten. Man kann durchaus erkennen, wie es auf diese Idee kommt, wo diese Geste ähnlich ist. Tatsache ist aber, das Smartphone ist ganz schön unsichtbar. Es hat ziemlich lange gedauert, bis dieser Strafzettel als irgendültig erklärt wurde. Es hat tatsächlich ziemlich viel Druck in sozialen Medien gebraucht. Bis überhaupt anerkannt wurde, dass hier ein Problem vorliegt. Und dass dieser Herr diese Strafe nicht bezahlen muss. Dazu kommt natürlich auch, dass dieses Software, die da in China eingesetzt wird, eben flächendeckend eingesetzt wird, auf den Straßen in öffentlichen Räumen eingesetzt wird. Zum einen nicht nur zum Erkennen von Delikten eingesetzt wird, sondern zum Beispiel auch zur Drangsalierung von ethnischen Minderheiten. An sich schon eine Sache, die man durchaus sehr stark kritisieren kann. Dazu kommt danach, dass dieses Software von einem privaten Unternehmen betrieben wird, bei der ihm auch die gesamten Daten landen. Klasse Sache. Und diese KI tut in China noch was anderes. Die erkennt nämlich, ob jemand über eine rote Ampel geht. Und weil man dagegen ja was tun möchte, ist ja eine Straftat und ist ja gefährlich und so, haben sie sich entschlossen, diese Leute dann öffentlich bloßzustellen, indem sie auf eine riesige Leine und ähnlich wie beim Times Square projiziert werden, mit Namen. Wir haben ja also Gesichtserkennung und Public-Geschämt-Werden im Prinzip für dieses Vergehen. Davon kann man jetzt verschiedene Dinge halten. Ich persönlich finde es jetzt nicht ganz so geil, aber man kann ja sagen, diese Menschen haben ja schließlich eine Straftat begonnen. Ja, blöderweise haben sie das nicht immer. Diese KI kriegt es nämlich nicht hin zu unterscheiden, ob da tatsächlich ein Mensch über diese Straße läuft oder ob da vielleicht nur ein Bus vorbeifährt, auf dem ein Werbeplakat angebracht ist. Diese junge Frau, dieses Foto-Model, wurde also Public an die große Leinwand gestellt als Verkehrsverbrecherin, obwohl sie nicht mal vor Ort war, mit erkanntem Namen. Ich lass euch daraus eure eigene Schlüsse ziehen. Jetzt haben wir bisher Beispiele gezeigt, wo die KI einfach nicht unvielbar ist, wo sie Fehler gemacht hat, ohne dass irgendjemand großartig böse Absicht dahinter hatte. Natürlich ist es so, dass man auch absichtlich die Schwächen einer KI ausnutzen kann. Das ist das, was aktuell gerade in Hongkong passiert, wo absichtlich KI umgangen wird. Auch da geht es um Gesichtserkennung. Das ist die interessante Frage, ob wir das hinkriegen, das abzuspielen? Aber wir sehen das. Was wir hier sehen, ist, dass die entsprechenden Proteste relativ starke Laser einsetzen, um die Bilder, die von Kameras für die Überwachungskamera auch aufgezeichnet werden, unnutzbar zu machen. Sodass die Bilder so überbelichtet sind oder so gestört sind, dass darauf eben keine Gesichterkennung mehr stattfinden kann. Man sieht das auch ganz gut. Auch auf die Kamera wird da gerade was gelichtet. Der gesamte Linkenbereich ist effektiv unnutzbar. Dass sowohl Gesichterkennung als auch schon ziemlich niedrig aufgelösten Bildern funktioniert tatsächlich. Ich vermute mal, es gibt auf dieser Veranstaltung relativ viele Leute, die politisch so orientiert sind, dass sie das gut finden, wenn die Proteste da ungestört und unverfolgt stattfinden können. Das Problem ist natürlich, auf die Idee ist nicht nur die eine Seite gekommen, auf die Idee ist wie immer auch die andere Seite gekommen. Was also die Polizei macht, ist entsprechend stark ein Scheinwerfer von Laser einzusetzen, um die Journalisten unmöglich zu machen, Bilder und Videos vom Geschehen zu machen und verdecken damit, dass sie beispielsweise Tränengas oder Pfefferspray einsetzen. Jo, natürlich funktioniert das nicht immer. Wenn ich jetzt irgendwie immer eine Laser in die Kamera halte, dann fällt das auf. Ich will aber vielleicht auch irgendwie was Subtileres haben, mit dem ich verhindern kann, dass mich eine Gesichterkennung, eine Personenkennung erwischt. Kannst du auch die ruhig anschauen? Also zum Beispiel jetzt in Berlin-Sied-Kreuz gerade großflächig getestet wird. Also auch hier wird das uns ja in Kürze, wenn wir Pech haben, bevorstehen. Und in dem Fall reicht es, sich ein solches Motiv auszudrucken. Darauf sind, wie man sieht, irgendwie kleinere Personen zu erkennen. Das heißt, der Computer sieht, okay, da ist vielleicht was, was eine Person sein könnte. Aber da sind ja noch andere Personen drin und die Größen passen auch nicht. Und es passt alles nicht zusammen. Das ist wohl kein Mensch. Und damit gelingt es ihnen jetzt hier, die Personenerkennung auszutricksen. Zack, ist der andere keine Person mehr. Das funktioniert in dem Fall jetzt. Dieses Muster ist explizit dafür gebaut worden, um diese eine Gesichterkennung auszutricksen. Aber und darauf gehen wir jetzt gleich ein, so was funktioniert auch großflächiger, auch generell für sehr viele, bzw. quasi alle State of the Arts-Systeme aktuell, dass man dagegen Beispiele oder Dinge finden kann, die das System so weit stören, dass es nicht mehr das korrekte Ergebnis liefert. Es gibt dazu den Begriff der Adversarial Images, der ist schon vor einigen Jahren geprägt worden in einem Research-Projekt, was sich damit beschäftigt hat, wie man Bilder so verfälschen kann, dass Bilderkennung sie nicht mehr verwerten kann. Und es gab vor jetzt nicht so langer Zeit da noch einen größeren Durchbruch. Dann diese ganzen Ansätze haben das Problem. Sie beziehen sich auf 2D-Bilder. Nur weil ich das eine Bild störe, heißt es nicht, dass es bei einem etwas anderen Bild, bei einem Bild, wo ich das Objekt ein bisschen gedreht habe, ein bisschen vergrößert habe, das Bild zugeschnitten habe und so weiter, nicht mehr funktioniert hat. Außerdem waren die immer relativ speziell auf eine bestimmte KI zugeschnitten. Es gibt jetzt einen neuen Ansatz, der sich IoT nennt und bei dem das nicht mehr so ist. Wir haben hier also ein hübsches Bild, ein Foto, was diese ForscherInnen gemacht haben. Und ich weiß, dass mindestens eine Person aus dem Publikum sich schon sehr auf die Auflösung freut. Was sehen wir denn da? Ich reiße niemand im Kopf ab. Eine Schildkröte. Dankeschön. Eine Schildkröte. KI sieht das anders. KI sagt, das ist ein Gewehr. Mit sehr hoher Konfidenz. Die WIMA-Auflösung ist nicht der absolute Hammer. Darum sage ich es der rote Ball und sagt Rifle, also Gewehr. Der zweite sagt Shield, der dritte sagt Revolver. Ich sehe das auch eher so, dass nichts davon wirklich zutrifft. Ich meine, Shield kann man jetzt noch diskutieren. Shieldkröte und so. Aber der Eigentlichpunkt ist, wir haben eine 3D gedruckte Shieldkröte entsprechend aus Plastik, die von Google Inception 3D, also einer der besten Bilderkennersoftware, die wir im Bereich gerade auch der 3D-Erkennung momentan haben, zuverlässig. Das heißt, aus jedem Winkel, bei jedem Zuschnitt, bei verschiedenen Suchenstufen, bei Drehungen, bei verschiedenen Auflösungen, als Gewehr erkannt wird. Oder zumindest als Waffe erkannt wird. Adversarial Images funktionieren im Prinzip so. Und wir haben das Ganze auch noch mal als Medium mitgebracht, dass wir das Bild nehmen. Und wir haben ein Bild, von dem wir wissen, dass es als das klassifiziert wird, als was wir auch dieses Bild klassifizieren wollen. Eigentlich haben wir davon eine ganze Gruppe. Und wir schauen uns an, was hat die KI gelernt? Was sind die herausstechenden Merkmale bei dieser Gruppe von Dingen, in dem Fall Waffen, die die KI erkennt? Das sind meistens bestimmte Pixelgruppen, das sind meistens bestimmte Kontraste, das sind relativ unauffällige Dinge. Und diese Dinge kann man im Prinzip lernen, auf ein anderes Bild zu übertragen. Das heißt, wir definieren eine mathematische Kostenfunktion, die uns quasi diese Differenz zwischen dem Muster, das wir kennen wollen und dem Bild, was wir haben, minimiert. Und wenn wir das tun, passiert genau das. Wir haben eine Schildkröte, die einfach ganz normal aus Plastik gedruckt wurde. Die wird auch als Schildkröter kann, das jedem Winkel in jeder Größe, in jeder Drehung und so weiter. Und wir haben diese eine Schildkröte, denn Textur und Farbe minimal verändert wurden. Auf eine Weise, die mathematisch vorher sehr, sehr genau und sehr lange berechnet wurde. Und die entsprechen das jedem Winkel und so weiter, als Waffe erkannt wird. Dieser Ansatz, den diese Forscher in gefunden haben, funktioniert zuverlässig auf fast alle 2D-Bilder und zum ersten Mal eben auch auf 3D-gedruckten Objekten, sodass man das direkt in die haptischen Objekte einarbeiten kann. Diese Veränderung des Bildes oder auch des 3D-Objektes ist für Menschen quasi nicht wahrnehmbar. Manchmal sieht man so leichte Farbschlieren, aber je nach Fortgeschrittenheit des Ansatzes selbst nicht mal das. Das ist so unwichtige Rauschen in diesen Daten, dass wir das so nicht wahrnehmen. Aber da die KI nicht sieht, wie wir und ganz andere Sachen wahrnimmt, sich auf bestimmte kleine Eigenheiten fokussiert, schaffen wir es mit einem gewissen Muster, die Anlehrung an ein bestimmtes Modell, was die KI schon gelernt hat, so in die Höhe zu treiben, dass dieser Erkennungsprozess quasi frühzeitig umgelenkt wird, auf das ist unser definitives Ergebnis, die Konferenz ist hoch genug. Alles weiter ist nicht notwendig. Nächstes Beispiel, das hier sind Straßenschilder, die geben die Höchstgeschwindigkeit an, die kennen die meisten hier vermutlich. Was seht ihr da, welche Geschwindigkeiten? Jetzt könnt ihr alles vorlesen, 50, 70 und so weiter, das ist ein bisschen witzlos. Sämtliche in der Forschung derzeit als State of the Art gelten Systeme, plus sämtliche Systeme von Automobilherstellern lesen auf allen diesen Schildern 30 kmh. Keins von den Bildern war natürlich ursprünglich ein 30 kmh Schild. Genau. Denn was haben sich stattdessen gemacht? Diese Kameras erfassen ja irgendwie einfach die Straße, dann identifizieren sie, okay, da ist ein Straßenschild, nehmen nur diesen Ausschnitt mit dem roten Kreis drum, schneiden alles andere weg und verarbeiten das. Und genau das macht man sich zu Nutze, indem man eben das voraus ahnt, erst mal was das System auch machen würde, erst mal nimmt ein Foto von dem echten Straßenschild, nimmt den Ausschnitt von dem Schild selbst, das ist ein relativ trivialer Task, guckt noch, dass man das Ganze auf die Größe verpackt, das System, das verarbeiten wird, weil das System entsprechend immer reinsucht, beziehungsweise meistens das verkleinert auf eine bestimmte Pixelbreite, mit der es immer arbeitet. Und dann kann man ganz leicht unauffällig einzelne Pixel in dem Bereich so anpassen mit entsprechenden Zielfunktionen, das gibt es einfach ein fertiges Framework, dass das dann die gewünschte Zahl, nach der gewünschten Zahl für den Community aussieht, ohne dass man aber möglichst viele große Entflächen geändert machen würde, die den Menschen auffallen wird. Am Ende vergrößere ich das Ganze wieder, dadurch dass ich ja meistens in echt, also das Kamerabild sozusagen, ist ja alles viel kleiner als in echt die Größe auf dem Schild, dadurch sind die Pixeländerungen, die beim Verkleinern auf einen Pixel gemappt werden und das stärker machen, werden hier über mehrere, größere Bereiche gewischt, dadurch sehen die jetzt auch nur noch so ein bisschen schwierig oder sowas aus im Hintergrund und nicht mehr komplett irgendwie plötzlich dickfett schwarze Kästchen drin oder sowas, und dadurch erkennt das System dann plötzlich das falsche Straßenschild, also eine Geschwindigkeit, die zu hoch oder zu niedrig ist. Das kann man dann schön testen, auch aus allen Milchenwinkeln, das heißt, die haben in dem Fall um das zu testen, die Kameras genommen, auf dem Bildschirm gerichtet, wo sie Fotos aus allen Milchenperspektiven hatten, weil es ihnen zu aufwendig war, jetzt das auf echten Straßen zu machen. Und die Kamera erkennt zuverlässig, das ist die Systeme, auch wie gesagt, die echten in den Autos verbauten Systeme erkennt, zuverlässig falsche Geschwindigkeitsvorgaben. Und jetzt haben wir den ersten Mal den Punkt, wo wir richtig Schaden damit anrichten können, das erste Beispiel, was wir mitgebracht haben. Ich meine, eine falsche Geschwindigkeit, die an ein Auto, was vielleicht dann irgendwie halbautonom fährt und die Geschwindigkeit eigentlich an die lokalen Gebenheiten anpassen sollte, übermittelt wird, kann halt zum einen dafür sorgen, dass ich einfach alles sehr, sehr langsam mache, dafür Sorge, dass es ein Verkehrskollaps gibt, weil plötzlich die Autos irgendwie 10 kmh lesen und auf der Autobahn nicht mehr 100 fahren, dann fährt mir vielleicht noch einer hinten drauf, der nicht halbautonom fährt. Oder wenn ich es wirklich auf jemanden abgesehen habe, kann ich auch dafür sorgen, dass er vor der 30er Kurve halt 120 signalisiert kriegt und damit sehr, sehr viel Schwung eben vermutlich nicht mehr um die Ecke fährt, sondern um die Ecke gebracht wird. Sorry. Du musst weiter machen. Alles klar. Was sind jetzt Beispiele, bei denen man sagen kann, wir können das relativ gut umwählen, wenn dem einfach keine autonomfahrenden Autos Problem gelöst. Problem ist nicht so einfach gelöst, wenn es um etwas geht, was wir immer mit uns tragen und auch immer benutzen, ob wir das wollen oder nicht. Das ist unser Gesicht. Es gibt heutzutage schon viel zu viel Software, die Personen eindeutig identifizieren kann, zumindest wenn eine ausreichende Konfidenz, die das auch tut. Wir haben vorhin schon darüber gesprochen, sowohl in China als auch leider steht uns das hier bevor. USA hat das natürlich auch schon eingesetzt mit diesen super stylischen Brillen, die vielleicht ein bisschen abgefahren aussehen, aber auf der einen oder anderen Party vielleicht doch nicht auffallen würden und die dazu führen, dass die oben abgebildeten ForscherInnen als die unten abgebildeten Berühmtheiten identifiziert werden. Zuverlässig. Mit einer Konfidenz, naja, es kommt auf die Person und es kommt auf das Zielbild an, aber von bis zu 90 Prozent von allen gängigen Gesichterkennungssoftwares, die so mit den Internet verfügbaren Bilder von Celebrities trainiert wurden. Das ist relativ faszinierend, finde ich, weil da ist es noch viel einfacher, viel schwieriger nachzuvollziehen, wie dieses spezifische Gesicht durch die Brille manipuliert wird. Das heißt, die Augenregion, das merken wir schon, ist einfach sehr, sehr wichtig in der Gesichtserkennung. Es gibt zum Beispiel auch Ansätze, die über Schminke, Frisur, Styling dafür sorgen sollen, dass Menschen nicht mehr erkennbar sind. Die haben den Nachteil, dass sie extrem auffällig sind, weil sie meistens involvieren, Haare so vor das Gesicht zu bringen, dass zum Beispiel ein Auge verdeckt ist oder weil sie extrem starke Kontrastfarben anstellen, im Gesicht involvieren, die nicht üblich sind, also schwarze Balken auf der Wange, irgendwas, was die Bilderkennung aus dem Konzept bringt. So eine Brille dagegen, wenn bunte Farben gerade in Mode sind, damit kommt man relativ einfach durch. Das heißt natürlich zum einen, dass ich mal die Identität verschleiern kann. Ich kann dafür sorgen, dass ich nicht erkannt werde von der Software, die selbst auf meinen Bildern trainiert wird. Das sorgt natürlich auf der anderen Seite auch dafür, dass ich mich jetzt jemand anders ausgeben kann. Ich kann hier quasi liebe Personen in die Brille bringen, indem ich mich an Orten aufhalte, wo sie nicht sein sollten, indem ich Dinge tue, die sie nicht tun sollten und dabei dafür sorge, dass der Computer jemand anderen erkennt. Das hält natürlich nur so lange, wie da kein Mensch drauf schaut. Trotzdem sind die Anwendungszwecke schon eher beunruhigend. Bisher haben wir jetzt sehr viel über Bilderkennung geredet, weil es einfach ein wunderbar plastisches Beispiel dafür ist, wie man diese Sachen machen kann. Das Ganze funktioniert aber selbstverständlich nicht nur auf Bildern. Alternativ funktioniert es zum Beispiel auf Audio-Dateien. Und jetzt finden wir mal raus, ob ihr euren Ohren traut. Wir haben zwei Audio-Samples mitgebracht, bei denen ihr euch das mal anhören könnt. Okay, das versteht man leider bei dem aktuellen Lautsprecher. Nicht so gut, mach's das nochmal. Hat sich jemand verstanden? Er sagt, man versteht es mit anderen Lautsprecher tatsächlich besser. Without the dataset, the article is useless. Der Computer sieht das anders. Im Leben nicht hätte ich das rausgehört. Im Leben nicht hätte ich auch spontan den Unterschied zwischen der manipulierten Audio-Dateien und der unmanipulierten Audio-Dateien herausgehört. Mit sehr guten Kopfhörern, wenn man aktiv drauf achtet, hat man eine ganz leichte Änderung im hintergrundliegenden Störgeräusch. Aber das ist auch wirklich schon alles. Wir haben aber noch was mitgebracht. Kennest du für dich jemand? Richtig. Sehr schön. Aber auch da versteht mein Computer was anderes. Speech can be embedded in Music. Ich glaube nicht, dass das jemand von uns rausgehört hat. Das funktioniert im Prinzip relativ ähnlich wie bei den Bildern. Wir haben unser Audio-Sample. Wir legen eine leichte Störspur drauf, die wir natürlich sehr gut ausgewählt haben mit Hilfe unserer Kostenfunktion. Und schon sind wir bei ganz anderen Ergebnissen, die von gängigen neuronalen Netzen erreicht werden. Der Trick bei dieser ganzen Geschichte ist natürlich, dass das nur funktioniert, weil neuronalen Netzen eine bestimmte Funktionsweise haben und weil sie gewisse Schwachstellen haben. Gewisse Schwachstellen, die quasi in der Art und Weise, wie wir sie trainieren, wie wir sie bauen und wie sie funktionieren, Teil des Prozesses sind, die wir nicht trivial umgehen können, die nicht dadurch umgangen werden, dass wir es einfach ein bisschen größer, ein bisschen komplexer machen oder länger trainieren oder mit mehr Beispielen. So einfach ist es nicht. Es ist nicht, gegen das Ganze zu verteidigen. Bisher allerdings ziemlich unerfolgreich. Aber die interessante Frage ist ja, dieses ganze Konzept, diese Tatsache, dass wir Taï so aus dem Konzept bringen können, ist das jetzt gut oder schlecht? Wer glaubt denn, es ist gut? Darfst du dich auch zweimal melden? Okay, wer glaubt, dann ist es schlecht. Entweder sind hier sehr viele unentschieden oder sagen, es ist weder gut noch schlecht. Ich habe ein paar mehr Hände bei schlecht gesehen. Ich würde es so formulieren, es kommt drauf an, aber man kann auf jeden Fall ein bisschen damit machen. Der Vorteil ist, gerade im akademischen Sinne, dieser typische Kreislauf, den ich habe von Verbesserung, ist, ich habe mein System, das kann irgendwas relativ gut. Wenn man anders kommt, wenn die Schwachstelle macht es kaputt, manchmal mache ich es auch selber kaputt. Ich lerne daraus, fixe die Schwachstelle und habe ein besseres System. Aus der akademischen Sichtweise ist das was Gutes. Wir haben einen Kreislauf, der dazu führt, dass wir immer stärkere Verteidigung bekommen. Er führt aber auch dazu, dass das ein Modell, das hier bei einer Karajasveranstaltung sicherlich gut verständlich ist. Entsprechend, wie gesagt, kann es aber Fälle geben, die so stark die ganze Gesellschaft durcheinander bringen können, dass man vermutlich relativ schnell sagen wird, ein paar Sachen davon sind ja noch lustig, aber langsam wird es problematisch. Ein ganz typisches Beispiel dafür sind die sogenannten Deep Fakes. Wie gesagt, habe ich am Anfang schon mal erwähnt, da geht es darum, durch den Computer künstliche, gefakete, automatisch künstliche Bilder- und Videosequenzen zu erzeugen, die von Menschen nicht zu erkennen sind, dass sie nicht dementsprechend das kann ganz cool wirken, wie hier zum Beispiel wo Mitarbeiter von Samsung Labs es geschafft haben, die Mona Lisa zum Leben zu erwecken mithilfe dieses einen Bildes, was sie ja davon haben. Es gibt ja nicht irgendwie Rundumansichten, die entgefallen haben, dass niemand getan hat, die zu malen oder sowas, sondern es gibt ja dieses eine Bild und natürlich gibt es einen, daraus kann man eben extrahieren, wie bewegt sich ein Gesicht beim Kopf drehen, wie ändert sich die Position der Augen, der Nase, wie bewegt sich der Mund, wenn ich spreche und so weiter, das kann man alles irgendwie abstrakt rausholen, dass man ein Art Konzept sozusagen davon extrahiert und das dann auf vorhandene Daten anwenden. Es passiert hier mit der Mona Lisa und jedem ist klar, okay, die hat sich vermutlich nicht wirklich bewegt. Das passiert aber leider auch regelmäßig bei Personen, bei denen man weiß, dass sie sich durchaus bewegen können, dass sie durchaus Dinge machen können. Ganz beliebt ist es Politikern, neue Worte in den Mund zu legen, die sie so nicht gesagt haben, aber da es von denen genug Fotos, genug Videosequenzen vor allem gibt, kann man relativ realistisch dafür sorgen, dass sie halt bei einer Rede plötzlich was anderes sagen. Ganz beliebt ist es auch Menschen irgendwie zu kombinieren. Es gibt inzwischen Smartphone-Apps, mit denen man sich selbst in Leonardo DiCaprio auf der Titanic verwandeln kann, wenn man daran aus irgendeinem Grund unbedingt Interesse hat. Und es gibt dann wie gesagt die Möglichkeit hier komplett künstliche Figuren quasi zu erzeugen, die sehr, sehr realistisch wirken. Und da haben wir jetzt den Punkt, wo einem dann irgendwann das Lachen des Films stecken bleibt, was man vielleicht bei den Bildern noch sieht, in dem Moment, wo ich eben nicht mehr den lustigen Zusammenschnitt, wo ein Musikvideo aus Politikerreden produziert wurde, die sehr, sehr abgehackt klingen haben, sondern eine Rede, die so klingt, als wäre sie wirklich von dem Politiker der Politikerin gesagt worden. Und natürlich kann ich jede andere Filmszene, die es gibt, jede andere Aufnahme, die es gibt, irgendwie so manipulieren, und das ist jetzt der Punkt, wo das wirklich eingesetzt wird, um explizit zu schaden der ganzen Gesellschaft. Populismus, Propaganda betreiben, Leute gezielt verunsichern, gezielt verwirren, dafür sorgen, dass Fehlinformationen herrschen, die dann ja leider potenziell von anderen Menschen geteilt werden, als Beweise, dass irgendwer sich irgendwie verhalten hat. Und leider ist das auch nicht so gut zu erkennen. Hier man sieht, das ist schon relativ gut, das ist aber auch die quasi schlechteste Datenlage überhaupt, die es gibt. Es gibt nur ein Gemälde, nicht mal ein Foto. Bei Videosequenzen, die alles andere ringsrum, die natürlichen Bewegungen, dass man mal mit den Schultern wackelt und so weiter, alles schon realistisch machen, die richtige Länge haben, ist es schon sehr schwer, so was zu erkennen. Und spätestens, wenn wir dann zum Beispiel Überwachungskameraaufnahmen haben, die den Verbrechen zeigen, die aber mit, na ja, quasi noch vielleicht auch einer Videokassette aufgezeichnet wurden und dem zufolge dermaßen viel Rauschen, Störungen und so weiter drin haben, da kann ich nicht mehr sagen, ah, diese Pixel sehen aber verdächtig aus, weil da sieht alles verdächtig aus, das Licht am Material. Und da haben wir dann den Punkt erreicht, wo das ganze saugefährlich wird. Um das quasi auf den Punkt zu bringen, ich kann eine beliebige Person, von der ich ein 2D-Bild, was quasi ohne meinen Einverständnis zu fast allen Zeitpunkten des Tages irgendwie möglich ist, habe, diffamieren und diskreditieren und nehme ich hier irgendwelches Verhalten Anhänge, wenn ich auch noch ein bisschen Tonaufnahmen habe, Anhänge, was auch immer Sie gesagt haben könnte. Das bedeutet im Prinzip beim Umkehrschluss auch, dass weder Bilder, noch Videos, noch Audioaufnahmen in Zukunft irgendeine Form von Beweis sind. Solange wir das nicht entdecken können und bisher können wir das nicht, also so gar nicht. Denn genauso wie ich aus den Bildern jetzt hier Muster erkennen kann, kann ich eben auch aus Tonaufnahmen, die ja gerade wie gesagt von Menschen des öffentlichen Lebens kräftig existieren, die Eigenheiten extra hier, mit der sie sprechen, die Pausen, die sie machen, die Betonungen, die für sie charakteristisch sind und die auf eine Weise neu kombinieren, dass man eben nicht das Stocken hört, so wie das wie gesagt aus manchen Videos bekannt ist oder wie es klingt, wenn die Blechelse am Bahnhof die Ansagen macht. Sondern das klingt dann wirklich nach realistischen Text, das garniert mit echtem Video, also mit Video, was gut aussieht. Tja, wer von uns würde sich einbildende Lage zu sein, das sicher erkennen zu können? Vermutlich niemand. Bisher haben wir sehr viel über Forschungsprojekte gesprochen, über theoretische Ansätze, über zwar funktionierende Angriffe, aber noch nicht über die Realität, außer den Hongkong-Protesten. Es gibt aber durchaus Beispiele, wo Angriffe gegen KI jetzt schon eingesetzt werden, wo man sich fragen muss, sind sie effektiv? Sind sie legal? Und selbst wenn sie beide sind, sind sie noch moralisch? Können wir das in irgendeiner von vertreten? War das okay? War das gut, was sie gemacht wurde? Und eines dieser Beispiele haben wir noch mitgebracht von einem Skateshop und ich zitiere kurz diesen Besitzer des Skateshops, der sagt, wir haben auch auf unserem Blog auf Instagram und Facebook angekündigt, dass es online nur Bilder vom Schuh gibt. Wir haben niemanden getäuscht. Was sie nämlich schlicht und einfach gemacht haben, ist, haben sie sich lange darüber aufgeregt, dass es in der Skateszene gerade von Nike verbreitet ist, dass es Schuhe mit einer sehr geringen Auflage gibt, die irgendwie was ganz Tolles sind, die man unbedingt haben muss, wo die Leute wirklich über Nacht vor den Läden campen, damit sie morgens um acht, als erstes diesen Schuh kaufen können, um noch ein Exemplar zu kriegen. Und was dann passiert ist, voraussehbarerweise, ist natürlich, dass Menschen versucht haben, möglichst viele davon zu kaufen und sie zum drei, vier, fünf, zehnfachen Preis wieder zu verkaufen, die Leute, die sie unbedingt haben wollen. Dieses System ist in der Skateszene schon lange verpönt, natürlich. Passiert aber mehr und mehr, vor allem als Onlinehandel dazu gekommen ist. Wenn ich den Nacht über vor dem Shop campen muss und dann wahrscheinlich nur zwei Exemplare kaufen darf, weil die Leute, die dort arbeiten, ja auch nicht völlig blöd sind, dann ist das ein ziemlich ineffizientes System. Es bringt mir immer noch gut Profit. Aber wenn ich natürlich online mit einem Bot, der irgendwie 700 Aufrufe die Minute machen kann, einfach das Ding Leerkaufe, ist das eine ganz andere Geschichte. Davon waren die so genervt, dass sie sich gedacht haben, dagegen müssen wir was tun, kaum etwas da wolle. Was sie also gemacht haben ist, sie haben online digitale Bilder vom Schuh zum Verkauf angeboten für den gleichen Preis, oder sogar einen höheren Preis. Und was natürlich passiert ist, dass die Bots große Mengen von diesen Bildern auf der Schuhe gekauft haben, weil sie natürlich weder am Text noch am Bild erkannt haben, dass es sich hier um den Kauf von Bildern handelt und nicht von tatsächlichen Schuhen. Er rechtfertigt das eben mit der Aussage, wir haben vorher doch überall gesagt, alle Menschen konnten lesen, dass wir online keine Schuhe verkaufen, ausschließlich die Bilder. Es war auch auf der Verkaufsseite explizit ausgewiesen, dass nur ein digitales Bild des Schuhs zur Verfrühung gestellt wird. Es ist natürlich genau das vorhersehbare passiert, die Bots sind trotzdem reihenweise darauf reingefahren. Digitale Bilder haben wir übrigens den Vorteil. Die Digitale Warn, da liegen nicht im Fernabstattshandelsgesetz, können nichts zurückgegeben werden. Das heißt, die Bots sind entsprechend auf den Kosten sitzen geblieben. Es gibt Leute, die haben davon tausende Stück gekauft, die haben 700.000 Euro Dollar, was auch immer in den Sand gesetzt und natürlich auch hinterher entsprechend gedroht zu klagen und was es nicht alles für Streit gab. Bisher ist es so, dass die Rechtsprechung sagt, das war völlig in Ordnung, es war explizit auf der Seite darauf hingewiesen, dass es im Plaere handelt. Trotzdem ist das natürlich ein großes Diskussionsthema, weil es war schon explizit der Wunsch, wir wollen Leute veräppeln, KI veräppeln, was wollen wir dann? Wir haben ja eine gute Motivation gehabt. Dass es durchaus ein Diskussionspunkt, den man führen kann, ist das vertretbare Gegenstrategie oder lässt sich jemand auf genau das Niveau herab, was er eigentlich kritisiert? Ich kann euch die Frage nicht beantworten. Vielleicht wollte ich euch dazu selbst Gedanken machen, vielleicht habt ihr gleich in der Diskussion dazu was zu sagen. Damit sind wir nämlich so weit am Ende unseres Talks. Vielen, vielen Dank, dass ihr da wart. Kontakt da noch mal hier. Und wenn es Fragen gibt, dann beantworten wir die gerne. Sind euch irgendwelche Fälle bekannt, in denen jetzt zum Beispiel, ich weiß nicht, ob das die Schildkröte, ist das auf 3D-Strukturen basierend oder eher auf optischen Strukturen, mit denen man getäuscht wird? Sind euch da irgendwelche Fälle bekannt, wo vielleicht auch schon Zivile ungehorsam damit ausgehübt wurde mit solchen Techniken? Den letzten Satz habe ich ausgestattet. Also diese Strukturen, mit denen Adversarial-Effekte ausgelöst werden. Sind euch da irgendwelche Fälle bekannt, mit denen Zivile ungehorsam damit ausgehübt wurde? Also nicht unbedingt jetzt, dass irgendwie gesagt wurde, dass es jetzt Politiker X, der da mit einer Waffe rumläuft, sondern wirklich, also da, wo auch Leute sich selbst in die Schusslinie stellen, umzusetzen. Das ist das, selbst in die Schusslinie stellen, um zu sagen, eure Bilderkennung ist scheiße. Also die meisten Beispielen, die ich kenne, kommen aus dem akademischen Bereich, wo man sagt, okay, hier guckt mal, funktioniert nicht. Und dann ja im Prinzip auch den Herstellenden, die Gelegenheit gibt, wir bauen jetzt mal was Neues und versuchen das besser hinzukriegen mit fragwürdiger Definition von besser, je nach Anwendungszweck. Also ich glaube, es wird meistens, um eben nicht auf ein Kamerabild erkannt zu werden oder sowas und weniger, um wirklich explizit zu sagen, hey, wir haben euch reingelegt, ausgetrickst, euer System ist Mist. Wäre aber denkbar oder zumindest natürlich sinnvoll gegebenenfalls Beweise zu sammeln, um dann zum Beispiel vor Gericht gegen was vorzugehen. Ist ja ähnlich wie der Ansatz, keine Ahnung, wenn nicht an der aroten Ampel geblitzt wurde, stoppe ich mal, wie lang die Gelbphase war, ob die überhaupt blitzen durfte oder nicht. Genauso kann man hier jetzt sagen, ich sammel Daten, aber mir ist zumindest gerade kein Prozess oder sowas bekannt, wo das dann genutzt wurde, um irgendwie dann ein System zur Abschaltung zu zwingen oder irgendwie sowas. Von Neil Stevenson gibt es in einem aktuellen Science Fiction Roman so eine kleine Zukunftsvision nur so 30, 40 Jahre in die Zukunft, wo die Leute sich, die sich es leisten können, per Laser, musste ins Gesicht projizieren lassen und dadurch dann halt anonym die Straßen gehen können, weil sie sich den ganzen Überwachungssystemen entziehen. Ist es dann auch so eine Vision, die euch so durch den Kopf geht es nach Motto Privatheit, ist dann nur noch was, wenn man sich das leisten kann? Das ist bei aller neuer Technologie denke ich irgendeine Form von Bedenken, die man haben muss, alle Technologie, die irgendwie auf den Markt gebracht wird, um sich selbst zu verteidigen, wird erst mal entsprechend teuer sein. Und das ist eigentlich immer eine Diskussion. Bisher sind mir bei grundsätzlich keine Fälle bekannt, wo Leute irgendwie Technologie verkaufen zu diesem Zweck, sondern das dann alles mehr entweder so diese Kategorie von you can do it yourself, was musst du beachten, wenn du es versuchst. Aber ich meine die Diskussion von wer kann sich leisten, ist eigentlich immer da bei neuen Dingen, oder? Gerade wenn man eben sagt, also ist ja immer die Frage, haben das Forscher oder irgendwer rausgefunden, weil sie das interessant fanden und haben gesagt, hier guck mal, damit kann man das Thema ausregsen und wenn ich reich genug bin, um jemanden dafür zu bezahlen, für mich zu forschen, kann ich natürlich einen Fortschritt kriegen, kann ich was entwickeln, was niemand anderes hat. Und damit, wenn ich es nicht publiziere, dann meine Chancen, wir hatten ja diesen Kreislauf, meine Chancen erhöhen, dass die Technologie, wenn ich sie für mich behalte, auch für mich weiterhin funktioniert und eben nicht rausgepatcht wird und im Gegenzug dafür, dass ich eben nicht der Gesellschaft insgesamt helfe. Bei einem zweiten Szenario dass es eine passive Bewaffnung gilt, weil ich sozusagen mich der Überwachung entziehe. Das ist im Prinzip genauso jetzt mit dem Vermummungsverbot, was wir in Österreich jetzt haben. Vorher hätte ich gesagt, okay, wenn ich nicht auf den Bild erkannt werden will, setze ich mir halt eine Maske auf, das darf ich jetzt nicht. Eine Brille werden sie erst mal nicht direkt verbieten können. Aber es besteht natürlich Gefahr, dass sie danach ziehen und sagen, wenn rausgefunden werden kann, dass die Brille eben dazu dient, leiern, wie auch immer, ist es eben plötzlich doch eine Straftat. Genau, also die Diskussion gibt es schon an Stellen, wo eben mehr verhüllungsmaßnahmen, mehr sichtbare Verhüllungsmaßnahmen getroffen werden, gerade dieses Thema Schminke. Da gibt es die Diskussion schon im Ansatz. Aber erfahrungsgemäß wird, sagen wir mal, die Legislatur schneller angepasst, wenn Technik dazu genutzt wird, sich mehr oder weniger staatlichen Kräften zu widersetzen als andersrum. Ich würde damit rechnen, dass die Diskussion kommt, dass die Diskussion nicht mehr verhüllt wird. Was die deutsche Legislatur dazu sagt, ist ja deshalb noch mal eine andere Frage, weil auch in Deutschland die entsprechenden Technologien, die eingesetzt werden, Menschen zu erkennen, zwar schon existieren, aber nicht entsprechend weit verbreitet sind, dass sich bisher ein Markt aufgetan hätte dagegen. Das neueste soll ja sein, Leute am Gang zu erkennen. Wisst ihr, ob das schon tatsächlich eingesetzt wird? Ich weiß nicht, ob Bewegungsmuster bereits eingesetzt werden zu Identifizierungen. Entsprechend gehe ich davon aus, dass es diese Ansätze mindestens Forschungstechnischen gibt. Ich weiß bisher von keinem kommerziellen Einsatz, aber die Fakes ist ein großes Thema, auch anhand von G-Stick, anhand von Mimic, anhand von Bewegungsmustern, wie oft wackelt die Person, wie sitzt die Person üblicherweise, Menschen zu imitieren. Also ein Forschungsthema ist es sicherlich. Wir haben da natürlich wie immer im Forschungsbereich eine ethische Dimension drin, wenn Leute daran forschen, dann wird es sogar abgelehnt, so was zu veröffentlichen, weil es heißt, okay, das ist jetzt ethisch verwerflich, irgendwie zu identifizieren, weil es muss ja auch nicht auf eine Person zurückschließen, sondern vielleicht kann man ja mit irgendwas auf eine Persongruppe zurückschließen, was in dem Moment, wo Personengruppen verfolgt werden, ein Riesenproblem darstellt. Aber das erleben wir halt auch leider in Menschen, was erforscht haben. Dann wollen viele es einfach veröffentlichen oder sie verkaufen es dann doch direkt an irgendwelche Leute, die es einsetzen, ohne es zu publizieren. Im Prinzip weiß man immer nur, dass es irgendwas gibt, wenn es halt bekannt wird, dass es das gibt, aber leider nicht, dass es irgendwas nicht gibt. Es ist sehr viel möglich, weil wir haben gesagt, die Systeme können leicht ausgetrickst werden und umgekehrt sind sie halt extrem gut darin, riesengroße Datenmengen zu verarbeiten, um ziemlich gute Ergebnisse zu kriegen. Das ist die zweite Seite der Medaille. Wenn das System relativ gut funktioniert, wenn das auf vielen Fällen ordentlich funktioniert, dann reicht das ja vielen schon. Dass es dann irgendwelche einzelnen Personen gibt, die sich darum rummogeln können, ist bei einer Massenüberwachung oder sowas ja Ärgernis, aber eben nicht das Grundproblem für die Menschen, die das Ding einsetzen. Vor allem ist ja der interessante Teil, dass Maschinen diesen da an Potenzialmuster erkennen können, die wir als Menschen nächer können. Da fragen wir nochmal. Was ist das für eine Massenüberwachung? Es gibt zwei grundlegende Ansätze, wie Adversarial Text-Prinzipiell-Familien werden sollen. Der eine ist BruteForce, mehr Daten, mehr Winkel, weniger Störungsresistent. Ist es echt nur so mäßig erfolgreich? Also eigentlich nicht. Der andere Bauernbesitz, der andere ist BruteForce, der andere ist BruteForce, der andere ist BruteForce, der andere ist BruteForce, der andere ist BruteForce, der andere baut ein bisschen mehr auf die Ebene, dass man quasi direkt erwartet, was könnte auf mich zukommen. Bisher sind aber alle diese Ansätze dadurch gebrochen worden, dass man dem Attacker mehr Rechenpauer zur Verfügung stellt hat. Also bisher gibt es in die Richtung zwar Versuche, zu sagen, wir wollen eben nicht mehr solche Muster quasi bereitstellen, die der Angreifer oder die Angreiferin nutzen kann, aber Rechenpower löst das Problem für den Angriff bisher, nach meinem Wissenstand. Der Annahme der Forschung ist aber je robuster wir die Systeme machen, desto gegen zufällige Störungen, zum Beispiel also Bildrauschen oder all das, was eben so schon stört, schlechte Perspektive oder so was ich, desto besser machen wir sie gleichzeitig auch gegen aktive Angriffe. Das ist so die Überzeugung. Aber ja, beides zu reparieren ist halt nicht einfach. Was da interessant werden könnte, sind tatsächlich die, was wir vorhin an diese 3D gedruckten Modelle, die tatsächlich ja zum ersten Mal, die in Anführungszeichen reale Welt manipulieren und nicht mehr nur den digitalen Input, weil man da eher versuchen kann, das schon zu erkennen, ist das ein Objekt, was in irgendeiner Form manipuliert wurde, aber bisher soweit ich weiß, keine Erfolge. Also das war mal eine Diskussion, ob das eher möglich ist, als bei 2D-Bildern, wo man eben diesen Ansatz gefahren hat von, die solche Muster drauf haben und hoffen, dass du dann lernst, dagegen anzukommen. Aber auch das, wie gesagt, sehr unerfolgreich. Allerdings ist dieses ganze Gebiet, also dieser Begriff, Adversarial Text, 2014 aufgekommen, dieser stabilere Angriff 2017, wenn ich mich nicht täusche. Das heißt, wir sind in Sachen Forschung und Publikation von Forschungsergebnissen noch relativ in der frühen Phase an der Stelle. Es kann gut sein, dass in ein paar Jahren die Situation schon sehr anders aussieht. Wer sind denn die Hauptspieler bei Bilderkennung und Spracherkennung? Google und Facebook, oder gibt es da noch andere große Interessensgruppen? Ich würde mal behaupten, die üblichen Verdächtigen Google, Facebook und die Governments und Security Agency, das ist so momentan quasi der größte Gefahr, die gerade bei Bilderkennung gesehen wird. Nicht nur, also nicht hauptsächlich, aber auch in Deutschland, gerade bei den Ländern wie China, Achland und Osten. Es gibt da diverse Firmen, die sich da sehr speziell darauf versteifen, für die markwürdige Modelle zu entwickeln und die an, das heißt, Governments of Deutsch, ich komme gerade nicht drauf. Danke an Regierungen und ähnliche Einrichtungen zu verkaufen, gerade eben auch an Geheimdienste. Das sind definitiv Stellen, über die wir uns Sorgen machen müssen. Bei den großen Playern noch Microsoft dazu nehmen? Ja, auf jeden Fall. Und natürlich noch ein paar andere. Grundsätzlich aber auch je mehr diese Technologie so verbreitet ist, dass sie online verwendbar ist. Also gerade die Bilderkennung macht ja riesige Fortschritte auch in den Sachen, die man quasi frei verwenden kann. Desto eher werden uns auch die kleineren Organisationsanhalt in Zukunft interessieren, würde ich sagen. Gibt es Forschungsansätze, diese Gegenangriffe, gegen KIs, gegen das ultimative neuronale Netz den Menschen einzusetzen und zu sagen, ich generiere etwas, das für einen Menschen gesehen wird, als etwas, was es objektiv nicht ist, also sprich, optische Fälschungen oder so zu was. Lustig, aber ja, ich habe tatsächlich jetzt von ein paar Tagen Artikel gelesen, in dem ein Paper claimed, dass sie ein ich glaube es mal so, dass sie eine Katze haben, die von Mensch und Maschine als Unterkant wird oder andersrum. Was ich noch nicht ganz begriffen habe, ist, wie sie, also bei den speziellen Ansatz wieso das dann noch eine Katze ist, weil das Bild ist ja manipuliert worden. Da kommt so ein bisschen die Frage ins Spiel, was ist dann dann noch objektiv, was ist es nicht, wer entscheidet denn dann, was es wirklich ist, wenn die Menschen schon sagen, es ist das eine, wenn die Menschen sagen, es ist das A, wer entscheidet, dass es ein Wirklichkeit B ist, was ist noch die Wirklichkeit, wenn ich Bilder, Videotone, alles individuell und quasi beliebig verändern kann und meine Medien eben alle digital stattfinden. Also das ist glaube ich, eine interessante Frage. Bei physischen Objekten, die ich in die Hand nehmen kann oder direkt angucken kann, ist es natürlich so, so wahnsinnig viel schwieriger, dass es kaum möglich ist, wenn er sagt, wenn man ein Bild anguckt, als Mensch, das manipuliert und wie viel Fotoshop da drauf ist, erkenne ich halt nicht mehr was ursprünglich drauf. Gut, ich glaube, wir müssen zum Schluss kommen. Vielen Dank, dass ihr hier wart. Vielen Dank für die vielen Fragen. Wenn es noch weitere Fragen gibt, wenn euch bitte an uns, wir sind noch bis morgen nachmittag hier und wie gesagt, gerne über Twitter erreichbar. Und wie gesagt, dann euch noch einen schönen Abend und Dankeschön.