 Ansonsten, der nächste Vortrag ist Beeinflussung durch künstliche Intelligenz. Es ist ein Einführungsvortrag. Also einer, der explizit dazu gedacht hat, dass ihr das ohne Vorgännisse versteht. Und es geht ums maschinelle Lernen. Unsere Sprecher sind ... Wie kann man sie forschen in Amsterdam an maschinellen Lernen? Kommt ursprünglich aus Leipzig. Und der Henrik Heuer, der in Bremen am Mensch-Computer-Interaktion forscht. Großes Willkommen für die beiden. Ja, vielen Dank. Moin erst mal. Willkommen zu unserem Vortrag Beeinflussung durch künstliche Intelligenz über die Banalität der Beeinflussung und das Leben mit Algorithmen. Wir würden gerne mit einem Zitat von Kate Crawford beginnen. Kate Crawford ist die Gründerin des AI Now Institute, dass die sozialen Auswirkungen von künstlicher Intelligenz untersucht. Sie ist außerdem Principal Researcher bei Microsoft Research und Professorin an der New York University. Und die hat beim AI Now-Symposium in diesem Jahr gesagt, die Menschen befürchten, dass Computer zu intelligent werden und die Welt erobern. Aber Computer sind zu dumm und haben die Welt bereits erobert. Und wir teilen diese Ansicht. Es gibt keine digitale Welt. Die Welt ist digital. Das heißt, durch digitale Medien konstruiert. Und uns war es ein Anliegen, einige englischsprachige Diskussion um nochmal auf Deutsch zusammenzuführen. Es können also Beispiele kommen, die der eine oder die andere vielleicht schon kennt. Aber wir führen sie hier nochmal zusammen und versuchen sie zu kontextualisieren. Warum Banalität der Überwachung? Banalität, weil die Systeme des maschinellen Lernens im Kern sehr simpel sind, weil aber auch die Beeinflussung sehr subtil sein kann. Und das Ganze ist auch eine Reminiscence an Hannah Arendt. Noch mal Kunst zu uns. Wie gesagt, ich werde die ersten 20 Minuten sprechen von der Computer-Interaktionsperspektive Karn Ulrich, wird die zweite Hälfte bestreiten. Karn ist wissenschaftliche Mitarbeiterin in Amsterdam, im Amsterdam Machine Learning Lab. Und sie forscht direkt zu den Algorithmen des Maschinellen Lernens, insbesondere Bayesian Methods. Also ein Hintergrund im Deep Learning und der Informationstheorie. Ich bin wissenschaftlicher Mitarbeiter im Institut für Informationsmanagement Bremen. Und mir geht es um die Nutzererfahrung von Machine Learning, insbesondere das Vertrauen. Wir würden jetzt gerne anfangen mit einem Beispiel, das jeder kennt, Spam-Erkennung. Benutzt wahrscheinlich jeder hier. Funktioniert auch nicht immer. Aber man muss sich wirklich vor Augen führen, dass es eine beeindruckende technische Leistung ist, auch wenn es manchmal nicht funktioniert. Wir nehmen es hier und den Unterschied zwischen imperativer Programmierung und maschinellem Lernen zu verdeutlichen. Imperative Programmierung ist das, woran wahrscheinlich jeder denkt, wenn er an Informatik und Programmierung denkt. Es geht um Regeln und Anweisung. Wenn X, dann Y. Das Wort Imperativ für Befehl steckt ja auch schon im Namen. Und wenn wir jetzt Spam-Imperativ erkennen wollen würden, dann würde man zum Beispiel gucken, okay, das Wort Viagra wird so geschrieben in der Nachricht vorkommen. Dann ist es ein Spam-Nachricht. Andererseits ist es eine gutartige Nachricht. Maschinelles Lernen ist jetzt ein komplett anderer Ansatz. Da hat man eine Vorhersage, die man iterativ, also immer und immer, und immer wieder verbessert. Für die Spam-Klassifikation versucht man, zum Beispiel Kombinationen von Wörtern zu finden, durch die es wahrscheinlich wird, dass es sich um Spam handelt. Der Kernbegriff ist hier also wahrscheinlich. Und das sehe sie dann so aus, dass man für viele verschiedene Beispiele prognostiziert, ob eine Nachricht Spam ist oder nicht. Dann berechnet man Fehler mit einer geeigneten Fehlerfunktion und dann ändert man seine Parameter, um den Fehler zu verringern und geht wieder zum ersten Schritt. Und macht das immer und immer wieder. Natürlich ist es nicht ganz so einfach, diesen Fehler zu berechnen und auch die Parameter zu verändern, ist ein eigenes Forschungsgebiet. Aber im Kern ist es wirklich so simpel, wie wir es hier darstellen. Und deswegen ist es spannend, im Hinterkopf zu behalten. Und dabei ist es aber spannend, im Hinterkopf zu behalten, dass Spam erkennen, nicht mit Textverständnis gleichzusetzen ist. Das ist etwas Spam ist oder nicht. Und dieses Problem, das etwas wirkungsvoller aussieht, als es vermeidlich ist, wird uns im Laufe des Vortrags noch begegnen. Wir haben jetzt ein weiteres, immer noch vereinfachtes Beispiel für eine Entscheidungshilfe hier aus der Medizin. Das Ziel ist hier die Erkennung von Brustkrebs. Statt Wörtern wie beim Spam haben wir verschiedene Features. Das heißt Charakteristika, an denen man zum Beispiel gutartigen von bösartigen Brustkrebs unterscheiden kann. Dazu gehören hier der Radius, die Textur, Umfang, Fläche, Glätte, aber auch so Sachen wie die Symmetrie und die Zahl Concava-Punkte, also nach innengewölbter Punkte. Das seht ihr hier oben. Insgesamt gibt es in diesem vereinfachten Datensatz 32 verschiedene Charakteristika. Und dann werden zwei Charakteristika, wie zum Beispiel die durchschnittliche Zahl der Concava-Punkte und die durchschnittliche Fläche und abtragen. Dann erkennt man eine deutliche Tendenz. Ab einem bestimmten Punkt, ab einer bestimmten Zahl Punkte und ab einer bestimmten Fläche sehen wir nur noch bösartigen Brustkrebs. Das heißt Mathematisch, können wir hier im Beispiel einfach eine Linie durch diesen Datensatz ziehen. Und das ist eine sogenannte Entscheidungsgrenze, die Decision Boundary. Die Entscheidungsgrenze muss nicht linear sein. Es muss nicht eine einfache Linie sein. Die kann durchaus komplexer sein und diese Ansatz ist durchaus analog zu dem, was eine erfahrene Ärztin oder eine erfahrene Arzt mehr oder weniger bewusst machen würde. Nur die haben auch aus Erfahrung gelernt, ab der Größe und ab der Fläche und der Zahl ist es wahrscheinlich bösartig oder gutartig. Der Clou am Maschinenlernen ist jetzt, dass wir das für viele verschiedene Charakteristika gleichzeitig machen können. Darüber hinaus profitieren wir sehr stark davon, wenn wir mehr Daten haben, weil wir dadurch bessere Entscheidungen treffen können, weil wir eine bessere Entscheidungsgrenze finden. Ihr seht aber auch, dass eine gute Zahl an roten und blauen Punkten im Beispiel auf der falschen Seite der Grenze liegen. Das heißt, dort machen wir Fehler. Und da muss man im Hinterkopf behalten, dass es verschiedene Arten von Fehlern gibt und die auch verschiedene Auswirkungen haben. Falls sich zum Beispiel jemand mit gutartigen Brustkrebs fälschlicherweise sage, dass ihr Brustkrebs bösartig ist, löst das sicherlich Stress aus und ist keine angenehme Situation. Falls ich aber jemanden mit bösartigen Brustkrebs fälschlicherweise sage, dass ihr Brustkrebs gutartig ist und sie auch entsprechend behandle, kann das deutlich schlimmere Konsequenzen haben. Das ist jetzt natürlich ein vereinfachtes Beispiel. Aber gleichzeitig werden wir zeigen, dass ähnliche Entscheidungshilfen durchaus in sehr kritischen Bereichen genutzt werden. Vorher wollen wir doch einmal die Wirkungsmacht von Big Data zeigen. Und da geht es darum, Persönlichkeitsmerkmale zu erkennen. Das heißt, hier nimmt man digitale Spuren wie Facebook-Likes, die relativ einfach zugänglich sind, es aber ermöglichen, hochgradig sensible Persönlichkeitsmerkmale vorherzusagen. Das ist ein Paper von 2013 und für die Studie haben sie 58.000 Freiwillige in den USA gefunden, die eine Facebook-App benutzt haben und die haben diese Facebook-App ihr komplettes Profil zur Verfügung gestellt. Mit allen Likes, aber auch mit allen Informationen, wie z.B. der sexuellen Orientierung oder der religiösen Zugehörigkeit. Und was jetzt gemacht wurde, ist mit einem sehr einfachen Modell, mit einem einfachen Regierungsmodell vorhergesagt, ob man anhand der Likes bestimmte Persönlichkeitsmerkmale erkennen kann. Und es zeigt sich, dass man z.B. mit 95-prozentiger Genauigkeit erkennen kann, ob jemand weiß oder afroamerikanisch ist. Sexuelle Orientierung kann man auch mit sehr hoher Genauigkeit nur anhand der Likes erkennen. Das Geschlecht, die politische Orientierung, die religiöse Zugehörigkeit, aber auch so Sachen wie die Drogenerfahrung und der Familienstand der Eltern in der Kindheit. Und ihr seht schon, bei der religiösen Zugehörigkeit sind wir bei 82-prozentig Genauigkeit, bei sowas wie Drogenerfahrung und der Ehe ist es relativ wenig mit der Genauigkeit. Es ist eine 50-50-Chance, wenn wir raten würden, aber es ist trotzdem eine Indikation. Und wir zeigen das auch nur, weil das wahnsinnige Möglichkeiten der Diskriminierung bildet. Und das passiert auch auf dem Wohnungsmarkt oder auf dem Arbeitsmarkt. Das heißt, was wir hier zeigen wollen, ist, dass wir unsere Vorstellung von Datenschutz überdenken und ausweiten müssen, weil man halt auch Persönlichkeitsmerkmale finden. Denn man kann mit solchen Modellen auch die Likes finden, die am Aussage kräftig sind für ein bestimmtes Charakteristikum sind. Das heißt, wir haben hier drei Likes. Einmal die Marke Halli Davidson, Kringle Pommes, Curly Fries und das Musical Wicket. Und ich überlasse es euch mal herauszufinden, welches Bild mit niedriger Intelligenz, hoher Intelligenz und Homosexualität bei Männern verbunden ist. Diese klingt sich Psychometrik oder auch Psychographie. Und das Spannende ist, dass hier relativ nah dran ist am Kernversprechen von Unternehmen wie Google und Facebook. Wenn die versprechen ihren Kunden, ihren Werbekunden, wir finden für euch Leute, die sich für Dienst X oder Produkt Y interessieren könnten. Und hier haben wir jetzt das Element der Beeinflussung. Beeinflussung heißt hier, Big Data zu nutzen, um Leute zu finden. Solche Forschung kann natürlich auch genutzt werden, um zum Beispiel in einer großen Menge von Wählerinnen jene zu finden, die noch überzeugt werden könnten. Und ja, viele von euch haben wahrscheinlich den Artikel in das Magazin gelesen, wo kolportiert wurde, dass diese Art von Psychographie für Trump und Brexit verantwortlich ist. Vor der Bundestagswahl gab es ja auch eine große Diskussion, dass das hier passieren könnte. Wir glauben, dass das mit Vorsicht zu genießen ist, aber die Möglichkeit mit derartigen Ansätzen zu finden und anzusprechen ist durchaus realistisch. Und wir haben schon gesehen, dass es dadurch so eine Art Diskriminierung 2.0 gibt. Denn homophobe Arbeitgeber muss nicht mehr direkt erfragen, ob jemand homosexuell ist, wenn er es aus einem Facebook-Profil vorhersagen kann. Und es interessiert ihn vielleicht auch nicht, ob er da einen Fehler macht und einen heterosexuellen, möglicherweise falsch einordnet. In den USA werden Algorithmen jetzt schon im Justizsystem als Entscheidungshilfe eingesetzt. Und da wird zum Beispiel mit bestimmten Informationen über die Leute vorhergesagt, ob jemand rückfällig wird, der im Gefängnis ist, oder nicht. Das heißt, man versucht vorherzusagen auf einer Skala von 1 für ungefährlich bis 10 für hochgradig gefährlich, wo jemand hinkommt. Und hier haben wir 2 Beispiele. Wir haben einmal den Herrn Links, die Initialien, der hat 2 bewaffnete Raubüberfälle begangen und einen versucht überwaffneten Raubüberfall. Und die Risikoeinschätzung ist hier 3 niedriges Risiko. Daneben steht die Dame B.B., die hat 4 Ordnungswidrigkeiten unter Jugendstrafrecht auf dem Kerpholz und die wird eingestuft mit hohes Risiko. Und wie sieht das jetzt aus? Also die Leute von ProPublica, die wir hier haben, haben jetzt über 2 Jahre geguckt, wer wirklich rückfällig wird und wer nicht. B.B., die Dame rechts, die begeht keine weiteren Verbrechen. V.P., der Herr Links, der begeht nach seiner Freilassung direkt einen schweren Diebstahl. Das Besondere ist hier, und die wir jetzt wahrscheinlich für den Geraten haben, ist, dass der Algorithmus systematisch Afroamerikanerinnen diskriminiert. Es gibt also ein Bayes, eine Verzerrung gegen Schwarze. Das ist ein Problem, nur in 61% der Zeit richtig, wenn man jetzt die wirkliche Rückfälligkeit über 2 Jahre nimmt. Und wir kennen das aus der Statistik. Dort unterscheiden wir den Fehler 1. Art und den Fehler 2. Art. Das heißt, unsere Nullhypothese ist, der oder die Strafträterin wird nicht rückfällig. Der Fehler 1. Art ist jetzt, dass die, die mit hohem Risiko eingestuft werden, aber nicht rückfällig werden. Und da sehen wir oder ProPublica herausgefunden, die Wahrscheinlichkeit, dass ein weißer oder eine weiße Opfer dieses Fehlers wird, bei 23,5% liegt und bei Afroamerikanerinnen liegt die Wahrscheinlichkeit bei 44,9%. Es ist also fast doppelt so hoch. Es gibt auch den Fehler 2. Art. Das ist die Wahrscheinlichkeit, dass jemand mit niedrigen Risiko eingestuft wird, aber trotzdem rückfällig wird. Und hier ist die Wahrscheinlichkeit umgekehrt. Weiße diesen Fehler zum Opfer zu fallen, Afroamerikanerinnen nur 28%. Aber wie kommt das? Wir nehmen jetzt mal an, dass das kompetente Programmiererinnen sind, die in den Machine Learning-Kursen diese gemacht haben, gut aufgepasst haben und technisch alles richtig gemacht haben. Nun lernt Machine Learning immer eine Abbildung von einem X auf ein Y. Zum Beispiel hier haben wir bestimmte Informationen zu Gefangenen auf der Rückfälligkeit der Gefangenen. Das Problem ist jetzt, dass X ist keine Stichprobe der Grundgesamtheit, sondern eine Untermenge der Grundgesamtheit, die die Polizei untersucht hat. Das ist also ein X-Stich. Das ist nicht repräsentativ. Das kann eine selbst erfüllende Probezeihung sein. Denn vielleicht sind Afroamerikanerinnen einfach in der Situation, dass sie deutlich häufiger kontrolliert werden und es einfach dadurch mehr Straffälle in dem Datensatz gibt. Und auf der anderen Seite, auf der Y-Seite, das heißt, diese Risikopurteilung, ob man rückfällig wird oder nicht, ist ebenfalls eine Verfälschung. Die bezieht sich auch nur auf die, die vom Rechtssystem verurteilt werden. Das heißt, hier haben wir auch einen Y-Stich. Und wenn man zum Beispiel ein Jury-System hat, wie man es in den USA findet, dann kann auch dort Latent oder weniger Latent diskriminiert werden. Das macht Machine Learning pseudoobjektive, hat Geldwäsche für Vorurteile. Weil sie fallen in dieses System rein und sind dann erstmal nicht mehr sichtbar. Und hier kommen wir jetzt zum Element der direkten Beeinflussungen. Denn diese Systeme werden zwar nur als Entscheidungshilfen verkauft, das ist halt nur Werkzeuge, die genutzt werden können, aber die Leute, die die Entscheidung treffen, verlassen sich direkt auf diese Systeme. Das heißt, die vertrauen diesen diskriminierenden Algorithmen. Das ist der Herr von Thomas Schimmek. Und der hat zum Beispiel Veronica Hiller, die Bewerungshelferin, die dem Richter im Endeffekt ein Strafmaß vorschlägt, interviewt. Und das Spannende ist, die hat also ein Vierteljahrhundert Erfahrung im Dienst, aber sie schwört auf diesen Algorithmus. Sie sagt, der ist gut, akkurat und einfach. Und was wir einfach zeigen wollen, ist, dass es hier um soziotechnische Systeme gibt. Das heißt, es geht nicht nur um das Machine Learning, sondern auch um den Algorithmus. Es geht auch um die Menschen, die ihn nutzen. Denn selbst wenn das System fair wäre, wir haben gerade gesehen, dass es das nicht ist, heißt es immer noch nicht, dass die Ergebnisse des Systems auch fair interpretiert werden. Und wir finden, dass es sehr wichtig für jene, die solche Systeme bauen. Und da sind wahrscheinlich einige heute hier. Diese Verzerrung in und durch Daten sind allgegenwärtig. Wir haben zum Beispiel hier ein Beispiel von Google. Das ist eine Suche nach den Keywords Three White Teenagers. Und das ist eine Suche nach den Keyword Three Black Teenagers. Das heißt, Technologie offenbart hier gesellschaftliche Probleme. Wir haben sie gesagt, mit Soziotechnischen Systemen zu tun, die eine bestimmte Weltvorstellung festschreiben, vermitteln, aber auch verstärken können. Und die Probleme können ganz subtil und banal sein, wie zum Beispiel dieses Beispiel aus der statistischen Übersetzung zeigt. Jetzt muss man wissen, dass die türkische Sprache nicht zwischen Geschlechter unterscheidet. Das heißt, er, sie und er sind alle oben. Es gibt auch keine Unterscheidung zwischen Arzt und Ärztin, beides Doktor. Und wenn wir jetzt mit Google Translate oder einem anderen statistischen Übersetzungs das Programm setze, wie er ist ein Babysitter und sie ist eine Ärztin, hin und her übersetzen, dann stellen wir fest, dass die Übersetzung bestimmte Geschlechterklischees geben, was ihr bisher über Machine Learning gelernt habt in diesem Vortrag, vielleicht schon erklären, wie das passiert. Wir lernen aus Beispielen und in diesen Beispielen sind Verzerrungen. In diesem Fall, mehr weibliche Babysitter, mehr männliche Ärzte. Denn wenn wir übersetzen, dann berechnen wir ja Wahrscheinlichkeiten und nehmen in der Regel einfach das wahrscheinlichste Ergebnis. Das heißt, selbst minimale Verzerrungen können verstärkt werden. Diese Übersetzung sieht so aus, wie wir sie gerade sehen. Aber hier haben wir was, was technisch erklärbar ist. Aber welche Auswirkungen hat das auf die Nutzerinnen? Welche Auswirkungen hat das auf die Weltsicht? Wenn man die Google-Ergebnisse so sieht, wie man sie sieht. Und anhand von Facebook wollen wir jetzt zeigen, wie direkt und intransparent diese Beeinflussung sein kann. Denn auch Facebook ist ein hochkomplexes Soziotechnisches System, in dem Nutzerinnen gleichzeitig Produzenten und Elementen sind. Facebooks erklärtes Ziel lautet ja, jedem zu jeder Zeit die richtigen Inhalte zu zeigen. Dafür nutzt Facebook nach eigener Aussage 100.000 verschiedene Faktoren, um algorithmisch die besten Geschichten aus den potentiellen Geschichten auszuwählen. Das heißt, wenn ihr jetzt vorstellt und im Medien, das sind jetzt Zahlen aus dem Kusinski-Paper mit den Persönlichkeitsmerkmalen, das heißt, da haben im Medien 200 Bekannte und liken 68 Seiten. Das heißt, wenn nur jeder Dritte was macht, dann sind das pro Tag 90 potentielle Beiträge. Wenn man jetzt nur 5 oder 10 Minuten auf der Seite verweilt, dann kann man sich die nicht angucken. Das heißt, eine chronologische Darstellung ist zwecklos und eine Kuration unumgänglich. Und deswegen sortiert Facebook die Nachrichten nach einem Algorithmus. Das Problem ist aber, dass dieser Vorgang sehr intransparent ist. Das heißt, die Algorithmen sehen und verstehen die Algorithmen nicht. Und die glauben im Zweifelsfall, wenn sie darauf angesprochen werden, dass die Algorithmen objektiv und unabhängig sind. Dabei beziehe ich mich auf folgende Studie. Die kommt aus der Kai der Computer-Human-Interaction-Community. Und dort waren sich 62,5% der Teilnehmer und Teilnehmerinnen in dieser Studie der Existenz von Newsfeed-Algorithmen, die die Algorithmen-Interaction nicht bewusst. Das heißt, wir haben hier eine qualitative Studie mit 40 Teilnehmerinnen, die so ausgewählt wurden, dass sie repräsentativ sind für die US-Grundgesamtheit. Und von denen war also 25 Personen nicht bewusst, dass überhaupt irgendwie sortiert wird. Die Studie zeigt auch, dass die Teilnehmerinnen durchaus verärgert sind, wenn sie Posts von engem Freunden oder Familienmitgliedern nicht sehen. Sie machen den Fehler eher bei sich oder anderen, als bei einem Algorithmus, von dem sie im Zweifelsfall auch nichts wissen. Sie glauben dann zum Beispiel, dass sie etwas übersehen haben oder sie denken, dass ihnen bestimmte Bekannten was Bekannte bewusst Geschichten vorenthalten, weil sie vielleicht nicht so gut miteinander bekannt sind, sich noch nicht so gut kennen. Daher kommt auch dieses Titelgebende Zitat. I always assumed that I wasn't really that close and someone thought, okay, I don't see the baby photos because I don't know the person so well, but the person shared it all and an Algorithmus has now decided that the person A doesn't see the baby from the person B. So these systems, which act in the shadows and which are not aware have an effect on human relations. They reconfigure them. You also have to be aware was diese Nachrichtenempfehlungssysteme eigentlich erreichen wollen. Das sind ja von der Art her wie Netflix. Das heißt, wenn ich jetzt auf YouTube oder einem anderen Portal mir Videos angucke und ich gucke mir zehn Videos an und davon sind vier mit lustigen Hundebabys, dann folgert das System. Okay, Hendrik mag lustige Hundebabys. Dem zeige ich jetzt in Zukunft mehr lustige Hundebabys. Nun sind aber auch Nachrichten auf Plattformen wie YouTube. Das heißt, wenn ich jetzt Videos angucke und von denen geht es in vielen darum, dass Flüchtlinge kriminell sind, dann empfiehlt mir das System Videos von kriminellen Flüchtlingen. Das heißt, da passiert was mit meiner Weltwahrnehmung. Das heißt, so derartige Filterblasen und Echokammern entstehen online. Es gibt es natürlich auch im echten Leben. Der Freundeskreis ist auch eine Echokammer, in dem bestimmte Weltvorstellung ein Transparenter. Denn es passiert unter dem gleichen Logo. Bei mir ist ein YouTube-Logo, bei euch ist ein YouTube-Logo. Das sind Probleme, mit denen wir umgehen müssen. Das war mein Teil zur Perspektive der Mensch-Computer-Interaktion, die sich als eigenes Feld mit derartigen Fragestellungen auseinandersetzt. Ich übergebe jetzt an Kahn, die noch mal technisch ins Detail gehen wird. Viel Erfolg. Zum ersten Teil dieser Präsentation zeigten wir das Algorithmen uns schon heute beeinflussen, bewusst und unbewusst, direkt und indirekt. Und wir haben gesehen, mit welcher Rigorosität ihre Voraussagen umgesetzt werden, nachdem sie einmal zur Verfügung stehen. Das ist immer unter der Annahme, der auf Unvoreingenommenheit. Wir haben auch bereits angedeutet, dass sie das liebe Vertrauen nicht unbedingt angebracht ist. In diesem zweiten Teil der Präsentation möchten wir darauf eingehen, wann dieses Vertrauen nicht angebracht ist. Dabei möchte ich besonders auf ein Wort eingehen, dass wir bereits viel verwendet haben. Das Wort Bayes oder zu Deutsch Verzerrung. In maschinellen Lernen können wir grundsätzlich in zwei verschiedene Formen von Bayes unterscheiden. Auf der eine Seite haben wir Bayes der Daten. Also Bayes, der ein Spiegel ist, unserer eigenen Vorteile und Moralvorstellungen. Ob uns das jetzt bewusst ist oder nicht. Bayes in Daten kann aber auch entstehen, ganz zufällig durch mangelhafte Erhebung von Daten. Wenn das passiert, wird eine Grundgesamtheit, also die Population verzerrt abgebildet. Auf der anderen Seite befindet sich dabei es durch das Modellieren. Das sind also die Gesamtheit aller Annahmen, die Ingenieure und Wissenschaftler von Algorithmen machen und machen müssen, um überhaupt voraussagen treffen zu können. Dabei kann sich wiederum der Bayes des Modells so auf die Daten auswirken, dass der Bayes in den Daten verringert wird. Dazu gibt es vielfältige Forschung. Es kann aber auch den Bayes in den Daten verstärken. Auf der anderen Seite kann auch Bayes in den Daten den Modellier Bayes beeinflussen. Wir werden in folgenden vier Beispielen uns mit all diesen Phänomen auseinandersetzen. Maschinelles Lern hatten in den letzten Jahren viele Durchbrüche bei der algorithmischen Wahrnehmung erzielt. Wir haben in den letzten Jahren eine bewältige kognitive Aufgabe, die vor kurzem in weiterferne Schienen. Das hat aber auch eine Welle von Forschung ausgelöst. Die unlösbar geglaubte Aufgaben wieder aufgreift und neu bewertet. Eine Studie dieser Welle ist im November letzten Jahres erschienen. Zwei Forscher der Shanghai Chang-Tong-Universität überhaupten zeigen zu können. Dass man Menschen mit kriminellen Absichten bereits an einem einfachen Vorwahrwahrscheinlichkeit hat. Dieses Ergebnis steht natürlich im starken Kontrast zu den Forschungsergebnissen der letzten Dekaten, die Kriminalität eher sozioökonomischen Umständen zu schreiben. Wir wollen uns also im Folgenden mit dieser Studie ein bisschen näher beschäftigen. Die Autoren sammelten hierzu 1.800 Fotos von Chinesen im Alter zwischen 18 und 55 Jahren, die keine bemerkbaren Gesichtsbehaarungen, Narben oder Tattoos zeigten. Dabei repräsentieren circa 700 Fotos z.B. dioriprikkriminell. Die Fotos selbst wurden von der Polizei bereitgestellt und es handelt sich bei allen Fotos um bereits verurteilte Straftäter. Auf der anderen Seite mussten auch Bilder rechtsschaffender Bürger repräsentiert werden. Dafür wurden 1.100 Fotos aus verschiedenen Quellen des Internets beschafft. Dabei ist anzunehmen, dass diese von Seiten wie Link entstanden, da die Autoren den Beruf der vermeintlich Rechtschaffenden kennen. Um uns nur ein besseres Bild über die Daten zu machen, wollen wir uns also ein paar Datenpunkte anschauen. Jeder dieser Reihe entsprechend drei Datenpunkten, aus jeweils eine Kategorie kriminell oder rechtsschaffend. Dazu würde ich gerne ein kleines Experiment wagen. Ich zähle gleich mal bis 2 und alle, die glauben, die obere Reihe seien die rechtsschaffen, die bitte ich dann die linke Hand zu heben, also ich hebe die rechte Hand, damit ihr wisst, welche Hand. Und diejenigen, die denken, die untere Reihe wären die rechtsschaffen, die bitte ich also die rechte Hand zu heben. Jetzt können wir gleich mal probieren. Also ich zähle einfach mal bis 2, 1, 2 und dann hebe mal die Hand. Also die meisten von uns sind uns relativ einig, dass wir die rechtschaffen identifizieren können. Aber warum können wir das? Eigentlich sollten Menschen dazu ja nicht in der Lage sein und wir wissen, dass wir dazu nicht in der Lage sind. Ich denke also die meisten von uns haben gewisse Hinweise in den Bildern wahrgenommen, die auf der Unterschiedlichkeit ist offensichtlich hier der Kragen im Bild, der darauf hinweist, dass das vielleicht ein Bewerbungsfoto sein könnte oder ein leichtes Grinsen im Gesicht. Entgegen sind die Leute, die auf der kriminellen Seite sind, nicht besonders vorteilhaft dargestellt, also den man hier wird der Scheinwerfer ins Gesicht gestrahlt, was dann Hautunreiten und Falten besonders betont. Woin gegen bei den Bewerbungsfotos offensichtlich Make-up im Spiel ist oder Photoshop. In der ganzen Fall kann es also sein, dass der Algorithmus einfach nur erkennt, in welchen Photoshop nachgeholfen hat. Das kann man also zum Beispiel schon an lokalen Pixelstatistiken gut erkennen. Diese Studie ist vielleicht ein extremes Beispiel, wie gravierend sich die verwendeten Daten auf das Ergebnis einer Voraussage eines Algorithmus auswirken können. Dies ist ein besonders starkes Beispiel für Stichprobenverzerrung, wo die Daten unterschiedlich dargestellt werden. Bei es kann aber auch entstehen ganz zufällig, wenn zu wenige Datenpunkten vorhanden sind, um verlässliche Aussagen zu treffen. Solche Probleme sehen wir also oft in medizinischen Studien oder psychologischen Studien, wo Tests heuer und langwierig sind. Melde bei es, wenn befragte, unkorekte Angaben machen, das geschieht zum Beispiel oft bei Gewaltverbrechen, bei denen Angst ist. Aber es gibt ja auch eine große Rolle, die ein gewisses Problem beschreiben soll, eine große Rolle. Kommen wir nun zu zweiten Kategorie, dem bei es in den Modellen. Hat man sich früher, also vor dem die Learning Hype, sagen wir mal vor 2012, in einer Einführungsveranstaltung zum Maschinen-Lernen gesetzt, dann begann fast jeder mit dem Erklaren des No-Free-Lunch-Theorems. Also der Aussage, dass kein Modell im Anschluss folgerten wir, dass wir Annahmen machen müssen, die das Modell im Hinblick auf unser spezifisches Problem beschränken. Diese Annahmen haben aber ihre Grenzen, dann versorgt das Modell ohne, dass sich das Modell darüber bewusst ist. Das heißt also, unser Job als Wissenschaftler oder Studierende ist es diese Grenzfälle zu benennen und zu testen, an Anwendungsfall dieser Algorithmen nicht versagen. An diesen Prinzipien hat sich auch bis heute nichts geändert, aber der Erfolgsmaschinen-Lerns in bestimmten Bereichen, lässt selbst uns Wissenschaftlerinnen diese universalen Regeln manchmal vergessen. Wir sind dann versucht zu glauben, dass Modelle so flexibel sind, dass die Grenzen quasi nicht mehr existieren. Empfängenden möchte ich aber auf ein Beispiel eingehen, dass ich auch mit dem die Learning Hype gar nicht geändert hat. Das ist das Problem der Zielsetzung und die Frage, wie Erfolg zu bewerten ist. Im Beginn des Vortrags sprach Hendrik über das Messen von Fehlern und dass das Korrigieren dieser Fehler ein wichtiger Mechanismus sei, um Algorithmen zu trainieren. Doch was ein Fehler ist, ist oft nicht einfach zu bestimmen und es liegt in der Hand des Ingenieurs zu definieren. Zum Beispiel, wie mäßig Erfolg bei YouTube-Empfehlungen mäßig die Zeit, die jemand auf der Plattform verbringt, dass der PC vielleicht nur unter Ecke steht und die Person gar nicht mehr im Raum ist oder mäßig die Anzahl von Klicks. Aber wenn diese zu Frequenz sind, dann bedeutet das vielleicht, dass die Person das Video gar nicht mag. Ein anderes Problem sind Übersetzungen. Stellen Sie sich nur also vor, dass wir einen Corpus von Übersetzungen haben und wir wollen messen, ob ein Text richtig übersetzt wurde. Wie können wir das messen? Wird für Wirt oder Paragraf für Paragraf. Wenn wir Wurt für Wurt messen, dann spielen wir vielleicht mit der Wurtreinfolge in verschiedenen Sprachen und es funktioniert ja nicht so gut. Wenn wir Paragraf für Paragraf messen, funktioniert das vielleicht nicht so gut, weil der Algorithmus den Kontext nicht mehr begreift. Und wie gehen wir mit Synonymen um? Wenn also der Algorithmus ein richtiges Synonym gefunden hat, wird dann trotzdem ein Fehler berechnet, wenn der spezielle Datenpunkt besagt, um das Synonym zu übersetzen ist. Man muss also Entscheidungen treffen. Die Ingenieure bei Google und anderen führenden Übersetzungssystem beantworten die Frage folgendermaßen. Wir übersetzen Satz für Satz. Dabei gehen wir davon aus, dass Sätze unabhängig sind und nur das Wahrscheinlichste Wurt oder die Wahrscheinlichste Phrase wird richtig bewertet. Wenn wir nun also nochmal auf das Beispiel der Algorithmus eingehen, wenn wir nun, sie ist eine Frau, sie ist Ärztin in das genderneutrale Türkisch übersetzen zu Obyr Kadin, Obyr Doktor und dann zurück übersetzen ins Deutsche, dann wird dies mit sie ist eine Frau, er ist ausübersetzt. Und jetzt wissen wir auch warum. Da wir annahmen, dass Sätze unabhängig sind, weiß der Algorithmus gar nichts vom Kontext. Also, dass wir hier über eine Frau sprechen. Wenn der Algorithmus Obyr Doktor dann übersetzt, dann übersetzt er nur die Wahrscheinlichste Phrase und die ist erst Arzt. Es handelt sich hier also nicht um Bayes in den Daten oder zumindest nicht unbedingt, sondern um Bayes in den Annahmen, die das Modell zu sehr vereinfachen. Ein zweites Beispiel für das noch klarer vor Augen, wenn wir hier eben den Punkt durch ein Komma ersetzen, dann kann der Algorithmus das richtig übersetzen, weil er sich des Kontexts bewusst ist. Ein nächstes Beispiel um das Phänomen Bayes wollen wir zeigen, wie Bayes in Modellen Bayes in Daten verstärken kann. Dies wird besonders im sogenannten aktiven Lernszenario bewusst. Aktives Lernen funktioniert wie folgt. Wir haben Daten, auf deren Grundlage wir ein Algorithmus lernen. Für manche voraussagen sind wir uns aber nicht sicher. Daher fragen wir einen menschlichen Expertenumrat und der Algorithmus fragt dann meistens die folgende Frage. Habe ich diesen Datenpunkt richtig bewertet? Und falls nicht, bitte um Feedback. Das führt dazu, dass der Algorithmus in der Zukunft mehr Daten zur Verfügung gestellt bekommt um dann besser zu lernen und weniger auf dem Hilfe fragen zu müssen. Das klingt gut und so viel zum störungsfreien Ablauf. Was aber nun, wenn ein Datenpunkt mit falschen oder verzerrten Merkmalen beschrieben wird? Und dazu kommt, dass unser Mensch vielleicht nicht so wachsam ist, wie wir in unserem Modell annehmen. Wir haben also eine kleine Verzerrung im Datensatz und die Annahme des idealen Menschen wird verletzt in unserem eigentlichen Phänomen. Dieser falsche Datenpunkt wird also ignoriert. Das führt dann dazu, dass obwohl die Ursache der Verzerrung nicht mehr aktiv ist, dieser Datenpunkt nun vermehrt wird aufgrund der Tatsache, dass der Mensch nicht auf die Frage, habe ich diesen Datenpunkt richtig bewertet, reagiert. Das führt dann wiederum dazu, wenn man mehr verzerrte Daten hat, dass diese mehr verzerrten Daten sich immer weiter vermehren können. Man kann das also jetzt in freier Wildbahn beobachten. Es ist relativ schwer zu sagen, weil sich natürlich solche großen Player wie Google oder Facebook nicht immer in die Kappen blicken lassen. Aber ich denke, ein Tweet aus dem vergangenen Jahr schließend, dass das vielleicht hier passiert sein könnte. Also eine Afroamerikanerin mit Kussmunt in der Mitte unten wird hier als Gorilla bezeichnet. Es ist eine geschichtsrechtliche Bezeichnung für Afroamerikaner in Amerika und hat natürlich große Wellen geschlagen. Google erklärt die Ursache des Fehlers nicht genau genug, um genau zu wissen, was ihnen ausgelöst hat, aber zwei Probleme können eine Rolle gespielt haben. Also eins wäre, dass die Bildbeschreibung immer von Menschen und die erlauben sich gern mal zu Trollen und verfälschen das originale Datenset damit. Das kann aber nicht die einzige Ursache sein. Es kommt also mindestens noch dazu, dass gewisse Gruppen von Menschen entweder einfach sehr klein sind in einer Gesellschaft oder unterrepräsentiert sind. Und vielleicht auch drittens, man muss schon sagen, dass bei großen Tech-Würmen sehr wenig Grenzen-Szenarien oder Szenarien getestet werden. Wir denken da zum Beispiel an den Microsoft Chatbot, der ja ganz ähnliche Phänomene gezeigt hat. Das ist auch sehr rassistische Chat-Nachrichten beschrieben hat. Das letzte relevante Beispiel zum Thema BIAS soll aus dem Bereich des übertragenden Lernens kommen. Hierbei ist das Ziel eine Aufgabe, das lösen eine Aufgabe, Verzeihung. Und diese Aufgabe hat aber nur wenige Datenpunkte und das sind nicht genug, um den Algorithmus erfolgreich lernen zu lassen. Aber es gibt eine ähnliche Aufgabe, die erfolgreich gelöst werden kann. Das ist ein gut funktionierender Modell zu verwenden, um unseren eigentlichen Problem zu helfen. Diese Technik führt aber wieder zu Verzerrungen, die noch schwer bestimmt und kontrolliert werden können. Das wird klar, wenn wir ein konkretes Beispiel betrachten. Wir können eine ganze Halle voll Roboterarme stellen, um ihnen bestimmte motorische Aufgaben beizubringen. Aber selbst 1000 Roboterarme lernen nur mühsam. In der modernen Robotik sind, dass man Systeme in Simulationen üben lässt. Systeme werden also für tausende Jahre in Simulationen geübt. Das ist natürlich aber nie Realität. Wir denken da an Gravidisation-Simulationen, die fehlend halten kann, Lichtbedingungen, die nicht ganz real sind oder der idealisierte Roboterarm, der hier verwendet wird. In diesem Zusammenhauch möchte ich auch sagen, wie attraktiv auch die Zukunft mit selbstfahrenden Autos erscheinen mag. Mit ihren Versprechen nach mehr Platzen entsteht weniger Unfällen und effektiverer Verkehrsführung. So sollte man auch sehr skeptisch sein, denn auch diese Systeme haben die meiste Lebenserfahrung in Simulationen gesammelt. Eine ganz andere Betrachtungsweise auf Daten ist die der Datendichte. Daten können dicht beieinander liegen oder weit voneinander entfernt. In Bereichen mit vielen Daten ist es oft einfach, z. B. korrekte Aussagen zu treffen. Neue Datenpunkte in diesen Bereichen zu beschreiben, nennt man Interpolation. Wohnen gegen Bereiche mit wenigen Daten oder keinen Datenpunkten sehr schwer zu beschreiben sind. Diese Aufgabe schreibt man mit Extrapolationen. Korrektes Extrapolieren ist im Allgemeinen nicht möglich oder nur möglich, wenn man korrekte Annahmen über den Entstehungsprozess der Daten macht. Interpolieren, also das Wandern von einem oder mehreren Datenpunkten zum anderen und sich die Fragen des Alltags beantworten. Wie würde das Kind von Kim Young Un und Donald J. Trump aussehen? Neuste Anwendungen dieser Technik beinhalten auch das gezielte Veränderung von Video, in Bild und Sprache. Beispielsweise wurde hier das Gesicht von der Hauptdarstellerin des Wonder Woman Films Gail Gaddon auf einen pornografischen Film gelegt. Man muss nicht weit denken um sich die Konsequenzen solcher Techniken für Fake News zu finden. Im extremsten Fall gibt es ja wenige oder keine Daten, wo eine Aussage getroffen werden soll. Nun ist es wichtig, die richtige Annahmen zu treffen, um Extrapolieren zu können. Das haben wir ja bereits gesagt. Das ist aber eine extrem schwere Aufgabe, zu der auch moderne Wissenschaft nur wenige und unvollständige Antworten weiß. Was also an Stadten aller Regel passiert, ist, dass Algorithmen keine Annahmen machen. Und das kann zu vorher gesehene Phänomen führen. Das kann man dieses Wissen auch nutzen zu sogenannten feindlichen Attacken auf Algorithmen. Eine Attacke verläuft beispielsweise so. Man nehme einen Datenpunkt aus dem Datenset und dessen beschreibende Merkmale. Also hier zum Beispiel die Bilder von Verkehrsstildern und die Verkehrsstilde. Man suche dann fernab von den Daten einen Punkt, der sehr ähnlich ist, den Algorithmus mit einem ganz anderen Merkmal beschreiben würde. Und das gruselig ist, dass dies auch funktioniert mit ausgedruckten Versionen derselben Attacke und wenn man die nicht dieselben Daten und nicht mal denselben Modell kennt oder verwendet. Wen das interessiert, den empfehle ich sehr, für die nächste Präsentation zu bleiben. Das wird, glaube ich, der erkennt Punkt der nächsten Präsentation sein. Abschließend zum Thema möchte ich nochmal eins deutlich machen. Wenn das modern maschinellen Lerns Korrelation evaluiert wird und nicht Kausalität, mathematische Kausalitätsforschung, also den Suche nach Ursache und Effekt für komplexe Systeme ist erst in seinen Kinderschulen und Korrelation zu finden und zu beschreiben ist nur einer der Schritte, der dazu nötig ist. Bevor ich die Runde für Fragen öffne, haben Henik und ich noch einen Anliegen. Ich hoffe, wir haben umfassend die technischen Möglichkeiten und die technischen Lerns dargestellt und welche Begrenzungen es aufweist. Letzteres soll und wird uns als Gesellschaft aber nicht davon abhalten, diese großartigen Fortschritte zu genießen. Also denken wir da an Medizin und molekulare Biologie, in denen diese technischen Großes versprechen und auch schon geliefert haben. Daraus ergeben sich trotzdem große politische Fragen, die uns alle was angehen. Entscheidungen, die Wissenschaftler nicht alleine treffen können, wollen und müssen uns fragen, wer soll im konkreten Fall Entscheidungen treffen, Menschen oder Maschinen. Wer ist schuld, wenn Fehler passieren, Ingenieure, Firmen, Start oder vielleicht gar niemand. Wie können staatliche Garantien wie Gleichheit juristisch umgesetzt werden im Angesicht solchen neuen Algorithmen und natürlich auch, wie können Algorithmen oder sollten Algorithmen reguliert werden. An der Stelle möchte ich mich für die Aufmerksamkeit und würde die Runde eröffnen für Fragen. Vielen Dank, Karin. Vielen Dank, Henrich. Wenn ihr Fragen habt, bitte alle Mikros aufstellen und ja, dann spielt Barton Mikrofon 1, bitte schön. Ja, vielen Dank für den großartigen Vortrag. Das war super spannend und es ist, glaube ich, ein sehr, sehr wichtiges Thema. Wie gehen wir damit um? Politische Organisationen auf die Demokratie, all diese Sachen. Jetzt vom Beispiel, das Henrich gebracht hat, im ersten Teil ging es jetzt auch zum Beispiel über die Anwendung von KI für, ja, sagen wir, politische Propaganda, könnte man auch sehen, Cambridge Analytica, die ganzen Sachen und gleichzeitig als zweites Thema natürlich die Filterbubbles, die sich bilden, wo natürlich auch eine Verstärkung dieses Phänomenes möglich ist, meine Frage, die ich mich in diesem Jahr gestellt habe und mit Brexit, mit Trump Wahlen und so weiter, was sind die Möglichkeiten, die sich bieten, um ja, dem entgegenzuwirken, dass sich Meinungen so stark durch Filterbubbles polarisieren, dass Leute durch targeted advertising beeinflusst werden, die mit AI generiert werden und Big Data. Wie, ja, habt die konkrete Vorschläge? Ja, vielen Dank für die Frage. Es geht also darum, was man jetzt gegen diese Probleme, insbesondere im politischen Bereich, machen kann. Es ist natürlich eine riesige Frage, wird uns wahrscheinlich auch noch lange begleiten. Ich glaube, Kognitive Diversität im Bekannten und Freundeskreis gibt es aber auch in Unternehmen. Und unsere Ansätze, so kommen sie ja zusammen, mir geht es ja darum, wie können wir Leute unterstützen, wie machen wir Visualisierung, wie machen wir Algorithmen sichtbar, wie helfen den Leuten zu verstehen, was da passiert, meine Perspektive, Karns Perspektive dann, wie können wir die Algorithmen die Black Box aufmachen, wie können wir erklären, wie kann ein System auch sagen, wie sicher es ist mit seiner Vorhersage, Fairness, Accountability and Transparency in Machine Learning, FatML.org. Da gibt es eine ganz große Gruppe von Leuten, die sich damit auseinandersetzen, auch aus ganz verschiedenen Richtungen, weil es gibt viel Arbeit dazu in der Psychologie, in der Soziologie, aber auch halt in der Informatik. FatML.org ist eine sehr gute Adresse für so was. Eine Bitte an die, die gerade rausgehen, macht das bitte so leise, wie es geht und versucht durch die Tür zu meiner Linken, zu eurer Rechten, dort hinten den Saal zu verlassen. Ja, aber Mikrofon 5, du hast eine Frage? Ja, eher ein kurzer Kommentar aus dem Bereich des Machine Learnings, ist das, was wir da gesehen haben bei dem Gorilla Beispiel ebenso wie bei dem Übersetzungsbeispiel, nicht eher ein Bias in der Kostenfunktion. Dadurch, wie wir dem Algorithmus gesagt haben, es ist genauso teuer, wenn du die Klasse Gorilla mit der Klasse, wenn du eine andere Klasse verwechselst, das wird die Klasse, die Oberklasse Mensch mit der Oberklasse Tier verwechselst oder in dem Gender Beispiel, dass er und sie als Verwechslung eines einzelnen Wortes genauso teuer sind wie beliebige andere Wortverwechslungen. Sehr guter Punkt. Also man kann natürlich in der Kostenfunktion dagegen vorwirken, man kann sagen, dieser Fehler ist schlimmer für uns als der andere Fehler. Aber wenn wir davon ausgehen, dass alle Klassen gleich sind und wir einfach für alle Klassen gleich gute Ergebnisse haben wollen und das kommt ja aus Google Photos, wo wir das für alle Kategorien machen wollen, dann ist es halt wieder, dann kommt der Mensch wieder rein. Es ist dann nicht mehr allgemeines Machine Learning, sondern es ist wieder so fricke Lösung. Und dieses Problem des Bayes, und darum ging es ja, ist einfach den Machine Learning in der Rent und wir müssen damit umgehen. Und ich glaube nicht, dass man es einfach in die Kostenfunktion schreiben kann. Oder dazu noch was dazu zu sagen. Ja, der Punkt von dem Beispiel war ja auch quasi, dass wir einen falschen Datenpunkt existiert haben und wie das quasi durch die in Bayes vielleicht oder eine Annahme in der Kostenfunktion dann eigentlich noch viel verstärkt wird. Es geht ja darum, wie quasi so eine Negativspirale manchmal losgetreten werden kann. Dadurch, dass wir Bayes einerseits in den Daten haben, aber auch gewisse Annahme machen, die vielleicht die Realität zu sehr vereinfachen. Also das war ja der Punkt dieses Beispiels. Und vielleicht dazu noch, das sind natürlich sehr offensichtliche Beispiele, um das hier deutlich zu machen. Es gibt natürlich auch immer diese Blindstellen, so Blindspots, wo halt was passiert, von denen wir das gar nicht wissen. Das ist ja auf eine Art auch ein Blindspot, der vielleicht auch damit zusammenhängt, dass Google nicht divers genug ist und nicht genug Leute derartige Daten damit getestet haben, bevor sie es publik gemacht haben. Mikro von Einz, deine Frage? Ja, vielen Dank. Euer Vortrag war also ein bisschen auch als Einführung gedacht, das Thema auf die Agenda zu bringen, was ich ganz großartig finde. Ich habe ja ganz viele Bias gesprochen über Verzerrungen. Wenn man das so sagt, denkt man implizit ganz oft an neutral und unverzehrt. Und ich fand es toll, du hattest das No Free Lunch Theorien da, also sagen Machine Learning ohne Bias gibt es gerade nicht. Du hast auch gerade gesagt, das ist Machine Learning Inherent. Aber das ist halt ganz wichtig zu sagen. Deswegen wollte ich einfach mal fragen, wenn es um politische Debatten geht, wenn es um öffentliche Debatten geht, ob er dann denkt, dass Bias und Verzerrungen in der Verzerrung sind, ob man sich das nicht verhindern kann, weil es eben dieses neutrale Unverzehrte immer mitimpliziert, oder wer denkt, dass man das dann nochmal anders frame'n müsste? Wir sind auf jeden Fall keine Kommunikationsstrategien. Es gibt natürlich viele hervorragende Mediensoziologen, Kommunikationswissenschaftler, das wahrscheinlich viel besser machen können. Wir wollten jetzt erstmal in diesem Rahmen zeigen, welche Probleme wir als Techniker, als Informatiker, wir promovieren ja beide zu diesem Themen, sehen. Wir haben wirklich dabei auch noch sehr lange beschäftigen, das richtig an die Leute zu bringen. Danke schön. Wir haben eine Frage aus dem ISI. Ja, danke. Eine Frage aus dem Internet. Hat Menschliches Lernen nicht genau genommen dieselben Probleme wie Maschinelles Lernen oder gibt es da einen prinzipiellen Unterschied? Guck mal zu dir. Also, das ist eine Frage, die natürlich nicht nur das Maschinelle Bewerren betrifft, sondern auch die Psychologie oder die Evolutionsforschung, also der Algorithmus, oder die Idee, die Grundidee des Maschinellen Lernens ist ja quasi Fehler festzustellen und die dann zu kommunizieren und das Modell wird daraufhin besser, ob das jetzt bei uns Menschen so funktioniert. Ich bin mir nicht sicher, ob das jemals jemand genauso gesagt hat. Aber ich glaube, im Sinne von, dass unser Gehirn optimiert, das wird, oder das habe ich bestreiten gehört von Psychologen. Also, die Frage ist nicht so sehr, das Problem, was ich mit der Frage habe, ist nicht so sehr, wie das das Maschinelle Lernen funktioniert, sondern wie wir selbst funktionieren. Ich glaube, wir sind doch gerade auf dem Weg, das selbst rauszufinden und die Modelle des Maschinellen Lernens sind oft nur grobe Vereinfachungen dafür, wie wir selbst funktionieren. Ich würde auch sagen, es ist bio- inspiriert und es gab bestimmt, es gab auch eine Zeit, wo alles Maschinen waren, der Körper als Maschine. Das ist die Metapher ihrer Zeit. Jetzt haben wir diese künstlichen neuronalen Netzwerke und jetzt sind das die Metaphern, die wir nutzen. Also, ich glaube, das ist ein fundamentaler Unterschied zwischen menschlichem und künstlichem Lernen. Es gibt auch so einen zentralen Leitsatz im Maschinellen Lernen, der besagt, dass alle Modelle falsch sind und einige vielleicht nützlich sind. Und ich denke, das trifft auch uns Menschen zu. Also, alle Modelle, die wir verwenden, alle Annahmen, die wir machen, alle Seriotypen, die wir benutzen, die sind vielleicht manchmal nützlich, aber das ist immer falsch. Ich denke, das trifft für Menschen und Maschinen zu. Dankeschön. Mikrofon 4, deine Frage. Vielleicht eine etwas naive Frage, aber bestehend, oder gibt es Metriken, um diesen Bias, der uns täglich im Netz begegnet, zu bewerten? Also, dass man das schon visualisieren kann oder vermitteln kann, dass man sich in einem hohen Bias, dass man die Schmerzung bewegt oder auf glatt heiß läuft in dem Sinne, relativ, also ein hochkomplexes Thema wirklich runtergebrochen auf eine, sage ich mal, bewusstbar Machung von hoher statistischer Verzerrung, die einen umgibt. Es gibt durchaus Forschung in die Richtung, es gibt zum Beispiel die Civic Media Group bei einem MIT-Media Lab, einfach mal zeigen, was für ein Gen dabei ist. Sie bei den Leuten, die sie auf Twitter folgen haben. Also die folgen dann nur Männern zum Beispiel. Also solche Bewusstbeermachungen sind wichtig, sind glaube ich auch ein Teil des Puzzles, aber ich glaube die Medienpädagogik muss halt ernst genommen werden. Den Leuten muss das bewusst sein. Wenn wir diese Dinger benutzen wollen, wenn wir in solchen Autos rumfahren wollen, dann müssen wir das verstehen. Sonst, es gibt halt immer diese Blindspots und man kann einfach da nicht drauf eingehen. Man kann halt nicht jeden Spot da bedenken vorher. Vielleicht die Frage zu kontextualisieren von einem Algorithmus wissenschaftlichen Blickpunkt. Wir machen jetzt nicht unbedingt den Unterschied zwischen vielleicht dem, was eine Verzerrung oder eine negative oder eine positive Verzerrung ist, also wahrgenommen wird, sondern für uns gibt es halt nur Merkmale, die halt auf gewisse andere Merkmale schließen lassen und das führt dann wieder zu der Frage der Korrelation. Und wenn wir sagen, es gibt gewisse, oder wir haben jetzt oft ja Merkmale, die proxies sind für andere Merkmale, also wo ich wohne, ist oft ein Proxy dafür, wie ich aussehe oder woher ich komme. Was ich also im Machine Learning machen kann oder wie sich die Wissenschaft damit auseinandersetzt, ist sagen, okay, wenn ich weiß, welche Merkmale sensitiv sind, also welche ich nicht möchte, dass die meinem System korreliert mit der eigentlichen Aussage, die ich das mit dem System treffen soll, dann kann ich quasi in meine Fehlerfunktionen extra Term reinspeisen. Der sagt, du dekorrollierst jetzt das Ergebnis, was du hast mit dem besonderen Merkmale, was du als sensitiv, also zum Beispiel der Wohnort oder dein Bildungsstatus oder dein Einkommen, dass die keine Rolle spielen, dafür wie der Algorithmus Voraussagen macht. Was ich jetzt meinte, war jetzt wirklich nicht die Unterscheidung zwischen gut und schlecht, sondern wirklich eine Visualisierung dieser Datensatz oder dieses Ergebnis basiert auf wenigen Datensichten und der, also klar, im Kontext kompliziert zu bewerkstelligen, aber dass man eine Möglichkeit findet, so was zu darzustellen, dass diese Daten auf einer hohen Datendichte basieren und so weiter. Also unsere Antwort ist quasi, es gibt solche Sachen, es gibt sowas zu messen, aber es ist immer eine Reduktion von Komplexität und da verliert man immer was und da muss man sich immer bewusst machen, wie viel reduzieren dürfen wir, wie einfach dürfen wir es machen? Zur Frage der Datensichte kann man vielleicht noch sagen, dass wieder ein anderer Kernansatz, das sogenannte besianische Kernansatz, der sich jetzt nicht die Frage stellt, wie ist meine Hypothese aufgrund der vorhandenen Daten zu bewerten, sondern wie sind meine Daten aufgrund meiner verwendeten Hypothese zu bewerten? Das ist also nochmal eine ganz andere Ansicht auf die Sache und der wiederum erlaubt uns dann, gewisse Unsicherheiten auszudrücken über Voraussagen, die ich treffe. Also wenn zum Beispiel ein Datenpunkt, über den ich eine Aussage treffen will, weit abliegt von Daten, die ich habe, dann wird dieser Ansatz oder wenn ich diesen Ansatz verwende, wird mir dann sagen über die Voraussage, die ich jetzt hier treffe, bin ich sehr unsicher und das ist eine Forschungsrichtung, mit der sich viele Leute beschäftigen, die aber jetzt für diese großen Komplexzinsysteme, ich würde sagen, noch sehr am Anfang steht. Jovan, eins bitte. Danke für den superinteressanten Vortrag und danke auch an die Gebärdendolmetscherinnen, die hier ohne Unterlass die ganze Zeit übersetzt. Ich habe voll eine Frage, wie nützlich wird ihr das einschätzen, dass mit Qualitätskontrolle, also Qualitätsmeinsteinen für das Endergebnis zu kombinieren? Also als Beispiel, ein Auto ist dann hinreichend gut, wenn es im Verkehr weniger Leute umbringt als ein durchdurcher Menschlicher Fahrer oder sowas, würde das einen zusätzlichen Nutzen ergeben, kann man daraus noch mehr Rückschlüsse ziehen oder sind das völlig getrennte Sachen? Also das ist eigentlich genau das, worauf wir hinaus wollten, dass das eine politische Frage ist, die wir nicht beantworten wollen. Oder eine juristische. Oder eine juristische, das müsst ihr sagen, was ihr richtig findet, das ist doch nicht unsere Aufgabe zu sagen. Die Gesellschaft muss es aushandeln, wir können Probleme aufzeigen, aber die Antwort muss die Gesellschaft als Ganzes finden. Das ist klar, die Frage ist nur, wenn so ein Punkt definiert hat und sich dann die Ergebnisse anschauen würde, die kurz vor und kurz nachdessen Punkt aufgetreten sind. Ob das Rückschlüsse zulassen würde auf irgendein Bayeris oder irgendwelche anderen Sachen oder ob dieser Punkt völlig unerheblich für euch wäre. Und können Sie nochmal den Punkt benennen? Also man definiert irgendein Punkt X, der einen bestimmten Qualitätskriterium hat. Also der Wagen bringt eben nicht mehr Menschen um als ein durchdurcher Fahrer, sondern weniger. Sind die Ergebnisse, die um diesen Punkt liegen, die man dann messen kann, sind in irgendeiner Art und Weise relevant für den Ausgang? Kann man da irgendwelche Rückschlüsse draus ziehen? Oder ist das auch nur irgendein Punkt, wie jeder andere auch? Also ich finde es problematisch, diesen Punkt zu finden. Weil man ja auch den ganzen Kontext sehen muss bei den Autounfällen und warum sie passieren, also welche Gründe sie haben und das Ganze zu datafizieren, das in einen Punkt zu pressen und den dann als Evaluationsmetrik für was anderes Hochkomplexes zu nehmen, hatte ich für sehr problematisch. Ich glaube da ist wirklich, dass man kann die politische Antwort wichtiger. Ja, beim konkreten Beispiel von selbstfahrenden Autos muss man natürlich auch sagen, dass das echter selbstfahrende Autos nie üben kann in Crash zu haben. Also dieses Crash-Szenario kann natürlich nie geübt werden. Also wir wollen ja dann natürlich niemand sterben lassen oder wir wollen nicht so viele Autos crashen. Das ist ein bisschen teuer. Das heißt Crash-Szenarios werden eigentlich auch immer nur in der Simulation geübt. Und das ist genau das Problem, dass wir heute zumindest so weit ich das weiß, sehr wenige Szenarien haben, in denen wir sagen können, wenn wir jetzt in der Simulation geübt haben, was für Annahmen übernehmen wir dann in die echte Welt und aufgrund, also die einfach nur benennen zu können, würde uns ja schon helfen, eventuelle Fehler-Szenarien voraus zu sagen. Aber selbst das benennen, diese Annahmen, das fällt uns ja selbst schon schwer. Also das ist noch ein weiter Weg. Ja, auch vielen Dank für den Vortrag. Die ganze Diskussion über die Weiße, die Herr Gettetriemann besagt er letztlich, dass es darum geht, die Wahrheit zu finden, eine Wahrheit und letztlich eine Stichprobe der Wahrheit irgendwie dann im Computer zum Lernen zu geben. Und das bringt mich dann irgendwie zu der Parallel bei der in der Wissenschaft, dann wird das ja auch. Also wie sieht meine Stichprobe aus? Die ideale Stichprobe oder ist da ein bisschen drin? Und habt ihr diese Parallel irgendwie schon mal gedanklich gezogen oder ist es? Ja, also wir sind ja Wissenschaftler und wir müssen natürlich auch erst mal für uns wissen, ob was wir herausgefunden haben, gerade wenn wir mit Menschen arbeiten, werden ja gestern auch im Vortrag Sciences Broken, der da irgendwie nur, also das ist immer sehr schwierig, die richtige Samplesize zu haben, um die Effektsize zu berücksichtigen, um zu wissen, dass man was weiß. Das sind der epistemische Fragen. Aber gibt es da irgendwie schon eigentlich für neuronale Netze irgendwelche Richtwerte, dass man dann irgendwie weiß, weil bei in der Psychologie lernt man, dass irgendwie die Trampelsize muss in mindestens 5.000 Blabetranke dran, keine Ahnung. Gibt es Richtwerte? Gibt es sowas schon für neuronale Netze irgendwie? In Abhängigkeit, keine Ahnung, der Layer oder der Parameter oder? Nicht, dass ich wüsste. Die Frage geht es gleich ein bisschen tief für frühe Systeme, also sehr einfache neuronale Netze, die aus den Anfang der 90er, so wie Boltzmann Machines oder Hoffman Networks, für solche Sachen kann man sagen, wenn die saturieren und mit wie vielen Bits an Daten man da reingeht, bis die saturieren, für aber diese hoch nicht linearen Systeme, die wir jetzt verwenden, kann man das nicht sagen. Das ist auch nur asymptotisch sagen. Es gibt viel Forschung zu dem Thema, aber nichts, was man jetzt besonders handfest wäre, sagen wir mal so, oder man jetzt im echten Leben verwenden könnte. Weil irgendwie dann so eine Aussage, dass wir haben so einen so viel Testdatensamples, brauchst du für dein neuronales Netz? Wenn das so und so strukturiert ist, irgendwie das könnte vielleicht eine Form von Verifikation oder Validierung, Prävalidierung bringen irgendwie. Ja, aber das macht man ja, man hat ja einen großen Datensatz, einen Trainingsdatensatz, einen Testdatensatz und einen Validierungsdatensatz, mit dem man dann nochmal guckt, was haben wir wirklich gelernt und haben wir nicht einfach nur die Eigenheiten des Datensatzes auswendig gelernt, haben wir wirklich generalisiert. Also auf dem Niveau passiert es schon, auf dem höheren Niveau wäre das bestimmt noch vorragende Doktorarbeit. Mikro 5, deine Frage? Ja, vielen Dank für den Vortrag. Meine Frage ist, diese Bias, die sind ja jetzt nicht neu, die kennt man ja seit Dekaden in der Statistik. Was hat sich denn mit der künstlichen Intelligenz, bzw. mit Deep Learning geändert? Und daran anschließend kennt ihr irgendwelche Studien, dass solche Filterblasen wirklich irgendwelche tatsächlichen messbaren Auswirkungen haben, weil man hört unglaublich viel in den Medien, aber mir ist keine belastbare Studie bekannt, die sagt, dass da tatsächlich was verschlimmert wird, was nicht vorher schon da war. Ich habe die erste Frage schon wieder vergessen, kannst du immer noch die erste sagen? Die erste Frage war, was sich geändert hat, weil diese Bias ist jetzt nicht neu. Genau, die sind natürlich nicht neu und die ganzen Vorurteile sind auch nicht neu. Ich glaube, es wird halt einfach sehr, sehr viel Machine Learning gerade benutzt, auch aus sehr guten Gründen. Also zum Beispiel, es gibt hervorragende Pfeifenbibliotheken, es gibt hervorragende A-Bibliotheken, die das super einfach machen. Die Unis lernen das fast überall. Data Science ist der große Halbterm. Und es wird einfach nur noch mal drängender, weil Leute diese Sachen jetzt auf einmal in ihre Systeme reinschmeißen, die benutzen, um vielleicht Geld zu verdienen, sich aber dann dieser Probleme gar nicht bewusst sind. Und zur zweiten Frage, ich bin jetzt ziemlich sicher, dass es viel zu Echo-Cummern gibt. Ich weiß nicht, was du gefragt hast, ob man das wirklich auch wissenschaftlich so testen kann. Also wieder halt quasi der Versuchsaufbau aussehe. Aber es gibt auch gerade in der Soziologie viel zu Echo-Cummern. Aber mir fällt gerade kein Auto ein dazu. Also direkt konkret. Vielen Dank für den Vortrag. Ich sehe, dass noch Fragen sind, aber leider ist die Zeit oben. Seid ihr noch da? Können die Leute euch noch ansprechen? Okay. Super. Vielen, vielen Dank.