 Willkommen zu dem ersten Talk heute Nachmittag. Der Titel sagt schon einiges aus über das, was jetzt folgen wird. Viele Leute arbeiten daran, Algorithmen zu verbessern. Überlegen Sie sich aber nicht, was Sie damit verändern in unserem Leben. Bitte begrüßt Andreas Davis, unseren Redner für heute Nachmittag. Hallo zusammen. Ich muss sagen, ich bin sehr aufgeregt hier zu sein. Ich habe ein bisschen Angst, aber ich bin vor allem aufgeregt. Ich möchte die Organisierer herzlich danken, dass ich diese gelegenheit habe und diese fantastischen Kongress zu sprechen. Als ich schon gesagt habe, der Vortrag heißt, say hi to your new boss. Ich werde über Algorithmen sprechen. Ich würde über die Entscheidungen, die von Menschen zu Maschinen übertragen werden. Falls ihr euch fragt, warum das wichtig ist, lasst uns einfach ein Freund fragen. Ich mag das ganz gerne mit Google Autocomplete. Das gibt mir ein bisschen kontroversen Statements. Algorithmen sind doof oder Algorithmen funktioniert nicht. Aber in diesem Fall zeigt es, dass die Algorithmen eine große Rolle in der Welt spielen werden. Algorithmen können unsere Leben verbessern, aber die können auch Probleme darstellen, weil wir Entscheidungskraft sehr viel von Menschen auf Maschinen übertragen. In vielen Fällen verstehen wir nicht viel, wie diese Maschinen funktionieren und wie genau diese Entscheidungen getroffen werden. Meine Qualifikation, um diesen Vortrag zu halten, ist, dass ich mich ins Fuß geschossen habe mit Datenanalyses. Ich habe mich interessiert, warum die KOW Algorithmen Dinge machen, die wir nicht erwarten. Warum sie sich verhalten in Arten, die wir manchmal seltsam finden, oder in Widerspruch zu dem, was wir von denen erwarten. Darüber möchte ich heute sprechen. Zuerst werde ich ein bisschen Theorie über Algorithmen darstellen und dann Maschinen lernen, wie Algorithmen Entscheidungen machen und dann diese große Big Data Thema, die neue Zeitalter der Data in der Gesellschaft. Ich werde ein paar Use Case für Algorithmen zeigen und danach werden wir alles wissen, was wir wissen müssen, um ein paar Erfahrungen, ein paar Beispiele zu machen. Ich komme von der Physik und wenn ich etwas verstehen möchte, mache ich ein Experiment und mache die verschiedenen Erfahrungen damit. Ich werde dasselbe hier machen mit Algorithmen. Ich werde zwei nehmen, zwei Case studies, die ich werde euch vorstellen. Eins über Diskrimination durch Algorithmen und eine andere über Deanonymisierung. Also letztendlich werde ich ein paar Angeboten und Ideen darstellen, wie wir die Algorithmen für uns am besten nutzen können in diese Art von Zusammenhang und die Kontrolle und das Verständnis, was Algorithmen genau machen. Zuerst, ich möchte über Algorithmen sprechen. Ich gebe euch ganz schnell eine basische Übersicht über Maschinen lernen und Entscheidungen Algorithmen. Tut mir leid, falls Experte in die Zuhörer sind. Was ist ein Algorithmus? Hier gebe ich euch ein Beispiel. Ein Algorithmus ist ein Rezept, das von einem Computer gefolgen werden kann oder ein Mensch. Es gibt einfach der Mensch oder der Maschine, eine Step-by-Step Instruktion, um ein Ziel zu erreichen. In diesem Fall wollen wir ein Traktor, also ein Tür, ja, kann ich die Tür öffnen oder nicht, oder muss ich warten. Das ist ein ziemlich originelles Algorithmus. Er braucht Informationen über mich. Er braucht eine intelligente Art zu entscheiden, ob die richtige Person steht vor der Tür. Also wie kriegt der Algorithmus diese Information? Es benutzt Maschinen lernen. Maschinen lernen ist eine Art, um zu generieren, und zwar automatisch ein Model, das trainiert wird mit Daten und dann benutzt man es, um diese Daten zu analysieren und es kann voraussagen, welche Ergebnisse. Wie in der Schule man sich erinnert an Daten und man kann durch Test diese Daten wiedergeben. Im Idealfall möchtest du etwas haben, das nicht nur sich erinnert, sondern auch voraussagt etwas über Daten, die man noch nicht gesehen hat und das ist das, was die Maschine macht. In den formalisierten Art können wir diese Modelle sehen, diese Daten und an der Rest sehen wir verschiedene möglichen Modellen zur Auswahl und normalerweise können wir die beschreiben als eine Variable Y von einer Funktion M und die Attribute von der Funktion sind die Parameter X und P und es gibt zurück einen Wert Y. Und nun können wir Daten benutzen, um unsere Modelle zu trainieren, um den Modell zu selektieren, das kompatibel mit unserer Training und wir können eliminieren die Modelle, die nicht kompatibel sind und an die Rest haben wir alle Modellen ausgesondert, die nicht passen und die grüne Modelle passen zu unserer Data. Nur wir können diese Modelle nutzen, um unbekannte Datenset auszumachen und normalerweise sieht man, es gibt Fehler zum Diskrepanz zwischen Modell und Daten, die wir analysieren wollen. Y kann be auseinandergesetzt in verschiedenen Teilen. Es gibt systematische Fehler, das liegt an falsche Kalibrierungen und Messfehler, wenn wir versuchen, eine Variable zu messen. Wir können darüber nachdenken, als der Speedometer am Auto. Es kann einfach ein Wert geben, was zu klein ist, um sicherzustellen, dass man nicht zu schnell geht. Und wir haben auch noch ein Y-Noise-Error und das liegt mit den internen Prozessen, die Daten generieren oder der Modell, das man benutzt, für diese Messung durchzuführen. Und zuletzt haben wir den Y-Hidden, Variable und Fehler. Das ist kein Random-Noise, aber das hat mit Variablen zu tun, die wir nicht wissen, also abhängige Variablen. Das sind die Basis von Modellerzeugung. Und nun schauen wir uns mit Big Data und Machine Learning, was damit zu tun hat. Der Wirkung auf Modellgenerierung ist dreifach. Wir haben Datenvolumen 2015 und 2015. Heutzutage haben wir viel mehr Data, um etwas voraus zu sagen. Wir haben auch Daten, die vielfältig sind als vorher. Um das zu verstehen, können wir diese Grabe sehen. Das zeigt Random-Data, das wir gemessen haben mit sehr, sehr großen Rauschen. Ich weiß nicht, wer von euch kann sagen, ob die grüne oder die rote Punkte einen höheren Wert haben. Ich glaube nicht. Aber jetzt, was wir machen können, ist, wir können einfach diese Daten nehmen und wir können reduzieren das Rauschen. Und wenn wir genug Samples haben, können wir das Rauschen so klein machen, dass wir wirklich Signal erkennen können. Und der Signal ist 0.01. Also, als wir mehr Daten haben, können wir die Modelle besser trainieren und der kann einfach die kleinere Effekte besser kompensieren. Big Data gibt uns nicht nur mehr vom selben Data, aber es gibt uns auch vielfältigere Data. Denkt an diese ganze Smart Device zu Hause, wie der smart Kühlschrank, die Tür, vielleicht der automatisierte Rauchdetektor, sammeln alle Daten über euch und eure Interaktionen. Und wir können diese Daten benutzen, um sie in unsere Modelle einzufügen und bessere Voraussagungen zu machen. Manche von diesen Rauschen, das waren die versteckte Variablen in dem Modell, das können wir benutzen und bessere Voraussagen zu machen. Modelle zu importieren kann sehr leicht oder auch sehr schwer sein. Es kommt auf die Modelle an. Wenn man Decision 3 Classifiers hat, kann das sehr leicht sein. Diesen Graphier seht ihr und da könnt ihr sehen, wie eine Entscheidung ab einem bestimmten Punkt ausgetroffen wird. Rechts wiederum ist es ziemlich schwierig zu interpretieren und man kann nicht einfach intuitiv etwas entscheiden. Die Effekte, vielleicht habt ihr diese Bilder schon mal gesehen, die zeigen im Grunde ein Netzwerk. Sie zeigen, wie ein Netzwerk ein Bild verstehen kann. Ihr seht ja verschiedene Strukturen, die durch Netzwerke in dem Bild erkannt werden. Es ist sehr schwierig zu verstehen, was ein neues Netzwerk macht. Also muss man erst mal schauen, wie das Netzwerk erst mal Daten erfasst und dann wieder rausgibt. Was kann man also mit Algorithmen machen? Man kann die verschiedenen Arten der Netzwerke klassifizieren. Die Algorithmen, die die Entscheidungen treffen. Aber das wäre nicht so schlimm. Dann haben wir einen High Risk Bereich. Da können Entscheidungen getroffen worden, die menschliche Leben beeinflussen. Die können einfach sehr beeinflussen. Ein paar Beispiele für diese erste Gruppe, also niedrige Risiken. Es wäre die Personalisierung von Diensten. Es gibt eine Webseite wie Facebook, Amazon oder Netflix. Die Webseite zeigt ihr den Inhalt, was für dich interessant ist. Es benutzt ein Algorithmus, um das zu tun. Es versucht, daraus zu sagen, von den Artikeln, die du vorher gesagt hast, welche Artikel wirst du in Zukunft interessant finden. Das sind die sogenannten Recommendation Engines. Das wird benutzt in sehr vielen Diensten heutzutage. Wir haben eine individualisierte Werbung. Wir haben eine Webseite, die neue Produkte anbieten. Es gibt Werbung für diese Produkte zu verfolgen. Es gibt Algorithmen, die versuchen, daraus zu sagen, welche Werbung für euch interessant sein könnte. Natürlich gibt es Algorithmen, die Kunden Rating machen können. Folgt ihr zum Beispiel etwas online bestellen, könnt ihr herausfinden, ob die Rechnung für dieses Artikel nicht sehr hoch ist. Denn der System würde euch nur dieses Artikel schicken, wenn ihr vorauszahlt. Es gibt auch die Customer-Demand-Prediction, also die Voraussagen von der Nachfrage. Diese Algorithmen würden herausfinden, was ihr kaufen wollt, bevor ihr das selbst wusst. Was Amazon versucht, momentan zu machen. Diese Dinge betreffen unser Leben oberflächlich, aber es gibt noch weitere Dinge, die uns direkt betreffen. Mittelmäßige Risiken sind zum Beispiel Personalist Health, also unser Gesundheitssystem. Zum Beispiel deine Herzfrequenz. Zum Beispiel, wie viele Stufen läufst du täglich hoch und runter? Also versucht man hier Gebiete der Medizin zu verbessern und Klassifizierungen und Applications für solche Systeme zu machen. Hier möchte man zum Beispiel auch voraussagen, ob ein bestimmter Mensch, der schon mal ein Verbrechen begangen hat, eventuell auch ein Terrorist sein könnte. So kann zum Beispiel eine Regierung ein Reiseverbot aus daraus machen. Solche Dinge in der Art können dann passieren. Dann gibt es noch autonome Autos, Flugzeuge und andere Maschinen, die dann übernehmen können und dann in ein paar Jahren oder ein paar Jahrzehnten die Menschen ersetzen können. Das wird einen großen Einfluss haben. Zum Schluss haben wir noch das große Risikogebiet, zum Beispiel wie im militärischen Bereich. Die militärischen Organisationen versuchen beispielsweise durch Algorithmen zu benutzen, um ihre militärische Ausstattung zu verbessern. Sie versuchen zum Beispiel Infrastruktur, Elektrizität oder andere Dinge in der Art, die auch für uns wichtig sind, zu beeinflussen. Diese werden auch heute schon kontrolliert durch Algorithmen. Wie ihr seht, haben wir heute schon sehr viele Gebiete, in denen Algorithmen eine große Rolle spielen. Die meisten Dinge, die heute durch Algorithmen beeinflusst werden, sind im grünen Bereich. Und in den nächsten Jahren wiederum ist es aber so, dass es wahrscheinlich ein viel größeres Gebiet sein wird, dass durch Algorithmen beeinflusst wird. Zum Beispiel Kunden-Service und andere Dinge, die Entscheidungen getroffen werden, die es alles wird, uns in den nächsten Jahren viel mehr weiter durch Algorithmen stimmt sein. Jetzt möchte ich gerne die überbleibende Zeit benutzen, um Experimente zu zeigen. Ich habe zwei mitgebracht. Diese finde ich besonders wichtig, beispielsweise Diskriminierung. Ein Algorithmus, der durch ein Menschen trainiert ist, kann zum Beispiel dazu benutzt werden, um Leute zu diskriminieren. Diskriminierung ist ein wichtiges Thema in unserer Gesellschaft. Daher müssen wir uns fragen, wenn wir zum Beispiel Entscheidungen nicht mehr durch Menschen, sondern durch Maschinen, also Algorithmen machen lassen. Wie wirkt sich das dann auf unsere Zukunft aus? Diskriminierung, eine Definition seht ihr hier gerade. Eine Behandlung einer bestimmten Person, die aufgrund einer Zugehörigkeit zu Gruppenklassen Kategorien getroffen wird und dann für oder gegen ihn verwendet werden. Beispielsweise kann das sein Ethnizität, Zugehörigkeit zum männlichen oder weiblichen Geschlecht oder solche Dinge in der Art. Wie wird das gemessen? Wir haben in den USA diese Formel entwickelt, das nennt sich Desperate Impact. Es ist sehr schön, weil es benutzt ein sehr klares mathematisches Modell, um diese Diskriminations zu erklären. Dieses Modell sagt, wir haben einen Prozess C, das wirkt auf Leute, die haben einen Attribut X oder die haben diese Attributen nicht, zum Beispiel Mann und Frau. Wir messen das Ergebnis dieses Prozesses. Wir sind interessiert in die Wahrscheinlichkeit der Entscheidung für eine Mitglied des Gruppen X versus die Wahrscheinlichkeit für eine Mitglied der anderen Gruppe. Wir kennen einfach diese Wahrscheinlichkeit P und eine Mitglied der Gruppe X ist Null durch die Probabilität, dass man eine Mitglied der anderen Gruppe ist. Wenn wir teilen, dann gibt es ein Parameter Tau, das beschreibt die Diskrimination im System. Und für eine normale Gruppe können wir aussuchen Tau 80%, denn wir sagen, Tau ist kleiner. Dann sagen wir, diese Prozesse beinhaltet Diskrimination. Es ist schön, weil es Missdiskrimination nicht nur, wenn es absichtlich gemacht wird, aber auch, wenn es unabsichtlich gemacht wird. Es ist nicht wichtig, ob diese Leute in diesem Prozess diskriminieren wollen. Wenn sie es tun und zum Beispiel unbewusst, dann wird es dadurch herausgefunden. Und natürlich können wir mit Wahrscheinlichkeiten umgehen. Wir messen die Anzahl der Leute in jede Kategorie und wir können Schätzungen machen für den Parameter Tau, indem wir diese Nummer durch diese zwei Nummern teilen, diese eine Nummer durch die zwei andere Nummern. Das ist einfach und ziemlich geradeaus. Und nun möchte ich zeigen, wie wir benutzen können, um ein bestimmtes Prozess zu testen. Wir nehmen die Entscheidung von den Leuten und geben es zu einem Algorithmus. Das Beispiel, das ich benutze hier, ist ein Einstellungsprozess. Wir möchten hier Kandidaten selektieren, basiert, deren Daten, ihre Lebenslauf, andere Daten, die sie zu einem potenziellen Arbeitgeber gegeben haben. Der Vorteil davon sind natürlich Zeitgewinnen in dem Screening und einfach bessere Kandidaten zu finden. Ich habe dieses Beispiel gefunden, weil es ist etwas, was schon benutzt wird, ziemlich breitgefächert. Neulich, wenn du dich auf ein Job beworben hast, bist du wahrscheinlich durch diesen Prozess gegangen in den US und in Europa. Versuchen Sie diese datadriven Prozesse zu implementieren. Also das passiert jetzt schon heute. Also nochmal der Setup. Wir haben Informationen und Kandidaten, die wir zu menschlicher Reviewer geben. Die machen eine Entscheidung, ob sie die einladen zu einem Gespräch oder nicht. Und dann, wir haben ein Algorithmus und der Algorithmus versucht diese Entscheidung der Menschen zu wiederholen. Der Setup, wir haben einfach ein Lebenslauf, Arbeitsbeispiele mit anderen Informationen über die Kandidaten und wir haben einfach ein Mensch benutzt, um diese Entscheidung zu treffen über das Kandidat, ja oder nein. Und dann, wir haben Algorithmus über diese Daten trainiert. Was wir hier haben, ist eine Big Data Approach. Wir versuchen so viel Data wie möglich über den Kandidaten zu bekommen und wir versuchen alles in Algorithmus reinzukippen und sehen, ob der Algorithmus damit umgehen kann. Und die Entscheidungsmodelle dafür ist relativ einfacher. Ich zeige es hier. Also um zu entscheiden, ob wir einen Kandidat einstellen, definieren wir eine Funktion S der Score und er hat mehrere Teile. Und ein Teil ist der, der verdient, verdient der Kandidat, also seine Fähigkeit. Und der andere Teil ist die Diskrimination. Und man kann einfach der totale Score erhöhen oder verringern, abhängig von diesen Elementen. Dann haben wir ein Glücks-Element, wie zum Beispiel 20%, das wäre Epsilon. Und dann addieren wir diese drei Komponenten zusammen und falls sie größer sind als ein bestimmten Wert, dann laden wir den Kandidat ein. Wenn wir nicht einladen, dann Game Over. Und hier kann man sehen, diese Linie hat verschiedene Höhe abhängig von Kandidatengruppen, ob es Diskrimination in dem System gibt oder nicht. Nun, wir können ein Oracle trainieren für dieses Modell und wir geben ihnen die Informationen über das Kandidat und auch ganz viel andere Informationen. Zum Beispiel öffentliche Informationen, alles was wir über den Kandidaten finden. Und dann trainieren wir diese Oracle, um herauszufinden, wie dieser Einstellungsprozess herausgehen will. Und wir können die Ergebnisse sehen. Es ist sehr schwierig, unsere Daten, es ist sehr schwierig, echte Daten zu finden. Also haben wir simuliert, 10.000 Beispiele, 10.000 Kandidate, virtuelle. Und wir haben einfach eine Funktion C, C benutzt, um die zu generieren. Denn da werden wir eine Standardmaschine lernen, Algorithmes, Vektormaschine, um diese Daten zu testen. Und wir haben gemessen die Diskrimination, dass die Algorithmus produzieren. Das ist in diesem Graf hier gezeigt. Es ist ein bisschen kompliziert. Lass uns ein paar Step by Step gehen. Auf die X-Achse ist die Menge an Informationen, dass unser Algorithmus über das Attribut X des Kandidats hat. Das ist dieser Attribut, über den wir keine Informationen geben wollen. Falls es 0 ist, bedeutet, der Algorithmus hat keine Informationen darüber. Wenn wir 1 haben, bedeutet der Algorithmus, hat alle Informationen über diese geschützte Attribut des Kandidats. Wenn wir 0 bis 5 haben, bedeutet es, er hat mehr Informationen. Dann haben wir das Parameter Tao. Und wir haben beim 50-Prozent-Gesetz. Also die Chance, durch dieses Prozess zu gehen, wenn man in Mitglied der Gruppe X ist, ist gleich wie für die Menschen, die nicht Mitglied sind. Also hier haben wir die Voraussage von unserem Algorithmus, die Treuer, die zwischen 80% und 87%. Und letztlich haben wir hier der Tao, also die Diskrimination, die Anzahl der Diskrimination von dem Algorithmus, normal gemessen als eine Funktion der Information, die rauszieht. Je mehr Informationen wir über diese Attribut geben, umso besser ist es, besser ist es, fähig zu diskriminieren. Wenn das nicht alles über die Leute weiß, kann das sie auch nicht diskriminieren. Wenn wir einen Algorithmus bilden können, der nicht alles weiß, kann er nicht alle diskriminieren. Auf der anderen Seite ist es so, dass wenn der Algorithmus volle Informationen über diese Menschen bekommt, kann er sie diskriminieren. Also wenn wir dem Algorithmus zu viele Infos geben, kann er sie genauso diskriminieren wie vorher. Warum sollte man diesen Algorithmus-Infos über diese Gruppe geben? Eigentlich wollen wir das nicht, aber das Problem bei Big Data ist, dass wir nun mal diese Daten haben. Selbst wenn wir dem Algorithmus ein paar wenige Infos geben, ist es immer so, dass ein paar der Daten noch haben und diese mit durchsickern. Also es ist immer ziemlich schwierig, sensitive Daten in einem Datensatz auszuschließen. Es ist natürlich jetzt sehr theoretisch formuliert, aber wir haben auch versucht, das zu validieren. Wir haben GitHub-User-Daten benutzt und all diese Daten der Nutzer von GitHub untersucht. Zunächst einmal haben wir bestimmt, welche Daten jetzt die kritischen Daten sind und welche eher versteckt bleiben sollten. Ich habe mir einfach die Fotos angeschaut bei GitHub und habe sie geordnet nach Mann oder Frau und dies simuliert. Dann habe ich weiterhin versucht, mehr Informationen über jeden Nutzer zu bekommen. Zum Beispiel, wie viele Follower hat diese Person und so weiter und so fort. Dann habe ich diese Daten benutzt, um voraus zu sehen, wie der Algorithmus mit diesen Daten arbeiten kann. Ich habe einen recht kleinen Datensatz benutzt und dann aber unseren Algorithmus getestet damit. Zunächst einmal habe ich ziemlich grundlegende Dinge untersucht, wie Stargazers, Follower oder Projekte. Einfach, was diese Personen auf ihrer Agenda haben. Es ist ziemlich gut, weil in diesem Graf kannst du beweisen, dass das Vorurteil, dass Frauen keine guten Programmierer sind, nicht stimmt und dass das eine Diskriminierung ist. Gott sei Dank hilft uns GitHub dabei, dieses Thema genauer zu betrachten. Hier eine Aktion, die ein Nutzer über die Zeit getätigt hat. Sie wird bei GitHub als Event gespeichert und diese Eventdaten kann man dann später für die Analyse nutzen. Ich habe dann die Eventdaten runtergeladen und konnte dann nach Gender sortieren. Hier sehen wir die durchschnittliche Anzahl von Events. Hier sieht man auch, dass es offenbar einen großen Unterschied zwischen Frauen und Männern gibt, wenn man sich die produzierten Events durch sie produziert wurden anschaut. Die Häufigkeit der Events sind eben verschieden. Dieser Foliensatz zeigt jetzt zunächst, was einzelne Nutzer beigetragen haben, als Nachrichten. Wo sind die Unterschiede zwischen Mann und Frauen bei den Texten der Nachrichten? Hier hat sich gezeigt, dass es recht zuverlässig war zu entscheiden, vorher zu sagen, ob es eine Frau oder ein Mann war, einfach nur durch Raten. Es ist nicht besonders imposant, aber diese Informationen haben wir durch das System bekommen. Die ist durch das System gesickert. Also können wir bei GitHub durch unseren Algorithmus für unseren Einstellungsprozess nutzen, um vorher zu sagen, ob es eine Frau oder ein Mann ist. Zusammenzupassen, der Algorithmus wird kein Problem haben, damit zu lernen, wie man diskriminiert. Und geschützte Daten, die in unserem System sind, können ganz leicht benutzt werden, um zu diskriminieren. Wie können wir das denn jetzt verbessern? Oder wie können wir das ausschließen, dass das passiert? Meistens haben wir ja gar nicht die Informationen darüber, ob es ein sensibler Datensatz ist. Und deswegen ist es nicht geschützt. Und wir wissen es nicht. Und können es auch nicht in unserem Algorithmus benutzen. Ethnicität, Gender und so weiter werden dann einfach in den Datensätzen erscheinen. Wenn du die Attributinformationen nicht hast, kannst du auch nicht messen, wie groß der Anteil der Diskriminierung ist. Der Anteil der Diskriminierung in den Daten sein wird durch den Algorithmus. Das war jetzt die erste Case Study, die ich euch zeigen wollte. Wir haben schon gesehen, dass wenn wir Daten haben, haben wir immer Informationen, die wir eigentlich gar nicht dabei haben wollten. Wenn wir zum Beispiel Google nach seiner Meinung fragen, was private Daten angeht, Anonymisierung angeht, ist es doch ziemlich leicht zu de-anonymisieren. Was ist die De-anonymisierung? Wir haben Daten zu Individuen. Diese Daten folgen dir auf deinem Weg, wenn du deine Nutzer-Accounts wechselst, wenn du Seiten besucht. All das wird gemessen und weiter aufgezeichnet. Die Daten werden immer größer und größer. Nun schauen wir um die Mathe. Die De-anonymisierung ist ein sehr großes Thema. Die Mathe dazu sind ziemlich fern. Vielleicht habt ihr dieses Spiel mit Freunden gespielt. Die Mathe, die man an jemandem denken muss, muss ja und nein Fragen beantworten, um die Person zu raten. Vielleicht nach 10, 20 Fragen kann man genau wissen, an welcher Person der Freund gedacht hat. Das funktioniert so gut, weil wir verschiedene Pakete haben, die ein oder falsch sind für angegebene Nutzer. Wir können ein einzigartiger Fingerprint für einen Nutzer in unserem System erstellen. Wenn du die Wahrscheinlichkeit, eine Kollision betrachtest, also zwei Benutzer, die genau dieselbe Wahr- falsch Werte haben, das wird je mehr und wahrscheinlich, desto mehr verschiedene Informationstypen in unserem System gebracht werden. Die genaue Wahrscheinlichkeit, um eine Kollision zwischen Benutzer zu finden, hängt von der aktuellen Verteilung der Informationen in den Böket. Wenn du eine Uniformedistribution hast, dann kennst du das Kalkulieren. Es wächst exponentiell und das ist, warum wir diese Spielfunktionen so gut. Falls man eine Million berühmte Leute hat, die es wäre zum Beispiel interessant oder nützlich, 32 Bit-Informationen zu haben, um einen zu identifizieren. Mit Big Data haben wir viel mehr Böket, die wir benutzen können. Wir können nicht nur ein paar Millionen, sondern ein paar Milliarden Personen identifizieren mit diesem Technik. Und die meisten Datensets sind nicht uniform verteilt. Wir haben mehr den Fall, dass mehrere Benutzer in denselbe Böket sind. Also, wir haben mehrere Leute, die derselbe Musik mögen. Und die haben alle dieselbe Informationen, dieselbe Attribute. Und die benutzen diese Attribute, um die Nutzer zu de-anonymisieren. Das würde nicht wirklich helfen, weil das würde nicht wirklich die Anzahl der Benutzer in unserem System runterbringen. Es gibt andere Attribute ziemlich einmalig zu uns. Zum Beispiel, wo wir leben oder die Kombination vom Ort, wo wir leben und andere Informationen. Also, es gibt einzelne, wirklich einzigartige Informationen über jede von uns. Und normal, ich wollte sehen, ob das in der Praxis funktioniert, was ich gemacht habe. Ich habe ein Datenset von Microsoft Research Asia bekommen und das enthält GPS-Data über 200 Leute. Und ihre ganze Aktivitäten werden verfolgt über mehrere Jahre, Monate. Und hier ist diese Data, um ein Bewegungsprofil zu erstellen. Ich habe auch eine animierte Version davon. Hier könnt ihr sehen, da sind die verschiedene Wege der einzelnen Benutzer. Ich weiß nicht, ob jemand diese Stadt erkennt. Nein, das ist Beijing. Falls ihr euch fragt, was diese Quadrate hier ist, ich habe in Google mal geguckt, das könnte die Universität sein. Also, das ist wie immer, wenn man Versuchskaninchen braucht, dann geht man einfach Studenten fragen. Also, das ist ein sehr vielfältiger Datenset. Wir haben hunderte Tausende Datenpunkte per Nutzer. Und ich wollte wissen, wie einfach wäre es, diese Datenset zu denonymisieren. Ich habe erst mal individuelle Wege gezeigt. Das sind einfach mit Kolorkodierter die Wege der einzelnen Personen. Und dann ein einfaches Grill darauf gesetzt, ein 4x4. Und einfach messen die Häufigkeit zu der jede Benutzer in ein oder der andere der Quadrate sich befindet. Das habe ich gemacht für 200 Leute und dann sieht es so aus. Das ist 4x4 Grid. Und die Farben sind die Anzahl der Zeiten, dass eine bestimmte Person in eine bestimmte Quadrate gewesen ist. Also, weiß ist sehr oft, schwarz ist, er war nie dort. Und man kann schon sehen, dass mit der Beispiel hier viele Leute scheinen sehr einmalig zu sein. Es könnte möglich sein, ein Fingerprint für ein Benutzer zu machen oder ein Benutzer zu machen. Und wenn wir eine bessere Auflösung brauchen, es gibt zum Beispiel zwei, die diese ähnliche Daten haben. Und wir können nicht entscheiden, welche Benutzer wir haben. Wir können einfach die Auflösung zu 8x8 oder 16x16 erhöhen. Und dann zurück zu unseren Buckets. Wenn man die Verteilung der Attribute misst, dann können wir eine Idee kriegen, wie gut unsere Wahl ist. Und wir können sehen, die Wahl, die wir gemacht haben, ist nicht gut. In die erste Bucket, der Bucket mit den meisten Punkten, haben wir 10 hoch 6 oder 1 Millionen Punkte. Aber diese Kurve, die übrigens logarithmisch ist, hier die lange Schwanz der Distribution der Verteilung. Wir haben manchmal noch eins oder noch ein paar Leute in dieser Bucket. Falls wir in diese Bucket Informationen bekommen, ist es einfacher, das zu benutzen für die Deanalysierung. Wie machen wir das? Normalerweise, wir benutzen ein ganz einfacher Messwert. Wir nehmen die Fingerprint von einem Benutzer, also einen Trag, und wir multiplizieren mit einem Pixel per Pixel. Und wir kriegen diese Wert rechts. Und dann nehmen wir diese individuellen Wert. Und das gibt uns ein Score, wie ähnlich zwei Wege sind. Als wir das tun, können wir 75% von unserem Data nehmen als Trainingset. Wir trainieren unsere Algorithmus, individueller Benutzer zu erkennen. Und dann die restliche 25% benutzen wir zu Vorausagen. Und dann, wir nehmen den Rang der User in diese Vorausage. Und hier wird es angezeigt. Was ich zeige, die Wahrscheinlichkeit, hier ist die Wahrscheinlichkeit, dass wir der richtige Benutzer finden, innerhalb von zum Beispiel die erste 1, 2, 6 Benutzer, die dir höchste Score für eine gegebenen Weg haben. Und für 16 Quadrate Resolution, die ich gezeigt habe, das ist bereits 20% Wahrscheinlichkeit. Also wir können Leute identifizieren, nur mit 16 Datenpunkt. Je mehr Datenpunkte wir haben, je besser wir, wir können die Leute identifizieren anhand von ihrer Daten. Wenn wir 1.024 individuelle Datenpunkte haben, dass wir in der echten Welt sehr einfach zu bekommen, dann können wir bei einer 30% identifizieren. Noch mal, das ist nur ein Proof of Concept. Es gibt keine Optimisierung hier, es gibt nichts dergleichen. Wir können auch diese Technik benutzen, nicht nur individuelle Nutzer zu finden, aber auch Ähnlichkeit zwischen Benutzer. Es wäre gut zum Beispiel zu sehen, wer ist verwandt mit wem, wenn benutzt du, wer sind deine Freunde. Das habe ich hier gemacht. Selbermetrik als vorher, ich habe der System gegeben, gesagt, gib mir die Nutzer die ähnliche Wege haben. Und Grün ist ein Benutzer, Rot ist der andere Benutzer und die gelbe Bereiche sind die Kollisionen auf dem Weg, also wo sie gleichzeitig sind. Es gibt viele Hits, wenn man sieht, es gibt zwei Datas, die sehr übereinstimmen. Diese Data ist anonym, aber in diesem Fall ist es entweder ein Taxi oder ein Busfahrer, weil der geht einfach in den ganzen Beijing Bereich mit dieser Trag. Diese Technik macht es sehr einfach, um Leute zu identifizieren, ohne herauszufinden, mit wem sie verwandt oder bekannt sind. Wir können auch verbessern die Identifikationsrate des System, indem wir nicht nur die spezielle Information, die Rauminformation, aber auch die Zeitinformation, zum Beispiel Tag und Nacht. Grün ist Nacht und Rot ist Tag. Also, zum Beispiel, wenn man arbeiten geht am Morgen und zurück nach Hause geht abends, das könnte benutzt werden, um die Wahrscheinlichkeit zu erhöhen, der richtige Benutzer zu finden. Natürlich könnte man auch die Buckets ändern, zum Beispiel die Art, wie wir die Fingerprinting machen, um diese Algorithmuszuverlässigkeit zu erhöhen. Also nur ein Profakonzept, aber es gibt ähnliche Werke in die Literatur, es gibt einfache Methoden, um Identifikationen zu erreichen. Zusammengefasst. Je mehr Daten wir haben über eine Person oder eine Entität, je mehr difficult ist es, Algorithmen davon abzuhalten, zu lernen, dass sie lernen direkt und ein Objekt benutzen anstatt von den Attributen. Also, die Daten folgen uns. Auch wenn ihr die ganzen Smartphones und Geräte wechselt, bestimmte Verhalten bleiben dieselbe und das könnte benutzt werden, um euch in die Zukunft zu identifizieren. Das ist ja der größte Risiken von Big Data nach meiner Meinung. Das ist sehr einfach, falls wir wissen, falls wir privatswürre zerstören wollen, wäre es sehr, sehr einfach. So, was können wir tun darüber oder dagegen? Ich habe ein paar Ideen. Es gibt auch viele Ideen bei euch und viele Leute, die darüber auf politischer Ebene technologische Lösungen entwickeln, eine kurze Überblick auf Sachen, die wichtig sein können, um diese beide Szenarien zu vermeiden, die ich gezeigt habe. Eine Zielgruppe, die wir am meisten erziehen müssen, sind die Datenforscher, die Leute, die diese Algorithmen erstellen. Es gibt in Deutschland zum Beispiel, es dauert drei Jahre, um ein Cheesecake zu machen. Aber es gibt nichts dergleichen, um Algorithmen zu entwickeln, die so einen großen Einfluss auf unsere täglichen Leben haben. Also ein besseres Curriculum in Universitäten, um Leute einfach nicht nur die Möglichkeiten der Datenanalyse in Überblick zu geben und vielleicht die letzte Prozente Treuer der Algorithmen rauszukratzen, aber auch die Risiken dieser Technologie, besonders wenn andere Menschen betroffen sind. Andere Sachen, einfach Daten sammeln, die wir nicht wirklich brauchen. Ein der häufigsten Wege ist im Moment, wir sammeln alles, alle Daten, wo wir unsere Finger drauflegen können und wir überlegen später, wie wir das benutzen. Das könnte gut sein, weil es erhöht die Treue der Voraussagen. Aber es kann auch sehr gefährlich sein, weil die Algorithmen können auch Dinge lernen, die sie nicht lernen sollten. Also wir sollen wirklich sehr vorsichtig mit den Daten sein, die wir dem System geben. Und natürlich gibt es andere Sachen, die wir machen können. Diskrimination entfernen aus den Prozessen. Es gibt viele akademische Arbeit und es gibt Methoden, die wir benutzen können, um das zu machen. Das Problem ist, dass die meisten Leute, die in diesem Bereich arbeiten, wo diese Algorithmen tatsächlich eingesetzt werden, vielleicht wissen sie nicht darüber oder sind nicht darüber wirklich, aber kein Interesse. Also da gibt es eine große Potenzial, um diese Wege zu verbessern. Als Bürger können wir auch was machen. Das Erste, einfach die Algorithmen nicht blind vertrauen, um Entscheidungen zu treffen. Die meisten Leute sind ein bisschen unneutral. Sie denken, dass die Maschinen mehr faire Entscheidungen machen als Menschen. Aber wir müssen uns von diesem Standpunkt, wir müssen es loswerden, weil wir gesehen haben, die können genauso diskriminieren wie Menschen. Ich will, falls wir diesen Entscheidungsprozess in Frage stellen können oder zumindest testen, dann, es klingt einfacher, aber es ist eigentlich schwierig, weil die Algorithmen sind, sind wir eine große Organisation und die sind meist nicht offen. Also wir müssen Techniken finden, wie Reverse-Engineering benutzen, um herauszufinden, wie diese Algorithmen intern funktionieren. Ich bin darüber sehr optimistisch. Die Firmen-Organisationen könnten große Böcke, große Daten, Merkmale benutzen, aber die Daten, die wir für Reverse-Engineering benutzen, sind sehr klein. Also das ist unwahrscheinlich, dass wir eine gute Entscheidung basieren an diese Technik machen. Noch eine andere Sache ist, dass wir mit Daten zurückkämpfen können. Wir sammeln Daten über Entscheidungen, die über uns gemacht werden. Und wir halten sie zentral und wir können sehr viele Möglichkeiten für andere Forscher dadurch schaffen, die diese Daten analysieren und die Diskrimination darin herausfinden. Also ich ermutige euch, falls ihr eure Daten gerne gebt, das kann ich verstehen, aber in manchen Fällen ist es wirklich die einzige Möglichkeit, um sicherzustellen, wie diese Daten benutzen kann und forschen kann und unfaire Situationen entdecken kann. Wir müssen wirklich darüber anders denken. Wir müssen auch Daten und Maschinen lernen, gegen Maschinen lernen einsetzen. Als Gesellschaft können wir natürlich bessere Regulationen für Algorithmen in die Wege leiten. Das wurde auch gemacht Anfang des Jahres. Unser Gerichtminister war auf Facebook, der hat dafür geworben, um die Algorithmen zu öffnen. Der wurde lächerlich gezogen, aber das hat ein gewisser Wert, was er gesagt hat. Weil es ist wichtig, dass wir wissen, ob Corporations uns fair behandeln oder nicht. Wenn wir ein Audit haben, das erlaubt zumindest unabhängige Leute, einen Blick darauf zu werfen. Das wäre der erste Schritt in die richtige Richtung für Transparenz. Natürlich, wenn wir die Daten mehr leicht zu erreichen machen, dann macht es auch einfach, um die Probleme zu entdecken. Okay, und zuletzt, es ist vielleicht zu spät, aber wir müssen einfach verhindern, dass Datenmonopolen stattfinden, dass eine bestimmte Organisation die ganze Daten hat. Wir haben schon ein bisschen verloren, weil wir haben zwar dieselbe Technik in unsere Händen, aber falls es ein Gegner ist, der einfach wesentlich mehr Daten hat als uns, dann ist es unwahrscheinlich, dass wir mit diesen Gegner kämpfen können auf dieselbe Ebene. Zuletzt, Algorithmen sind wie Kinder, die sind smart und die wollen lernen. Und wir als Datenanalyst, als Programmierer müssen wir denen was beibringen. Wir müssen denen beibringen, die erziehen, dass sie verantwortlich erwachsene werden. Okay, vielen Dank. Wir haben noch ein paar Minuten für Fragen und Antworten übrig. Also bitte stellt euch an bei den Mikrofonen im Saal, falls ihr zuhause seid und zuhört, könnt ihr auch gerne über das Internet eure Fragen stellen. Uting ist fragt gerade, was erwartet ihr von den Politikern in den verschiedenen Ländern? Politiker über Menschenentscheidungen können es so genauer definieren. Wir kommen auf diese Frage zurück. Nummer zwei bitte zunächst. Danke für deine Rede. Macht es Sinn, dass ich als Individuum meine Datensätze fäke, kann ich das Datensystem stören? Es ist möglich, das zu machen, aber wir funktionieren, um dich gegen die Anonymisierung zu schützen. Wenn du 90% von deinen Daten verfälscht, dann gibt es trotzdem 10%, die einzigartig zu deiner Person sind. Also ich denke, du musst richtig, richtig viel Mühe da einsetzen, um erfolgreich zu sein. Ich habe sehr große Datensätze gesehen und ich muss sagen, ich bin ein bisschen pessimistisch über diesen Ansatz. Wenn ihr noch Fragen habt, wir haben noch ein bisschen Zeit, bitte geht nur leise raus, wenn ihr rausgehen möchtet. Atomic NGR fragt, ob Menschen Algorithmen herstellen können, die nicht diskriminierend sind. Das ist eine sehr interessante Frage. Algorithmen, aber die Informationen über ein Projekt in einer geschützten Klasse oder nicht, das ist die Frage. Es kann diskriminieren sein, per Definition, weil es kann nur per Zufall entscheiden, ob eine Person zu einer bestimmten Gruppe gehört oder nicht. Falls sie keine Informationen haben über diese geschützte Variable. Also das ist möglich, ja. Nächste Frage, Mikrofon 4, bitte. Vielen Dank für deine Rede. Du sagst, dass Algorithmen genauso wie Menschen diskriminieren können. Aber es ist nicht so, dass Algorithmen ein bisschen anders diskriminieren. Du hattest das Beispiel, dass Gender durch andere Marker identifiziert werden. Aber was, wenn andere positive Attribute durch beispielsweise den Fall besser identifiziert werden können, wenn zum Beispiel ein Arbeiter, der näher an seinem Arbeitsplatz lebt, besser arbeitet. Also die Frage ist, wenn das der Fall ist, es ist nicht so, dass Diskriminierung ungewünschte Folgen hat. Ja, das ist genau das Argument über Diskrimination. Falls du die Informationen nicht hast, über wie viele Leute von einer bestimmten Klasse oder sich bewerben auf einen Beruf, dann kann man nicht herausfinden, ob es Diskriminierung stattfindet. Also man muss die Informationen im System herinbringen, um zu sehen, ob es eine unfaire Behandlung gibt. Ich hoffe, ich habe richtig verstanden, die Frage. Falls man die Informationen zu Geschlecht korrelieren kann mit anderen Informationen, es gibt zum Beispiel Sachen wie Nachbarschaft, dass wir Informationen geben über geschützte Attribute auch, wie Reistum. Okay, wir haben noch ein paar andere Fragen. Bitte ganz kurz stellen, Nummer fünf bitte hinten. Ein oft gehörtes Statement ist, je mehr du sammelt, desto mehr kannst du damit machen. Gibt es ein Beispiel dafür? Absolut, ein Algorithm muss mehr Daten zu trainieren, muss nicht immer das Beste sein. Man kann Algorithmen übertrainieren. Man kann ein Modell machen, das perfekt ist mit den Daten, aber der kann nicht so viele gute Voraussagen machen. Aber normalerweise, wenn man die Datenanzahler erhöht, ist meist die Qualität des Modells verbessern. Es könnte auch passieren, dass die Daten nicht homogen sind. Ein Teil der Daten passt mit einem Modell und ein andere Teil des Daten passt besser mit anderen Modellen. Das heißt, es wäre schwierig, eine große Anzahl Daten um ein einzelnes Modell zu trainieren. Diese Frage ist in allgemein nicht einfach zu antworten. Vielen Dank. Noch zwei Fragen können wir stellen lassen. Was ist im Internet? Luke fragt, ist denn nicht die Black Box Natur des Maschinen-Learnings das größte Problem? Ja, für mich ist es ein Problem, wenn man Algorithmen nicht offen hat, dass man nicht da reinschauen kann, was passiert. Visualisierung von Daten kann helfen, aber es gibt einfach sehr viele Parameter, die deine Rolle spielen. Diese Variablen sind so unüberschaubar, dass es schwierig ist, eine Visualisierung zu geben, die sehr verlässlich ist, im Sinne von Informationen zu geben, über die Diskriminierung. Ich denke, es gibt keine perfekte Antwort. Noch eine letzte Frage, bitte. Danke. Am Anfang hast du gezeigt, grün, gelb und rot, was am schlimmsten sein kann. Weinst du nicht, dass die Zeit, die man ausgesetzt ist, schlimmer ist als die Zeit, in der man ein Algorithmus ausgeliefert ist? Ja, ein sehr wichtiger Punkt. Ich habe ein Experiment gemacht, basiert auf die Zeit der Interaktion einer Person mit einem Algorithmus. Ich denke, das ist ein Thema in sich. Es gibt sehr viele Interaktionen, die nicht in dem Modell berücksichtigt werden, wie das Algorithmus die Person beeinflusst, die wiederum das Algorithmus beeinflusst. Und es gibt definitiv Feedback in diesem System. Okay, mehr Zeit haben wir leider nicht. Vielen Dank, Andreas, für die großartige Rede.