 Ja, schönen guten Morgen. Schön, dass ihr es so früh schon her geschafft habt, um dem Vortrag Datenschutzzentriertes arbeiten mit Mobilitätsdaten zu lauschen. Und ich übergebe direkt das Wort an unseren Referenten Markus Sperle. Schönen guten Morgen allerseits. Was für eine Uhrzeit, um sich mit privatsphäre und Mobilitätsdaten zu beschäftigen. Sonntag morgens bei der Bitz und Bäume. Vielen lieben Dank, dass ich hier sprechen darf. Ich habe die Ehre, ein Verbundprojekt, das vom Bundesministerium für Bildung und Forschung gefördert wird und von der Technologiestiftung meinem Arbeitgeber und dem CityLab Berlin gemeinsam koordiniert wird. Kurz vielleicht für die, die uns nicht kennen. Die Technologiestiftung setzt sich schon seit geraumer Zeit für offenes Wissen, offene Daten und menschzentrierte Technikgestaltung im weitesten Sinne ein. Und das CityLab ist deren größtes Projekt, ein Innovation Space, Makerspace, ein öffentlicher Raum, in dem wir Prototyping, wir Ideation, Service Design Methoden eigentlich überwiegend mittlerweile Verwaltungs-Digitalisierung betrieben wird. Aber tatsächlich hatten wir in den letzten Jahren auch noch ein Standbein in der Betreuung von Forschungsprojekten. Und über eines dieser Projekte, das noch läuft bis Ende nächstes Jahr und das ich koordiniere, werde ich euch ein bisschen was erzählen. Gestern Vormittag gab es einen Talk auf der Bitz und Bäume, der hieß Mobilitätsdaten befreien. Mein Titel wäre vielleicht dann eher in Richtung ja vielleicht nicht in der Form, in der sie sind, weil es tatsächlich da einige Dinge gibt, die hoch sensibel sind und dementsprechend ist es vielleicht ein bisschen zu schnell gedacht, einfach zu sagen, wir geben alle Daten im Mobilitätsbereich frei und hoffen dann darauf, dass sich daraus die Innovationen ergeben, mit denen wir dann in dem Bereich weiterarbeiten und nachhaltiger werden können. Ganz kurz, ich habe viel, viel Slides mitgebracht. Ich werde da an manchen Stellen so ein bisschen durchspringen, wie sich das gehört. Ich werde ein bisschen was zum Hintergrund des Projekts sagen, zur Genese, zum Aufbau, zum Forschungsdesign, mit dem wir arbeiten. Es ist ein transdisziplinäres Projekt. Da stecken unterschiedlichste Disziplinen drin, die sich gegenseitig finden und miteinander arbeiten müssen. Ich werde ein paar Takte zu den Ergebnissen, die wir bisher haben, verlieren, bin aber aus der Koordinationsecke und nicht aus der Ecke der Forschenden. Dementsprechend werde ich alle Fragen, die richtig ordeteil gehen, mitnehmen und dann mit dem Konsort zum Teilen und dann können wir die dann im Nachgang klären. Kurz werde ich das Projekt selbst reflektieren und am Ende noch ein bisschen Werbung in eigener Sache machen. Aber ganz kurz jetzt zum Einstieg zum Hintergrund dieses Projekts. Es gab zum Ende der Zehnerjahre vom City Lab und der HTW zusammen ein Vorprojekt quasi, durch das dieses Thema Mobilitätsdaten stärker in unseren Fokus gerückt ist. Das war zusammen mit Helena Meyerjewitsch, die jetzt auch in unserem Projekt federführend beteiligt ist, eine Data Science Professor an der HTW. Und es ging besagt im Open Traffic Count, um den Versuch, Möglichkeiten zu explorieren, Verkehrszählungen, sowohl Datenschutzzentriert, als auch kostengünstig durchzuführen. Und dann hat man aus Open Source Komponenten eine Kamera assembliert, die dann mit Object Detection Algorithmen direkt im Gerät schon quasi ohne Bilder aufzeichnen zu müssen und ohne Kennzeichen und Gesichter mitzunehmen, eben Verkehrszellungen durchgeführt hat, was deutlich günstiger ist, als 10 Leute an der Kreuzung zu platzieren, um jeden einzelnen Verkehrsteilenden zu zählen. In den Austauschformaten, die da angegliedert waren, ist das Thema Mobilitätsdaten auch im Bereich der Verwaltung extrem augenscheinlich geworden. Auch die Hoffnung, die in diesen Datentypus gelegt wird, auch mit so ein bisschen klar geworden. Und dann hat sich der Antragsteller Sebastian Meier, der mittlerweile an der FH Potsdam Professor ist, mit unterschiedlichsten Netzwerkpartnern in der Berliner Wissenschaft zusammengesetzt, um diesen Antrag zu entwerfen, der eben dieses Konstrukt, Mobilitätsdaten, Bewegungsdaten aus unterschiedlichsten Perspektiven betrachten soll. Das ist tatsächlich auch noch ein Projekt im Mobilitätsbereich, das werde ich überspringen, ihr könnt euch den Namen merken und mal googeln, das ist ein hübscher Demonstrator eigentlich nur am Ende des Tages, den das CityLab entwickelt hat auf Basis von gescrapten Daten von zwei Bike-Sharing-Services mit Anpassungsmöglichkeiten auf Tageszeit, Uhrzeit und so. Nur mal ein bisschen zu zeigen, was man denn tendenziell mit solchen Daten anstellen kann. Es ist durchaus auch schon ein paar Jahre her, aber nur zur Vollständigkeit. Also welche Daten geht es, wo kommen diese Daten auf, wo werden sie gesammelt, tatsächlich an unterschiedlichsten Stellen und natürlich geht es um das Endgerät Smartphone, das wir wahrscheinlich die allermeisten besitzen, es geht um Apps, die wir nutzen, es geht um Services, die diese Daten mitschneiden und dann im Zweifelsfall für sich behalten, damit Marketing betreiben, Targeted Advertising oder ihre Services verbessern. Also von Sharing, ÖPNV-Ticket-Systemen, Telekommunikationsstationen, die quasi Kontakt zu deinem Telefon aufnehmen, Wi-Fi Access Points überall hinterlassen, wir Spuren, die einen Standpunkt, eine Location festschreiben, die dann am Ende über einen größeren Datensatz trianguliert werden kann zu einem Mobility Pattern. Also da gibt es auch, wie gesagt, Punkt zwei, unterschiedliche Typen, unterschiedliche Granularitäten. Bei GPS-Daten sind beispielsweise teilweise die gesamten Traktorien, die genauen Wege, die ich genommen habe, je nach GPS-Genauigkeit mit dabei, bei anderen Dingen wie Wi-Fi Access Points hast du dann nur einen Start und einen Zielpunkt und der Weg dazwischen ist nicht bekannt, aber reicht trotzdem aus, um daraus sehr viel lesen zu können im Zweifelsfall. Was ist wiederum das, was in diese Daten projiziert wird an positiven Errungenschaften, die man daraus generieren könnte, wenn denn das Wissen um die Bewegung der Individuen in der Stadt da wäre. Es geht teils darum, dass man Verkehrsvorhaben, Verkehrsanpassungen, sei es eine Wegnahme einer Autospur für einen Radweg oder einen Kiezblock oder was auch immer, modellieren könnte, wie sich ein Verkehrsfluss dahingehend anpasst. Der zweite Punkt ist eben eine bedarfsgerechte Anpassung von Verkehrsinfrastruktur, von ÖPNV, von Car-Sharing-Modellen, alles eben tatsächlich nicht mehr ins Blaue hinein oder auf Basis der lückenhaften Daten, die jetzt eben teils den Verwaltung zur Verfügung stehen über Haushaltsbefragungen, über verkehrswissenschaftliche Forschung, die teils eben noch mit sehr, nicht rückständigen, aber mit sehr aufwendigen Mitteln arbeitet. Und dann gibt es natürlich noch so basuordige Geschichten wie Multimodal Transport Offices, also quasi Applikationen, die dir den besten Weg aus unterschiedlichen Mobilitätsmodi berechnen, die man mit Sicherheit auch nach Nachhaltigkeitsparametern gestalten könnte, Smart Real-Time-Traffic-Management, dass quasi Ampelschaltungen auf Basis des jetzigen gegenwärtigen Verkehrsaufkommens arbeiten und so weiter und so fort. Also all das wird eben mit dem Begriff der Mobility-Data so ein bisschen verbunden. Gleichzeitig haben wir eben nun mal das Problem, dass ein Bewegungspattern, ein individueller Weg von A nach B, der den du beispielsweise einen Tag lang verführst, etwas Hochindividuelles ist. Es wird wahrscheinlich keine andere Person geben, die genau deinem Weg heute vollzogen hat. Es stecken einige Orte drin, die sensibel sind, zu Hause, Arbeitsort, Schule von den Kindern, was auch immer, was du Samstag nachgemacht hast. Das sind alles Informationen in die Bewegungsdaten potenziell drinstecken und dementsprechend sind die völlig zu Recht Personenbezogen nach DSGVO und was das Projekt auf jeden Fall ist, das Kurs mitführen will, ist der eben Privatsphäre als Grundrecht weiter zu fördern und zu fordern. Es ist in der europäischen Grundrechte Charter niedergeschrieben und wir sind da tatsächlich auch hinterher, das irgendwie in unserer Forschung zu spiegeln so. Der Punkt drei ist tatsächlich einer, der dann sich so ein bisschen beißt mit dem, was in der Praxis getan wird, das nämlich tatsächlich die reine Aggregierung von Daten nicht ausreicht, um Privatsphäre zu schützen. Wenn ich ein Angreiferszenario, wie das in der Datensicherheit Lingo heißt, habe, wo jemand tatsächlich sehr technisch findig ist und unterschiedliche Datensätze zur Verfügung hat oder tatsächlich einfach fachliches Wissen, dann ist es möglich aus aggregierten Mobilitätsdaten einzelne Individuen herauszuziehen. Was machen wir jetzt tatsächlich? Wir versuchen Mittel und Wege sowohl technischer als auch organisatorischer als auch kommunikativer Natur zu finden, wie wir diesen Komplex aufdrösen können. Je mehr wir quasi technisch daran arbeiten, dass die Daten anonymer werden, beispielsweise über Algorithmen, die es mittlerweile gibt, die ich auf diese Daten anwenden kann, die eine Art statistisches Noise über den Datensatz legen, je nachdem in welcher Stärke, wie ich das festlege, wird aber tatsächlich auch die Genauigkeit und die Nutzbarkeit dieser Daten deutlich eingeschränkt. Und quasi im Gedanken des Datenanalysten, der Datenanalysten, der Datenanalystin ist Ungenauigkeit, was die Daten angeht, immer ein Problem und dementsprechend ist das auch was, was wir versuchen so ein bisschen als Educators mitzubringen, dass ein bestimmter Grad an Genauigkeit mit Privatsphäre erst mal nicht so vereinbaren ist und ein gewisser Grad an Genauigkeit vielleicht auch einfach nicht nötig ist für die Ergebnisse, die man erzielen möchte. So, genau. Ansonsten, das Oberste sind so die Classics, Daten pseudonymisieren, es muss jeder tatsächlich auch laut Gesetz schon Identifier entfernen, mit Kennwörtern schützen und so weiter. Und eben unten die Aggregierung, die wie gesagt nur teils ein Privatsphäerschutz herbeiführt. Genau, das sind die unterschiedlichen Perspektiven, wie wir uns das im Vorhinein gedacht haben, wie sie zusammenarbeiten, alle disziplinären Ideen kommen in einer gemeinsamen Sprache zu tragen. Wenn ich jetzt zum jetzigen Zeitpunkt das zeichnen müsste, dann würde ich die Pfeile schon eher etwas paralleler und interdisziplinär anstelle der gemeinsamen Sprache, die wir gefunden haben gestalten. Aber trotzdem haben wir gemeinsamen Framework entwickelt, indem wir alle Komponenten, die diesen Bereich quasi umspannen, das leider noch in Peer Review ist und es würde ich euch zeigen. Verinnerlicht um daraus, wenn wir am Ende des Projektzeitraums im Laufe des nächsten Jahres Handlungsempfehlungen sowohl für Akteure im Mobilitätsbereich als auch für Bürgerinnen generieren. Das sind meine großartigen Kollegen, HTW, TU, UDK, das DLR ist noch dabei und die Freie Universität. Ich werde ganz kurz durchspringen und sagen, was die jeweils so beitragen. Also wir haben oben Mensch-Mensch-Computer Interaktion von der FU. Wir haben den DLR, der eine Datensammlungs-App zur Verfügung stellt, ein Machine Learning Lehrstuhl, ein Datensicherheits Lehrstuhl, digitale Selbstbestimmung und uns für die Koordination. HTW und TU teilen sich ein Arbeitspaket und bearbeiten Mobilitätsdatensätze mit Algorithmen, woraufhin die TU wiederum im Zusammenspiel deren privatsphäre Garantie quasi evaluiert und die HTW wiederum dafür Sorge trägt, dass die Daten noch sinnvoll verarbeitbar sind. Und genau, die FU nähert sich dem ganzen Komplex von der ganz anderen Seite, nämlich von der transparenten Spender-Information, geht also zu der Seite der User und Userinnen und versucht, da Mittel und Wege zu finden, wie diese transparent informiert werden können, darüber, was passiert, wenn sie ihre Mobilitätsdaten spenden. Also weg von dem, ich verstecke Dinge in irgendwelchen Datenschutzinformationen, die niemand liest und sowieso auf Accept klickt, hinzu, wie mache ich den Leuten klar, was da für Risiken drinstecken, aber teilt es eben auch was für Benefits, für ein Gemeinwohl beispielsweise und wie kann ich dann tatsächlich auch die komplexen Verfahren, die ich zu deren Schutz beispielsweise wie Differential Privacy anwende, erklären. Digitale Selbstbestimmung steht uns zur Seite mit DSGVO Ratschlag und wir kümmern uns um Koordination, um Austauschverfahren mit der Mobilitätspraxis, regelmäßiges Stakeholder-Einbindung und so weiter und sofort. DLR habe ich schon gesagt, wir heben Daten, das wird auch in nächster Zeit passieren, da komme ich gleich nochmal ganz kurz drauf und mit verkehrswissenschaftlicher Expertise. Das ist das, wie wir uns das auf dem Papier vorgestellt haben, wir entwickeln dieses Framework und dann entwickeln wir an drei Use-Cases, das sind die süßen Kringel, jeweils Handlungsempfehlungen im Kontext und haben eine ständig begleitende Stakeholder Integration und dokumentieren das hübsch und sind jetzt mit dem ersten Use-Case durch und würden demnächst in den dritten Start. Die Use-Cases haben wir auf Basis von tiefen Interviews, die wir mit Leuten aus der Mobilitätsbranche gemacht haben, größtenteils gefunden und auf Basis der Forschungspräferenzen, der ForschungspartnerInnen. Der erste dreht sich um Daten-Exploration, also was passiert, wenn Datenanalysed in einen Mobilitätsdatensatz in die Finger kriegen und eigentlich tatsächlich immer ähnliche Berechnungen, ähnliche matrimatische Modelle, ähnliche statistische Verfahren durchführen und da war bei uns tatsächlich die Frage, ob das jedes Mal tatsächlich durch eine Einzelperson und mehrere Zugriffe auf die Raw-Data passieren muss oder ob das nicht tatsächlich auch ein Stück weit automatisierbar ist und mit privatsphäre Garantien versehbar. Zweiter Use-Case ist tatsächlich die zur Verfügung Stellung von Mobilitätsdaten als Open Data, was ja gestern in dem Talk auch ein Stück weit das Thema war. Das ist eine Sache, die wir politisch unterstützen, uns aber gleichzeitig darüber im Bewusstsein ist, dass das ein Risiko ist, das wir eigentlich nicht eingen können. Versuche aber trotzdem Wege zu erproben beispielsweise über die Synthetisierung von Daten, also die Erstellung eines, quasi synthetischen Schwester-Datensatzes eines Urdatensatzes, um quasi die Statistischen Parameter beizubehalten, aber die individuelle Komponente ein Stück weit rauszukriegen. So, das ist bisher unseres Wissens nach noch nicht gelungen, aber wir erproben natürlich auch dann weitere Maßnahmen, die dann so Halfway Open Data sind, beispielsweise organisatorische Beschränkungen, Freigaben nur zu bestimmten Nutzen, Teilen unter Forschungspartnerinnen und so weiter und so fort, um da die Data Scarcity so ein bisschen zu lösen. Genau und der letzte Punkt sind Datenspendeplatformen tatsächlich, so was wie Simra, Bike Community, so was wo ich mit Einwilligung tatsächlich meine Datenspende, aber auch da kann man ja versuchen Mittel und Wege auszuloten wieder die Privatsphäre noch ein bisschen besser gesichert sein kann. Es gibt schon Zwischenresultate, die sind ausschließlich in Paperform tatsächlich bisher aufgekommen. Auf unserer Website haben wir ein Blog, wo wir auch ein paar Teilergebnisse schon publiziert haben, also alle der Partnerinnen haben schon Paper bereits veröffentlicht, die sind aber tatsächlich in ihren Ergebnissen sehr kleinteilig und eine Ergebnisübersetzung in Richtung eines größeren Kontext, für den dieses Wissen tatsächlich eigentlich auch sehr wichtig sei, ist bisher, aber wir haben ja auch noch nicht den gesamten Teil des Projektes hinter uns gebracht, passiert und wird auf jeden Fall eine Aufgabe sein, die uns nächstes Jahr beschäftigt und die ein Stück weit auch mit meiner Reflexion am Ende zusammenhängen wird. Was können wir tatsächlich zum jetzigen Zeitpunkt schon sagen? Wir können sagen, dass es auf Seiten der datensammelten Institutionen auf jeden Fall einen gedanklichen Prozess geben muss, ob man die Daten, die man sammelt wirklich braucht, ob es nicht tatsächlich Wissensschätze gibt, die genau das, was ich rausfinden will, schon belegen. Ich muss mein Analyse-Prozess ein Stück weit reflektieren, nämlich tatsächlich, ob ich das Granularitätslevel, ob ich die Genauigkeit, ob ich das Detail tatsächlich brauche, um das rauszufinden, was ich möchte. Das ist bei explorativen Analysen natürlich, wenn ich im Vorhinein tatsächlich vielleicht noch nicht so richtig weiß, was es werden soll. Immer ein bisschen schwierig, aber dahingehend versuchen wir schon die Praxis auch zu edukaten. Man muss die SpenderInnen Informationen reflektieren und auf dem Schirm haben, ob denn meine Datenspenden tatsächlich eine Entscheidung treffen, die sie gerade wollen oder ob ich ihnen die Daten abluxe. Technisch-Organisatorische Maßnahmen sind meine Sicherheitsmaßnahmen state of the art und zu guter Letzt ist das eine vollständige Anonymisierung von Mobilitätsdaten, wenn sie denn noch irgendwie sinnvoll Informationen beinhalten sollen, recht unwahrscheinlich ist und dass man darüber ein Stück weit sprechen muss. Welches Level an Privatsphäre sind wir bereit aufzugeben im Wissen darum, dass diese Dinge bestimmten Zwecken zugutekommen könnten, die wir auf der anderen Seite für Unterstützungswert halten sollen. Genau und ansonsten nur noch eine kleine letzte Slide zu transdisziplinärer Forschung im Allgemeinen und was auf jeden Fall dem zuträglich ist und vielleicht ein Stück weit abträglich so. Man braucht auf jeden Fall ein Haufen Zeit, ein Haufen Geduld und das ist tatsächlich unter der Belastung unter der die allermeisten der Forschenden leiden ein Stück weit schwierig vermittelbar. Es geht ein Stück weit auch um Anerkennung in den Einzelsdisziplinären, in den Einzelsdisziplinen von multidisziplinären Vorhaben. Also wie wird das gewürdigt, dass ich mich mit anderen Disziplinen auseinandersetzt, dass ich andere methodologische Kanons irgendwie importiere und so weiter und so fort. Wenn es eigentlich einfacher ist, mich so zu spezialisieren und dann eben auch in den A-Level-Journals publiziert zu werden, als eben den Hardware zu gehen. Stück weit. Es gibt sie los, die müssen aufgebrochen werden. Ich glaube tatsächlich, dass es auch immer ein Stück weit Geld kostet oder vielleicht ein Format, in dem man Forschende aus ihrer laufbahnen Stück weit mal für ein paar Jahre rausnimmt und sie tatsächlich der Freiheit quasi preis gibt, diese Dinge auszuprobieren und ein Stück weit natürlich Experimentierfreudigkeit. Genau, ansonsten ist es eben immer, also zumindest mal in unserem Fall ein Stück weit ein Verharren auf der interdisziplinären Ebene und so in diesen transdisziplinären Diskurs hineinzukommen ist sehr, sehr schwierig, aber nicht unmöglich und wir haben da auch schon tolle Ergebnisse erzielt. Allerletzte Sache. Erst mal sammeln wir Daten im November. Das ist an Studierende gerichtet, aber ich wäre auch niemandem sauer, wenn er tatsächlich so Lust hätte mitzumachen. Wir machen das zusammen mit dem DLR. Die haben eine App entwickelt, die GPS Tracks mitschneidet und wir versuchen jetzt eine Datensammlung quasi besonders datenschutzzentriert einmal durchzuführen, proben danach an den Daten, den wir sammeln, eben genau diese Synthesierungsverfahren, die dann im allerbesten Fall dazu führen, dass wir vielleicht einen Open Data Mobilitätsdatensatz am Ende haben für Berlin, in dem wir Wissen drinstecken kann und ich würde mich freuen, wenn einige von euch mitmachen würden. Und zu guter Letzt, weil die Bitz und Bäume natürlich genau die Zielgruppe ist, die wir ansprechen, das City Lab Berlin sucht Leute, sucht findige Leute, die Koden können, die sich mit Technik auskennen, ein bisschen agile Skills, Product Owner suchen wir gerade und wir würden uns freuen, wenn sich jemand aus dem Publikum bewirbt und dann würde ich tatsächlich, wenn alle gescannt haben, hab da, schnell Instagram noch wegwischen. Okay, ich glaube, das wär's von meiner Seite aus. Wenn es Fragen gibt, bin ich natürlich gerne noch draußen zur Verfügung, aber zeitlich sind wir, glaube ich, schon fast im... Ja, genau. Vielen Dank für den schnellen, aber informativen... Sorry, es ging wirklich nicht langsam. Und wie du selbst schon gesagt hast, also bei Fragen einfach ins unter vier Augengespräch gehen oder wo bist du sonst erreichbar, wahrscheinlich auch das City Lab? Ja, genau. Ihr findet mich auf der Technologiestiftungs-Website, freemove.space ist auch noch unsere Website des Projekts. Ich freue mich über jegliche Anfragen, über die ich nicht beantworten kann, auch die kann ich weiterleiten an die Data Scientists, an die Leute. Meldet euch gerne. Dankeschön Markus.