 Herzlich willkommen zu unserem Talk. Wir wissen, was ihr letzten Sommer gesagt habt. Wir sind sehr aufgeregt und freuen uns sehr, dass wir das hier heute vorstellen dürfen. Wir sind Philipp Koch und Florian Richter und wir wollen euch heute unser Projekt Open Discourse vorstellen und inwiefern Open Discourse die Transparenz des Bundestages erhöhen kann. An Open Discourse haben wir die letzten eineinhalb Jahre gearbeitet in einem Team von insgesamt neun Personen und worüber wollen wir euch eigentlich heute erzählen? Für Open Discourse haben wir die Plenarprotokolle des Deutschen Bundestages aufgearbeitet und die Plenarprotokolle seht ihr hier auf der rechten Seite, die sehen so aus. Das heißt für jede Sitzung Bundestag gibt es Stenografinnen, die jedes gesprochene Wort von den Parteien bzw. von den Politikerinnen, die gerade in Rede halten, aufzeichnen und außerdem wird auch jedes, jeder Zwischenruf, jede Riedereaktion aus dem Plenum mit aufgezeichnet. Diese Plenarprotokolle stellt der Bundestag zur Verfügung seit 1949 allerdings als PDF-Dokument. Das birgt natürlich einige Probleme, weil PDF-Dokumente sind nicht gut durchsuchbar, weil wir jetzt zum Beispiel nicht gezielt suchen könnten, was ein bestimmter Politiker einer bestimmten Partei im Jahr 1950 beispielsweise gesagt hat. Das heißt, das ist das Problem, das wir eigentlich haben, aber eigentlich beinhalten diese Plenarprotokolle ziemlich viel wertvolle Informationen. Beispielsweise natürlich die einzelnen Redebeiträge, die Zwischenrufe und so weiter. Diese sind aber als Fließtags in diesem PDF enthalten. Das heißt, wir brauchen eigentlich irgendeinen Weg, um das daraus zu brechen. Und genau, das gab es bisher noch nicht. Mit Open-Discourse haben wir es jetzt erstmals geschafft seit 1949, alle Reden, alle Zwischenrufe, alle Reaktionen und so weiter herauszuarbeiten. Warum machen wir das eigentlich? Die Motivation hinter Open-Discourse beruht im Kern darauf, dass wir davon ausgehen oder wir finden, dass Plenarprotokolle eigentlich eine ziemlich wertvolle Ressource sind und die Debatten im Bundestag ja eigentlich so transparent wie möglich stattfinden sollten. Das heißt, wir alle haben recht darauf, auch noch nach 20 Jahren zu wissen, was eine bestimmte Politikerin oder ein bestimmter Politiker zu einem bestimmten Thema gesagt hat. Was auffällt, wenn wir uns Plenarprotokolle und die Befassung mit Plenarprotokollen ansehen, ist, dass das vor allen Dingen in der deutschen Politikwissenschaft eigentlich ein Thema ist, das nicht besonders oft angefasst wird. Also es unterrepräsentiert in der Behandlung, in der Forschung. Das hat mehrere Gründe, zum einen oder zwei Hauptgründe wahrscheinlich. Zum einen ist die deutsche Politikwissenschaft eher aus der politischen Ideengeschichte erwachsen. Das heißt, man kümmert sich eigentlich eher qualitativ um Texte als quantitativ. Das ändert sich in den letzten Jahren ein bisschen, aber im Kern befasst sich die deutsche Politikwissenschaft immer noch relativ wenig mit den Plenardebatten und der große Grund dafür ist dann natürlich auch, dass diese Plenarprotokolle bisher noch nicht maschinenlesbar und nicht leicht auswertbar vorlagen. Man kann sich vorstellen, wenn man jetzt nach einer gezielten Fragestellung die Plenarprotokolle untersuchen möchte, müsste man im Zweifel zwei über 4.000 Protokolle händisch durchlesen, um zu schauen, in welchem Protokoll steht jetzt irgendeine Information, die wichtig ist für meine Fragestellung. In den letzten Jahren sehen wir aber, dass das Interesse an diesen Plenarprotokollen zunehmend wächst. Und an der Stelle haben wir uns gedacht, als Team aus dem 1. Linie Data Scientist und Software-Developern, dass wir eigentlich die Skills dazu haben, diese Daten aufzubereiten und der Öffentlichkeit zur Verfügung zu stellen. Genau, das ist also der aktuelle Stand. Wir haben das große Problem, dass es keine einfache Möglichkeit gibt, diese Plenarprotokolle zu durchsuchen. Und diese Plenarprotokolle auch nicht maschinenlesbar sind. Wir also keine aktuellen Analyse-Methoden über diesen Textkorpus laufen lassen können. Unsere Ziele, die wir uns gesetzt haben für dieses Projekt, waren mehr Transparenz des politischen Diskurses in Deutschland, eine detaillierte Durchsuchbarkeit der Plenardebatten, ein öffentlicher und möglichst niedrigschwelliger Zugang zu diesen Daten. Die Anschlussfähigkeit unseres Projektes, damit dieses Projekt weiterentwickelt werden kann, dass neue Projekte daraus entstehen können. Und natürlich, dass mit diesen Daten auch geforscht werden kann. Und wir demnach ein wissenschaftliches Niveau für diese Daten brauchen. Okay, kurz zum Status quo. In den letzten Jahren, wie gerade angesprochen, hat sich natürlich das oder hat sich das Interesse für diese Plenarprotokolle deutlich erhöht. 2017 beispielsweise gab es das sehr spannende Projekt Offenes Parlament, was von der Open Knowledge Foundation getrieben wurde oder durchgeführt wurde. In diesem Projekt wurden die Plenarprotokolle der 18. Wahlperiode aufgearbeitet und diese waren dann auch granular durchsuchbar. Das heißt, wir hatten Dimensionen zum Datum, zum Inhalt der Redebeiträge, welche Person diesen Redebeitrag erhalten hat und so weiter. Ebenfalls 2017 und 2018 kamen die Projekte Palspeech und Germapal und wurden veröffentlicht. Das sind zwei wissenschaftliche Projekte, die ebenfalls sehr granular die Redebeiträge aufbereitet haben des Bundestages. Allerdings im Falle von Palspeech, die haben dieses Jahr noch mal ein Update von ihrem Datensatz gemacht, reicht jetzt von der 12. bis 19. Wahlperiode. Bei Germapal sind aktuell die 13. bis zur 18. Wahlperiode abgedeckt. Das heißt, wir haben da auch nicht den kompletten Umfang der Plenardebatten. Und an dieser Stelle vor einem Jahr haben Martin Haas und Kai Biermann das Projekt vorgestellt, das Zeitonline veröffentlicht hat, wo das erste Mal alle oder jedes gesprochene Wort seit 1949 bereitgestellt wurde und es möglich war, eine Keyword-Suche über diesen Korpus laufen zu lassen. Das heißt, man konnte dadurch erstmals schauen, wie hat sich beispielsweise das Keyword-Umweltschutz in den Debatten dargestellt, wie hat sich das verändert über die Zeit? Genau. An dieser Stelle gebe ich jetzt an Philipp Weiter und er wird euch mal erklären, was wir jetzt eigentlich mit Open Discourse noch zusätzlich machen können. Genau. Also wir sehen so ein bisschen die, oder wir erinnern euch, oder viele von euch erinnern sich vielleicht an den Talk von Martin Haas und Kai Biermann vor einem Jahr. Da haben die gezeigt eben, wie sie diese Worte über die Zeit analysiert haben und haben auch gezeigt, welche Beschimpfungen im Deutschen Bundestag dann relativ typisch waren. Also wir haben sowas wie Heuchler und Lügnerinnen und Idioten in der Zeit geblieben. Und nur um da so ein Stück anzuknüpfen und um zu zeigen, wie wir an dieser Stelle ansetzen können und das ein Stück weiter denken können, habe ich euch das mal mitgebracht und habe euch mal geplottet über die Zeit, wie häufig, mit welcher relativ Häufigkeit dann Beschimpfungen im Deutschen Bundestag passiert sind. Und wir sehen, dass es eine Zeit gab, in der mal mehr und mal weniger beschimpft wurde. Und was wir jetzt aber machen können mit dem Open Discourse-Datensatz, wir können neue Dimensionen hinzufügen. Denn wir haben nicht mehr nur das reine gesprochene Wort, sondern wir haben all die Meta-Information, weil wir wissen, wer dieses Wort gesprochen hat. Ich kann also gucken, ob Männer oder Frauen mehr geflucht haben. Und ich stelle fest, dass Männer mit großem, großem Abstand mehr fluchen als Frauen. Männer sind diejenigen, die das treiben im Deutschen Bundestag und die fluchen und die beschimpfen und beleidigen. Wenn ich die Frauen dagegen plotte, das erste Mal, dass eine Frau im Deutschen Bundestag mit der Auswahl dieser Beschimpfungen geflucht hat, war 1977 ungefähr. Und auch so reden Frauen deutlich weniger in diesem Wortschatz. Und das Ganze können wir jetzt immer und immer weiter berechnen, denn wir haben mit Open Discourse die Dimensionalität, um diese Fragestellungen zu beantworten. Fluchen war zum Beispiel früher ein Thema von DoktorInnen. Das heißt, Abgeordnete mit einem akademischen Grad haben deutlich mehr geflucht. Und erst in den 85er-Jahren haben dann auch nicht DoktorInnen angefangen stärker zu fluchen und Beschimpfungen ihren Wortschatz mit aufzunehmen. Wir können beide reingucken und können gucken, wer denn eigentlich flucht. Also wenn ich jetzt mal vergleichen möchte, wie die Mitte-Rechts- und die Mitte-Links-Fraktion im Deutschen Bundestag, wie die sich unterscheiden in ihrer Nutzung von Schimpfworten, dann kann ich feststellen, dass ungefähr seit den 85er-Jahren das Fluchen eine typisch linke Disziplin ist. Das ist in der Mitte-Links-Fraktion ziemlich verortet, jetzt in dem Fall hier definiert, als SPD, linke, PDS und Grüne im Vergleich zur CDU, CSU, FDP-Fraktion, die ein gutes Stück weniger flucht. Wir können auch bis auf die einzelne Person runtergehen und wir können die Gewinner im Beschimpfen des Deutschen Bundestages seit 1949 kühlen. Vielleicht hat jemand von euch eine Idee, wer da so drinsteckt. Auf Platz 4 ist es Norbert Blüm von der CDU. Auf Platz 3 ist es Karl-Schmidt von der SPD, ein bisschen früherer Politiker. Auf Platz 2 Ottmar Schreiner von der SPD. Auf Platz 1 ist es Franz-Josef Strauß von der CSU, der mit großem Abstand die meisten Flüche im Deutschen Bundestag gesprochen hat. Ihr seht also, das, was wir mit Open-Discourse machen können, ist, wir können dem gleichen Projekt, was auch die Kollegen von der Zeit haben, mehr Dimensionalität hinzufügen, weil wir in unserem Corpus eine Realität abbilden können und den gesamten PDF-Datensatz quasi komplett als Datenbankstruktur verfügbar gemacht haben. Das heißt, dass wir früher konnten, wir konnten eine Wort-Häufigkeit, wir konnten Worte über eine Zeit plotten. Das war so der Status quo. Und was wir jetzt gemacht haben, ist, wir haben diesen Fließtext, dieses PDF, umgebrochen in eine Datenbankstruktur und können das jetzt beliebig filtern und beliebig analysieren und können da sehr, sehr tief in die quantitativen Analysen gehen. Wir haben in diesem Plenar-Debatten mehr Dimensionalität hinzu. Früher, also Worte und Zeit und heute eben auch welche Personen gesprochen hat und damit eben auch welche Fraktionen, welche Regierungsposition, welches Geschlecht, welches Alter hat der oder die Sprechende, was ist der Beruf der Sprechenden Person, der Akademische Grad, die Jahre im Bundestag, der Geburtsort, der Adelstitel und wir haben natürlich auch alle Reaktionen und Interaktionen des Bundestag. Das heißt, wir können genau gucken, welche Person, welche Fraktion lacht oder amüsiert sich oder klatscht und welche Einzelpersonen sind es denn, wenn es irgendwelche Zwischenrufe sind. Und wenn wir uns das so in der Größe angucken, dann haben wir ein Datensatz, bei dem wir etwa 331.000 Plenarseiten ausgewertet haben, seit 1949. Wir haben dadurch 211 Millionen Tokens, also Worte in unserem Datensatz, von ungefähr 900.000 Redebeiträgen, die wir verzeichnet haben, sprachen von 4.100 Politikerinnen. Darauf haben wir dann 2,2 Millionen Reaktionen und Zwischenrufe des Plenums von insgesamt 27 Fraktionen und Gruppen seit der Gründung des Bundestages. Wie haben wir das gemacht? Vielleicht ein ganz kurzes Wort dazu, was dahinter steckt. Wir haben die öffentlich verfügbaren Daten genommen, die da liegen. Das heißt, das sind die Plenarprotokolle des Bundestages als PDF. Wir haben das angereichert mit den Stammdaten der Abgeordneten, die auch der Bundestag selbst herausgibt. Und wir haben die Liste der deutschen Regierungsmitglieder seit 1949 noch mit dazugegeben, denn es gab relativ viele, es gab einige Regierungsmitglieder, die selbst kein Bundestagsmandat haben. Auch die haben wir hinzugefügt. Und dann haben wir diese unendlich langen Texte vorwiegend durch Regular Expressions gefiltert. Das heißt, wir haben die relevanten Teile und Protokolle extrahiert. Wir haben das aufgegliedert und wir haben dann nach Redebeiträgen, in der wir auch Reaktionen unterteilt. Das war einmal einer der längsten Regular Expressions Strings. Der war dann irgendwann so lang, wir haben dann irgendwann unserem Head of Regular Expressions auf ein T-Shirt gedruckt. Das hat die gute Vorderseite genutzt. Und nach diesem ganzen Regular Expressions haben wir dann auch viel Fuzzy Search und Matching gemacht, um eben die Fehler auch in den Plenarprotokollen auszumerzen. Das heißt, Politikerinnen sind falsch geschrieben, irgendwelche Worte sind zerrissen und dann haben wir dann ein Fuzzy-String-Matching angeführt. Genau. Und an der Stelle kommt ihr jetzt eigentlich ins Spiel. Das heißt, was wir im Kern machen wollten und jetzt geschafft haben, ist, dieses Corpus oder diesen Datensatz so bereitzustellen, dass ihr euch den auschecken könnt und eigene Analysen mit diesen Daten durchführen könnt. Das heißt, der Open-Discourse-Datensatz und das ganze Repository dazu veröffentlicht. Ihr könnt euch den Source Code anschauen, auschecken, die Datenbank bei euch lokal aufbauen und ihr habt noch ein paar andere Möglichkeiten, auf die gehe ich später noch genauer ein. Genau. Das Spannende finden wir in diesem Datensatz ist jetzt, dass es erstmals möglich ist, Analysen durchzuführen, die vorher in der Form nicht durchführbar waren. Und während wir auf eure Analysen warten, zeigen wir euch ein paar Analysen, die wir schon mal durchgeführt haben, um die Analyse mit größter Sorgfalt zu geben, was denn eigentlich möglich ist. Und an der Stelle ein kleiner Disclaimer. Alles, was wir jetzt gleich zeigen, dient als Inspiration. Wir haben die Analysen mit größter Sorgfalt durchgeführt, aber es ist keine politikwissenschaftliche Forschung. Und gerade weil wir jetzt über Politik sprechen, sollten wir an der Stelle ein bisschen vorsichtig sein. Wir sind uns weitestgehend sicher, dass die Ergebnisse, die wir euch gleich präsentieren, sehr plausibel und weitestgehend korrekt sein werden. Aber wie gesagt, wir haben eine politikwissenschaftliche Forschung, das nicht durch den Periwil-Prozess gegangen, soweit als kleiner Disclaimer dazu. Okay. Wir gucken uns jetzt folgen zwei große Themen an, die in der Geschichte der Bundesrepublik ziemlich große Relevanz hatten. Und wir starten mit dem Thema Datenschutz. Und wir könnten jetzt dieses Thema so untersuchen, wie es traditionell bisher immer möglich war. Das heißt, wir schauen uns mal an, wie oft eigentlich das Wort Datenschutz in den Beratungen gesagt wurde. Und wenn wir das machen, sieht das ungefähr so aus. Das heißt, wir haben den ersten, die erste Nennung des Begriffs Datenschutz Anfang der 70er-Jahre. Das würde ungefähr so gut passen, weil in dem Zeitraum auch Hessen als erstes Land oder sogar weltweit das erste Datenschutzgesetz verabschiedet hat. Das heißt, damals wurde der Begriff anscheinend das erste Mal genutzt, auch im Bundestag. Das ist weiter. Wir sehen einen kleinen Abfall in den 90er-Jahren. Ein Anstieg dann wieder in den 2000er-Jahren. Genau. Aber das ist eigentlich noch nicht gut interpretierbar. Weil wir haben jetzt einfach nur die Worthäufigkeiten, wir wissen nicht, wer das eigentlich gesagt hat. Das heißt, an der Stelle nutzen wir jetzt unseren Open-Discourse-Korpus, um uns das ein bisschen genauer anzuschauen. Was wir zusätzlich jetzt noch gemacht haben, ist, wir haben ein LDA-Topic-Modeling trainiert. Das funktioniert im Wesentlichen so, dass wir davon ausgehen, beziehungsweise ein LDA-Topic-Modeling ist dafür da oder kann genutzt werden, um latente Themen in Textkorporat zu ermitteln. Und wir wollen uns ja das Thema Datenschutz ansehen. Das heißt, wir müssen versuchen, ein LDA-Topic-Modeling so zu trainieren, dass wir dieses Datenschutz-Thema auch finden in unseren Daten. Natürlich nur, solange es da ist. Es ist natürlich auch ein LDA-Topic-Modeling, das in unserem LDA-Topic-Modeling schon ziemlich viel gesprochen wurde. Das heißt, wenn wir jetzt eigentlich untersuchen wollen, wie oder in welchem Ausmaß über Datenschutz gesprochen wurde im Bundestag, dann ist es natürlich nicht bloß der Begriff Datenschutzrelevant, sondern man kann auch über den Datenschutz reden. Dabei aber Begriffe nutzen, wie Informationsfreiheit, Datenverarbeitung, ein spezifisches Begriff. Dafür haben wir das LDA-Topic-Modeling trainiert. Das funktioniert im Wesentlichen so, dass wir vorgegeben haben, was wir oder wie viele Topics, spezifische Topics wir im Korpus erwarten. Da haben wir verschiedene Nummern ausprobiert und bei 250 letztlich sehr konsistente Themen gefunden. Und mit diesem Model haben wir jetzt die weiteren Analysen durchgeführt. Dieses LDA-Topic-Modeling hat als Ergebnis, dass wir für jeden Redebeitrag, den wir im Korpus haben, Angaben darüber bekommen, wie die prozentuale Anteil der jeweiligen 250 Themen in dieser Rede war. Das heißt, wir haben 250 Zahlenwerte für jeden Redebeitrag. Das ist das, was wir jetzt folgend zusammen aggregieren auf der Y-Achse als Relevanz definieren. Das ist jetzt auch erstmals möglich, weil wir die einzelnen Redebeiträge als Dokumente im LDA-Topic-Modeling nutzen können. Alles klar. Zurück zum Thema Datenschutz. Wir plotten uns jetzt mal den durchschnittlichen Gebrauch des ganzen Thema Datenschutz im Verlauf der Plenarsitzungen. Was ich jetzt zum Beispiel schon mal auffällt, ist, dass auch vor 1970 schon in einem gewissen Maß über Datenschutz-Themen gesprochen wurde. Der Begriff Datenschutz wurde dabei jedoch nicht genutzt. Wir sehen immer noch, dass es quasi zwei große Phasen oder zwei große Wellen gibt. Es gibt die erste Welle, die ungefähr Mitte der 70er angefangen hat und dann zum Ende der 80er-Jahre abgeflaut ist. Und wir haben eine zweite Welle, die so in den 2000er-Jahren begonnen hat und das, was wir jetzt hier gefunden haben oder das, was uns das Topic-Model hier gerade anzeigt, stimmt. Das haben wir mal geschaut, was dann eigentlich in diesen Zeiten so passiert ist. Und wenn wir uns die 80er-Jahre oder den Raum um die 80er-Jahre anschauen, sehen wir das in der Zeit des Bundesdatenschutzgesetzes, also das erste Datenschutzgesetz auf nationaler Ebene beschlossen wurde in Deutschland, dass es die Volkszielungs-Bolkotte gab. Und das ist das erste Datenschutzgesetz, das durchgeführt werden. Und die sollte in dem oder in dem Fall das erste Mal digital oder digital die Daten der Bevölkerung erfassen. Das hat natürlich zur Bolkotten gefühlt und zu Protesten und zu sorgen, was denn eigentlich welche Belange das mit dem eigenen Datenschutz hat. Außerdem in der Zeit wurde der CCC gegründet, dass genau es gab ein ziemlich entscheidendes Urteil vom Bundesverfassungsgericht im Rahmen dieser Volkszählung. Und in dem Rahmen tauchten auch erstmals der Begriff der informationellen Selbstbestimmung auf. Das heißt, okay, an dem Rahmen oder in dem Maße ist die erste Welle ziemlich plausibel. Das wurde im Bundestag dann offensichtlich auch sehr intensiv besprochen. Danach ist es ein bisschen abgeflaut. Wir haben Klein-Peak ungefähr um 1995. Da wurde die europäische Datenschutzrichtlinie verabschiedet. Aber den richtigen Anstieg hatten wir den ersten zweiten Welle. Wir haben dann Diskussionen auf die Zensursula und die DSGVO. Also bei Zensursula wurde halt diskutiert, inwiefern der Staat eigentlich das Recht hat, Inhalt im Internet zu zensieren. Auf der anderen Seite wurde auch sehr, sehr stark diskutiert, ob der Staat eigentlich das Recht hat, Hausdurchsuchungen auf den eigenen Rechnern quasi durchzuführen. Das heißt, die zwei Wellen, sind ziemlich plausibel. Das waren tatsächlich die Zeiten, in denen die Debatte um den Datenschutz ziemlich stark ausgeführt wurde. Okay. Jetzt schauen wir uns mal an, welche Dimension wir eigentlich dazu packen können, um vielleicht mehr Informationen darüber zu bekommen, wie das dann diskutiert wurde und welche Partei sich mehr und welche Partei, als sich weniger darum gekümmert hat, um dieses Thema. Und dazu haben wir uns mal angeschaut, wie die historisch großen Parteien in Deutschland diese Themen behandelt haben. Zuerst haben wir uns die CDU angeschaut und wir sehen, dass die CDU in der ersten Welle deutlich überdurchschnittlich über das Thema Datenschutz gesprochen hat im Plenarsaal in der zweiten Welle aber deutlich unterdurchschnittlich. Im Vergleich dazu haben wir uns mal angeschaut, wie die SPD drüber gesprochen hat. Die SPD hat in der ersten Welle unterdurchschnittlich viel Datenschutz gesprochen oder also hatte in ihren Reden deutlich weniger Datenschutz aufgegriffen. In der zweiten Welle oder zum Beginn der zweiten Welle ein bisschen überdurchschnittlich, dann hat es aber deutlich abgeflagt. Das könnte, wird höchstwahrscheinlich damit zu tun haben, dass während der ersten Welle die SPD in der Regierung gefahren und die CDU nicht und die CDU deshalb vielleicht als relevante angesehen hat, das Thema Datenschutz intensiver zu besprechen. In der zweiten Welle sehen wir, dass zum Beginn der zweiten Welle die SPD noch eine Opposition war. Aktuell ist sie natürlich mit in der Regierung, das könnte die Bewegung erklären, warum zu Beginn der zweiten Welle die SPD leicht überdurchschnittlich oder dass das Thema Datenschutz leicht überdurchschnittlich relevant fand, dann aber zunehmend weniger. Wir plotten mal noch zwei andere spannende Parteien dazu, nämlich die FDP und die Grünen. Da können wir nämlich ablesen, dass diese zwei Oppositionsparteien zumindest in der Zeit also, dass diese zwei Parteien auch nach dem Abflauen der ersten Welle die Relevanz aufrechterhalten haben. Das heißt, diese zwei Parteien hatten das Thema trotzdem weiter im Fokus gehalten. Schauen wir uns eine andere Dimension an. Wir schauen uns mal an, wie das vielleicht mit dem Alter zu tun haben könnte. Und zwar haben wir das Alter der Politikerin nach dem Durchschnitt ungefähr geteilt, das heißt, das Durchschnittsalter des Bundestags aktuell liegt ungefähr bei 50 Jahren und so haben wir jetzt unterschieden nach eher jüngeren Politikern, die unter 50 Jahre zum Zeitpunkt der Rede waren und älteren Politikern, die älter als 50 waren zum Zeitpunkt der Rede und jüngeren Politiker des Thema Datenschutz deutlich relevanter finden als die älteren. Okay, als letzte Dimension schauen wir uns jetzt noch mal an, ob das dann vielleicht auch ein Zusammenhang mit dem akademischen Grad hat bzw. ob eine Politikerin oder ein Politiker ein Doktortitel trägt und an der Stelle sehen wir, dass wenn eine Politikerin ein Doktortitel trägt, dass dann tendenziell überdurchschnittlich über Datenschutz gesprochen wird, als wenn die Person kein Doktortitel hat. Man können jetzt versuchen das irgendwie zusammenzufassen, beispielsweise können man versuchen, das so zu interpretieren, dass wenn man möchte, dass im Plenarsaal viel über Datenschutz gesprochen wird, dann sollte man Oppositionsparteien wählen, die er jüngere Leute hat und diese jüngeren Leuten sollten vielleicht eher ein Doktortitel tragen, vielleicht aber auch nicht. Genau, aber diese Auswertungen waren vorher nicht möglich und jetzt könnte man reinschauen und gucken, was steckt denn da eigentlich drin, welche Bewegungen stecken denn in diesem Daten? Wir wollen jetzt nochmal zwei Personen krönen, die sich sehr verdient gemacht haben, also die sehr oder die höchste Relevanzwerte hatten für das Thema Datenschutz in der ersten und in der zweiten Welle. In der ersten Welle geht diese Auszeichnung an Boke Hart-Hirsch, der insbesondere zum ersten oder in der ersten Phase der ersten Welle Innenminister war und sich ganz stark gegen staatliche Überwachung eingesetzt hat und das heißt, das klingt auch sehr plausibel, dass unsere Analyse Boke Hart-Hirsch hier als Vorreiter sieht. In der zweiten Welle haben unsere Analyse ergeben, dass das Gisela Pilz war, die sich in besonderen Maße mit Datenschutz auseinandergesetzt hat und Gisela Pilz hat sich ganz oder setzt sich ganz stark gegen die Vorratsdatenspeicherung ein. Also von daher wirkt auch das ziemlich plausibel. Genau. Das wäre jetzt das Beispiel Datenschutz, das wir aufbereitet haben, um zu gucken, okay, was könnte in diesen Daten drinstecken und welche spannenden Fragen könnte man denn damit eigentlich stellen und potenziell auch beantworten. Jetzt haben wir uns noch ein zweites großes Thema angeschaut, was gerade in den letzten Jahren ganz, ganz stark an Relevanz gewonnen hat und jetzt mit Philipp jetzt mal erzählen, was wir da so gefunden haben. Genau. Also wir kommen doch mal ein bisschen vom Datenschutz zum Klimaschutz und stellen uns ein bisschen den gleichen methodischen Ansatz. Also wir gucken mal, wie das reine Wort Klimaschutz verwendet wurde und wir stellen fest, dass das Wort Klimaschutz eigentlich ein relativ neuer Begriff ist, ab den 2000ern. Aber zurück zu dem, was Florian auch eben schon gesagt hat, die reine Begriffe in diesen Themenkomplex und die latenten Grundstrukturen darunter zu erfassen. Deswegen reicht dieser Begriff Klimaschutz nicht, sondern wir haben auch hier wieder ein automatisiertes LDA-Topic-Modeling verwendet, was uns hunderte Begriffe automatisiert findet, die da reinpassen. Also natürlich kann ich über Klimaschutz reden, ohne den Begriff Klimaschutz zu verwenden. Ich kann über das Emissionsschutzgesetz sprechen, ich kann über Nachhaltigkeit, also voll fokussieren. Deswegen haben wir daraus ein Thema gemacht und gucken uns jetzt diesen ganzen Komplex an und nicht mehr nur den Begriff. Wenn wir das tun, dann stellen wir fest, dass seit 1949 dieses Thema nicht erst in den 2000ern an Relevanz gewonnen hat, sondern auch früher schon da war. Wenn ich jetzt auch hier wieder so ein bisschen in die Wegmarger setze, dann kann ich auch das validieren, also die ersten Umweltprogramme von Willy Brandt 1970, der Einzug der Grünen und die Atomenkatastrophe von Chernobyl. Wir haben danach so in den 90ern, das ist auch relativ plausibel in den Abschwachen dieses Themas, denn wir hatten gerade in der Wiedervereinigung dann Verteilungskonflikte, die so ein bisschen relevanter wohnen, dadurch ist das Thema des Klimawandels und des Klimaschutzes ein bisschen hinten runtergefallen. Wir haben weitere Punkte, wir haben die Rot-Grüne Regierung von Schröder-Fischer 2000, so Richtung 2005. Wir haben Fukushima und die Energiewende. Wir haben das Pariser Klimaschutzabkommen. Und wir sehen jetzt auch schon diesen Droll nach oben, insbesondere durch Freides for Future und die neue Auseinandersetzung mit der Einhaltung des Pariser Klimaschutzabkommens. Was wir jetzt hier wieder machen können, ist, wir können uns wieder angucken, wie einzelne Parteien denn eigentlich darüber reden. Und wir können feststellen, dass die CDU ziemlich durchschnittlich über dieses Thema redet. In den letzten Jahren sogar deutlich das Thema für die CDU nicht mehr ganz so relevant vielleicht. Wir können die SPD plorten, das sieht auch ganz durchschnittlich aus. Bei der FDP sieht es auch ganz durchschnittlich aus. Bei den Linken sogar ein Stück unterdurchschnittlich. Und so ein bisschen wie erwartet sind es die Grünen, die dieses Thema extrem pushen und die diesen Diskos sehr, sehr hoch halten. Das heißt, die Grünen ziehen hier deutlich den Rowling-Mien nach oben und steuern dieses Thema ganz stark. Wir können aber auch hier noch ein bisschen weiter gucken, nämlich wer sind es denn? Sind es die Jüngeren oder sind es die älteren Politiker? Wenn ich mir hier das mal angucke, dann stelle ich fest, dass die mittelalten Politiker zwischen 39 und 59 sich mit dem Thema sehr durchschnittlich auseinandersetzen. Und so ein bisschen wie erwarten kann ich mir dann entsprechend vorstellen, dass sich ältere Politiker über 60 mit diesem Thema sehr gering, sehr unterdurchschnittlich auseinandersetzen. Und jüngere Politiker innen unter 39 sich mit diesem Thema deutlich stärker auseinandersetzen. Wir sehen auch hier nicht nur eine stärkere auseinandersetzung, sondern immer auch eine frühere auseinandersetzung, während bei älteren Politiker in dieser Auseinandersetzung immer zeitlich rechtsversetzt ist und immer deutlich weniger intensiv ist. Wir können mit dem Open-Diskos-Datensatz die Stammdaten des Deutschen Bundestages anzapfen und noch ein kleines Stück tiefer gehen. Wir können nämlich die Berufe der Abgeordneten auswerben. Jeder Abgeordnete gibt seinen Beruf oder seinen beruflichen Hintergrund und diese Daten können wir auswerten. Wir haben über 1.000 die unike Berufsbezeichnungen von über 4.000 Politikerinnen. Wenn ich mir die jetzt hier mal so angucke, dann sind es Ärzte und Apotheker und Unternehmer und Landwirte und Buchhalterinnen. Und wenn ich das ein bisschen klasse, dann habe ich jetzt für die folgende Analyse mal 12 Berufsgruppen gefiltert. Und jetzt können wir uns angucken, welche Berufsgruppen denn dieses Thema besonders stark fokussieren. Die Frage, was sehr stark fokussierbar ist, ist, dass die Naturwissenschaftler in diesem Thema deutlich stärker fokussieren als andere das tun. Also das Thema ist sehr exorbitant getragen durch Physikerinnen, durch Biologinnen, durch alle Personen, die einen Berufs-Hintergrund in dem Feld der Naturwissenschaften haben. Ich habe uns hier mal noch die Agrarwürte dazu geplottet, also alle Landwirte und alle Forstwürter als Berufsbezeichnung angegeben haben. Wir sehen, dass es in der ersten Welle der Klimadebatte noch sehr relevant war. Und jetzt gerade so Richtung der neueren Zeit für die Landwirte ein unterdurchschnittlich relevantes Thema geworden ist. Und wir können feststellen, dass die, die eine Berufsbezeichnung im Wirtschaftsfeld angegeben haben, sich mit diesem Thema auch auseinandersetzen, allerdings deutlich weniger intensiv und auch wieder rechts verlagert, also zeitlich zurückverlagert, wie wir mit diesem Thema zuerst auseinandersetzen. Was können wir feststellen oder was könnten wir mal so ein bisschen uns angucken? Wir können uns angucken, was dann eigentlich die perfekte Gruppe ist, um sich mit dem Thema Klimaschutz auseinandersetzen. Und diese perfekte Trennlinie zwischen der perfekten Gruppe von Abgeordneten und der schlechtesten Gruppe von Abgeordneten, die macht sich ziemlich einfach am Geschlecht und an dem Alter fest. Wenn ich also mir mal angucke, wie sich alte männliche Politiker mit dem Thema auseinandersetzen, dann stelle ich fest, dass wir da sowohl wieder eine frühere auseinandersetzung mit diesem Thema haben, wir haben eine intensive auseinandersetzung mit dem Thema. Und für ältere Politiker in dem Fall jetzt über 60, ist die Auseinandersetzung wirklich sehr weit unter dem Durchschnitt des Parlaments. Wir können uns also hier vielleicht ein bisschen überlegen, welche Person wir dann ganz gerne im Bundestag hätten, um progressive Themen, so auch den Datenschutz stärker zu treiben. Hier im Klimawandel wieder die Top-1er identifizieren. Das können wir beliebig operationalisieren. Wir haben uns immer die Vielredner genommen, also PolitikerInnen mit mehr als 500 Reden. Und haben dann geguckt, welche haben denn den höchsten Klimascore auf dieses Topic? Tatsächlich ist es Angela Merkel, die als Vielrednerin sich mit diesem Thema am stärksten auseinandergesetzt haben. Wir wollten uns aber auch nochmal ein Newcomer angucken in großen Anführungszeichen, also PolitikerInnen mit 100 bis 500 Reden. Und da ist es Julia Verlinden von den Grünen, die sich am stärksten mit diesem Thema auseinandersetzt. Das ganze Freude ist vor Future hat immer auch, das geht nochmal viel um Schwänzen und um das Fernbleiben von Inhalten. Und wir haben uns deswegen mal angeguckt, wer denn so die großen Klimaschwänzer sind im Deutschen Bundestag. Das haben wir operationalisiert, indem wir gesagt haben, wir wollen nicht den Politiker, die Politikerin mit dem geringsten Wert über die gesamte Zeit finden, sondern wir wollen so einen Punkt nehmen, ab dem die Klimadebatte werden müsste. Und wir haben dafür den ersten Global Climate Strike genommen, am 15. März 2019. Und wir haben dann von den Politikern geguckt, die sich die Gelegenheit hatten, darüber zu reden, also die mindestens 40 Redebeiträge seitdem hatten, wie sie sich damit auseinandersetzen. Wir stellen fest, dass diejenigen, die sich am wenigsten damit auseinandersetzen, drei Männer sind aus all aus der gleichen Fraktion, haben also Volker Ulrich, der sich trotz Gelegenheit am wenigsten damit auseinandersetzt. Und wir haben hier auch den Spätsünder im Klimathema Philipp Amthor, der sich trotz sehr vieler Reden nie mit diesem Thema oder sehr selten mit diesem Thema auseinandersetzt. Wichtig ist hier vielleicht noch zu sagen, dass wir nicht die reinen Reden zum Klimawandel zählen, sondern dass allein die Verwendung von den relevanten Begriffen um dieses Thema so ein bisschen auch zum Beispiel in Steuern oder in Haushaltsdebatten zu bringen, hier gezählt wird. Also wir haben eine sehr komplexe Betrachtung des gesprochenen Wortes. Genau. So viel erstmal zu einigen Analysen, die wir bisher durchgeführt haben. Wie bereits angesprochen ist unser eigentliches Ziel ja aber, dass ihr und ja alle anderen auch Analysen jetzt mit diesen Daten durchführen können. Und auf unserem Weg bis zur Veröffentlichung, die jetzt im Rahmen oder auch zu genau dieser Zeit, wenn wir diesen Vortrag halten, haben schon andere Partner und PartnerInnen, mit denen wir zusammen gearbeitet haben oder die mit unseren Daten schon arbeiten konnten, ein paar Analysen durchgeführt. Da sind gerade dabei, diese Analysen noch durchzuführen. Beispielsweise Correlate. Correlate ist ein Netzwerk von freiwilligen Data Scientists. Und bei Correlate haben sich zwei Projektteams zusammengefunden, die mit unseren Daten schon seit einiger Zeit ein bisschen herumarbeiten. Und die werden auch bald ihre Ergebnisse an Analysen veröffentlichen. Die findet ihr dann zum einen in den entsprechenden Kanälen von Correlate. Auf der anderen Seite werden wir die auch bei uns auf unserer Open-Discourse-Webseite dann zugegebener Zeit einbetten. Ein paar Sachen, die beispielsweise schon gemacht wurden, ist an Christine Fester hat sich angeschaut, wie eigentlich die Geschlechter im Bundestag auftreten, wie der Sprachgebrauch sich unterscheidet. Das ist der Hinweis auch bei allen Analysen, die wir bisher durchgeführt haben. Wir betrachten Geschlecht bisher immer binär, weil der Bundestag das nicht andershergibt. Es gibt bloß eine binäre Geschlechts- einteilung, deswegen mussten wir das in den Analysen auch so vornehmen. Und das ist auch der Artikel, den an Christine Fester geschrieben hat, das ist auch dort mit erwähnt. Also eine tievere oder eine diversere Untersuchung von den Geschlechern im Bundestag ist aktuell leider noch nicht möglich. Aber eine andere Analyse wurde von Alexandra Werner durchgeführt. Alexandra Werner hat sich angeschaut, wie dann eigentlich über Diskriminierung im Bundestag gesprochen wurde, von welchen Parteien das, wie intensiv benutzt wurde oder darüber gesprochen wurde und wie das über einen zeitlichen Verlauf verändert hat. Auch ziemlich spannend. Ein anderes Projekt, das bereits mit unseren Daten durchgeführt wurde, kam von ZDF Heute. Wir haben uns schon vorgegeben und gefragt, ob sie unsere Daten, die schon vor Veröffentlichung haben könnten und zu schauen, ob sie diese Daten für ein Artikel schon nutzen könnten. Daraus ist ein Artikel entstanden, in dem sich die Journalistinnen damit auseinandergesetzt haben, wie der Bundestag dann eigentlich über Pandemie und über das Coronavirus im Speziellen unterhalten hat oder wie das debattiert wurde. Das Ergebnis war eher, dass der Bundestag da nicht besonders für Aufmerksamkeit raufgelegt hat. Auch ein sehr spannender Artikel. Und als Letztes wollen wir noch kurz das Projekt OpenPalimentTV antiesern, weil der offizielle Veröffentlichungstermin ist für Mai 2021 vorgesehen. OpenPalimentTV hat als Kernziel eigentlich ein sehr ähnliches Ideal wie wir bei OpenDiscourse. Es geht darum, den Bundestag transparenter zu machen. OpenPalimentTV hat dabei das Ziel, die Videomitschnitte der Plenardebatten mit den entsprechenden Transkripten, also Plenarprotokollen zusammenzuführen, um darüber eine noch viel wirksame oder detailliertere Recherchefunktion zu ermöglichen. Und an der Stelle wird gerade evaluiert, wie die Daten von OpenDiscourse diesen Projekt noch weiter helfen können. Genau. Und jetzt wieder zu euch quasi. Wie gerade schon angesprochen, sind unsere Daten ab sofort und unser Source Code komplett öffentlich verfügbar. Das heißt, ihr habt jetzt die Möglichkeit mit diesen Daten zu machen, was ihr wollt. Wir haben bei der Veröffentlichung das Ziel gehabt, die so verfügbar wie möglich zu machen und haben dabei auf drei große Säulen quasi versucht zu achten. Die erste Säule dabei sind die Technikerinnen unter euch, ihr könnt euch unsere GitHub-Seite anschauen von OpenDiscourse und dort findet ihr natürlich den Source Code, ihr könnt das alles auschecken, lokal bei euch aufsetzen, überprüfen, wie wir eigentlich vorgegangen sind, verbessern, Schwachstellen finden. Außerdem findet ihr auf der GitHub-Seite auch ein Docker-Container, wo die komplette Datenbank als Image vorliegt. Das heißt, die könnt ihr euch auch sofort aufsetzen und noch mal neu generieren lassen, wenn ihr wollt. Für die Analytikerinnen und die Wissenschaftlerinnen unter euch haben wir ein Hava Dataverse angelegt. Dort findet ihr die aktuelle Version unserer Datenbank als DataDump und wir haben das in vier verschiedenen Dateiformaten bereitgestellt, als CSV, FESA, Pickle und RDS-Files, damit ihr je nachdem, womit ihr am liebsten arbeitet, genau das perfekte Dateiformat für euch findet. Und als Letztes haben wir noch für Quick Reviews oder schnelle Recherchen auf unserer Webseite eine Volltext-Suche mit Filteroptionen bereitgestellt. Da könnt ihr also nach Stichworten, nach Parteizugehörigkeit, nach Namen der PolitikerInnen, nach Datum und so weiter filtern und schauen, ob euch was Spannendes auffällt oder ob ihr eure Fragen beantwortet beantworten könnt. Genau. So viel dann erstmal von uns. Wir bedanken uns ganz, ganz herzlich für euer Interesse und dass ihr uns zugehört habt. Wir bedanken uns natürlich auch bei der C-Base dafür, dass wir das Video hier aufnehmen konnten. Bei Fragen und Anregungen schreibt uns gerne eine Mail oder kontaktiert uns über die einschlägigen Kanäle. Oder wir sprechen uns dann gleich bei der Fragerunde. Vielen Dank. Wir sind nun mit den Sprechern verbunden. Sie sind uns zugeschaltet für Fragen und Antworten, die uns zugespielt worden sind. Herzlich Willkommen. Hallo. Die zweite Welle des Datenschutzes ist ja angesichts der Zeit gerade die perfekte Metapher. Wie lange wird die zweite Welle des Datenschutzes wohl noch gehen? Ja, gute Frage. Keine Ahnung. Man hat ja gesehen, dass es sich schon ein bisschen bergab wieder geht. Aber viel mehr kann ich da eigentlich nicht zu sagen. Aber es ist spannend, das jetzt im Auge behalten zu können. Es ist auf jeden Fall auf absehbare Zeit nicht mit einer Impfung zu rechnen. Eine Frage, die uns zugespielt worden ist über die Hashtags und über IRC, die wir empfangen und die wir jetzt weitergeben ist, es gibt noch einen weiteren Textkopus. Ihr habt jetzt den Deutschen Bundestag analysiert, aber es gibt ja noch eine andere legislative Kamera, die es lange gibt, gibt es dort überhaupt entsprechende Unterlagen oder entsprechendes Material, dass man analysieren könnte? Da bin ich mir gar nicht so sicher. Ich habe, also davon weiß ich nichts. Wir hatten da jetzt auch gar nicht so weiter reingeguckt. Wir hatten natürlich während wir an dem Projekt gearbeitet hatten schon überlegt, wie man das alles noch weiterdenken könnte, was man zusätzlich noch mit aufnehmen könnte. Da war die Volkskammer auch schon mal im Gespräch, aber wir sind da jetzt erst mal nicht weiter reingesprungen. Es ist noch weiter in die Richtung zu denken und das auch noch mit aufzunehmen. Aber ich weiß gar nicht, ob es die Plenarprotokolle da so auch detailliert gibt. Wahrscheinlich wäre es auch ein relativ großer Aufwand, könnte ich mir vorstellen, die Rack-Expertenz, die wir jetzt für den Bundestag aufbereitet haben, auf die Volkskammer zu übertragen, weil wenn sich da also im Prinzip basiert die Aufarbeitung, die wir gemacht haben, darauf, dass die Struktur in den Plenarprotokollen einigermaßen ähnlich bleibt über die Legislaturperioden. Wir haben die natürlich jedes Mal angepasst, wenn es dann notwendig war. Auf der anderen Seite brauchen wir die Stammdaten der PolitikerInnen, weil wir das für die Fasi-Matching-Lobby nutzen, um zuweisen zu können. Wer hat dann eigentlich was gesagt? Total spannend, das für die Volkskammer auch noch zu machen, vielleicht jetzt als nächstes Schritt, ich würde dir das mal froh, dass wir den Bundestag fertig bekommen haben. Auf jeden Fall. Gibt es denn Wünsche, die ihr habt die Möglichkeit von Daten, die euch das Leben oder euch anderes Leben einfacher machen würden bei solchen Auswertungen? Das glaube ich vor allem, die Strukturierterfassung. Eigentlich hätte der Bundestag selbst die Möglichkeit, diese Daten von sich aus schon strukturiert verfügbar zu machen. Vor allem, weil eben diese ganz einfachen Sachen, ich suche nach Begriffen oder ich suche nach Themen und ich möchte das mal ein bisschen strukturiert durchsuchen. Das ist derzeit eine absolut händische Aufgabe und das ist eigentlich in unseren jetzigen Zeiten ein kleines bisschen hinter der Zeit, hinterher. Von daher wäre es eigentlich sehr sinnvoll, wenn man so Grundideen von strukturierter Datenhaltung dann auch in öffentlichen Verwaltungen hätte, um in diesen Zugang zwar leichter und auf unserer Seite hat es jetzt quasi eineinhalb Jahre Arbeit gekostet, das aufzubrechen und das wäre natürlich super, wenn man solche Grundthemen der Datenhaltung der öffentlich verfügbaren Datenhaltung auch irgendwie direkt mitdenkt. Ein ganz kleiner Nachtrag da noch ein großer Wunsch, der uns vieles erleichtern würde jetzt auch Open Discourse up to date zu halten. Wir haben RSS-Feed vom Bundestag, da sitzen auch die Leute von Open Parliament die gerade ein bisschen ran und hoffen, dass das irgendwie bereitgestellt wird, aber das würde uns natürlich ermöglichen, automatisiert den Datensatz zu erweitern, sobald dann irgendwie eine neue Rede bereitgestellt wurde im Moment geht das leider so noch nicht. Strukt die Maschinen, lesbare Verwaltungen und strukturierte Daten quasi als Wunsch. Es gibt ja zum Teil zumindest eigene Projekte, wo aus dritterhand solche Daten schon bereitgestellt werden, wie zum Beispiel Vigidata. Ist das eine Quelle auf dir, die ihr verwenden könnt für so etwas? Genau, teilweise hatten wir das auch verwendet, also auf dem Weg zum fertigen Produkt haben wir auch mit Vigidata Daten gearbeitet. Zum Beispiel gibt es in den Standaten ja Informationen darüber, wo Personen geboren wurden. Und das sind die Originalgeburtsorte von damals, also quasi mit den historischen Namen. Und an der Stelle hatten wir dann mal als Test-Experiment bei uns intern für jede Person, die wir im Bundestag hatten, also für jede Abgeordnete und jede Abgeordnete die Vigidata-IDs rausgesucht, damit wir metten können was ist denn jetzt eigentlich die ID für den Geburtsort dahinter, damit wir damit weiter arbeiten können. Das liegt aber bei uns nur, also das ist jetzt nicht Teil des Korpos, weil wir das nicht so weit validiert haben, dass wir sicher sein können, dass das korrekt ist. Aber auf jeden Fall, also das wäre so ein bisschen die Anschlussfähigkeit, die wir uns eigentlich wünschen. Also im Idealfall wäre jetzt und vielleicht die Community dazu auch aufgerufen für jede Politikerin noch die entsprechende Vigidata-ID zum Korpos dazu zu packen. Damit wir noch viel mehr Daten und viel mehr Dimension für den ganzen Datensatz haben. Wohin wenden sich denn Menschen, wenn sie bei eurem Projekt mitmachen möchten? Am besten zum Beispiel Zwischenruf at OpenDiscourse.de oder auf unserer Webseite OpenDiscourse.de findet ihr auch verschiedene Kontaktmöglichkeiten. Ihr könnt natürlich auch direkt über das Repository uns ein Ticket schreiben, falls ihr Sachen habt, die euch auffallen. Twitter, Instagram. Das wäre so für die Kanäle. Alle Soziane, seid ihr auf Tick-Tock? Zum Thema Transferierbarkeit gab es dann auch noch mal eine Frage aus dem Jet, zum Beispiel für die Republik Österreich. Wie gehen den Menschen vor? Ihr habt da vorhin umrissen, dass es gar nicht so einfach ist so ein Daten das zu analysieren. Aber wie würden denn Menschen vorgehen, die sind da noch nicht ausreichend oder eben auch für ein anderes Land? Genau, an der Stelle sind wir leider auch nicht ausreichend Expertinnen für die Plenarprotokolle, wie die auf Landesebene aussehen. Also es könnte sein, wir haben da halt noch nicht weiter reingeschaut, es könnte sein, dass es eigentlich gar nicht zu viele Abänderungen der Wreckings-Patterns voraussetzt, um das zu übertragen. Es könnte aber auch sein, dass es relativ aufwendig ist. Wir würden da jetzt eine Stimme von euch warten. Also was interessiert euch denn eigentlich am meisten? Und wir sind natürlich auch sehr dankbar für jedes weitere Paar Augen, das auf unsere Daten oder beziehungsweise auch unseren Source Code drauf schaut, um vielleicht Ideen zu entwickeln, wie man das jetzt möglichst effizient auf andere Anwendungsberatchen übertragen kann. Okay, dann ist noch eine Frage aus dem Jet, nämlich vielleicht kam das im Talk vor, schreibt die Person, aber wie ist das Projekt in Zustande gekommen, insbesondere von der Finanzierung her? Also die Grundidee war, glaube ich mal, dass wir zusammen saßen und uns überlegt haben, wie können wir denn eigentlich in Anbetracht von so vielen schönen künstlerischen oder politischen Programmen und Aktionen, die es so gibt, was können wir denn eigentlich beitragen, um irgendwas zu machen? Wir sind ja irgendwie Informatiker und Data Scientist und das ist nicht so direkt der Punkt, wo man jetzt die Welt ins Positive drehen kann, sondern es ist uns aufgefallen, dass eben diesen Datensatz nicht ausreichend verfügbar ist, dass der nicht machine-based ist, dass es händisch durchsuchbare Produkte sind. Und dann haben wir diesen Datensatz eben genommen und aufgebrochen. Grundlegend sind wir sonst normalerweise in der Agentur und verbringen so Data Science und Machine Learning Dienstleistungen und haben dieses Projekt, aber in Abstimmung mit mit unserem Team, also zu neuem an diesem Projekt, haben das quasi komplett von unserem Team, wann immer wir Arbeitsstunden frei haben, haben wir Zeit, um dieses Projekt zu treiben. Und damit diese quasi Bindung der Privatwirtschaft, die da dran sein könnte, dass die natürlich auch komplett eliminiert ist, ist das Projekt komplett offen und ist komplett durchsuchbar und ist komplett frei, sodass validiert werden kann, dass wir das natürlich, wir haben natürlich eine eigene politische Meinung, aber die soll natürlich nicht mehr diesen Datensatz fließen. Daher liegt der Datensatz komplett offen und kann vollkommen durchsucht werden, finanziert. Und das ist das, was wir jetzt hier haben. Vielen Dank für dieses spannende Projekt und wirklich gehaltvolle Projekt. Bei den Beleidigungen muss man auch sagen, Franz-Josef Strauss war von der Unterzählung der Top 5 fast zu erwarten, dass der rauskommt. Ich hatte eigentlich noch Herrn Wiener auch erwartet, der eigentlich sein traditioneller Widersacher war. Habt ihr denn einen Lieblingsschlagausausch oder eine Lieblingsbeleidigung gefunden oder einen Lieblingsschlag? Ich glaube, man kann es auf so unterschiedliche Art und Weise operationalisieren. Ich glaube, wir hatten mal eine ganz spannende, aber ich glaube, das müssten wir noch mal, vielleicht machen wir dafür noch mal einen extra Teil auf der Webseite, wo wir die spannenden Beleidigungen nochmal aufgreifen. Das wäre ein gutes Thema. Wir hatten, glaube ich, teilweise so kleinen Dokumenten an ein paar Sachen gesammelt, aber ich habe die auch gar nicht im Kopf. Das ist ja für den Spaß, seit hinten dran für die Spaß, der Datenanlüse ist auf jeden Fall vorhanden. Vielen Dank für Euren Beitrag. Ich hoffe, ihr bekommt viel Feedback und auch noch viel Input, wie man hier noch mehr draus machen kann. Danke euch. Vielen Dank auch.