 Es ist 12 Uhr. Willkommen zum WG Packer, Television und Fernstream. Wir leben im Informationszeitalter. Wir leben im Zeitalter der Digitalisierung. Doch wo sind sie die Informationen? Und wo ist das Digitalisierte? Oder kurz, wo sind die Daten? Das weiß unser Korrespondent Simon Jokas. Der arbeitet nämlich an der Schnittstelle zwischen Softwareentwicklung und Journalismus. Entwickelt verschiedene Tools, die allen Menschen, vor allem Journalistinnen, dabei helfen, mit Daten sinnvoll arbeiten zu können. Zum Beispiel mit den Daten der statistischen Enter. Im Projekt Datenguide ist er besonders aktiv. Das ist ein Tool als freie Software und genau das wird er jetzt vorstellen. Bitte schön. Hi, ich heiße Simon Jokas und ich bin einer der Köpfe hinter Datenguide. Datenguide, das ist eine Open Data Initiative, mit der wir amtliche Statistiken zugänglicher für alle machen wollen. Und bei Datenguide, da entwickeln wir Open Source Software, die dabei hilft, mit amtlichen Statistiken zu arbeiten. Und wir veranstalten Workshops und Hackdays und andere Veranstaltungen zu diesem Thema. Und dieser Vortrag heute, der hat zwei große Teile. Im ersten Teil gebe ich so einen allgemeinen Überblick über amtliche Statistik und im zweiten Teil erkläre ich, was genau wir mit Datenguide machen. Aber zum Einstieg, was ist eigentlich amtliche Statistik? Einfach gesagt sind es alle Statistiken zu Gesellschaft, Umwelt und Wirtschaft, die von den statistischen Ämtern erstellt werden. Und bei Datenguide, da konzentrieren wir uns auf den bestimmten Bereich der Amtlichen Statistik und zwar auf die Regionalstatistik. Das heißt Statistiken zu Regionen, wie zum Beispiel Bundesländern, Landkreisen und Gemeinden. Und wenn man sich jetzt die Selbstdarstellung der Statistischen Ämter anschaut, dann sagen die, dass die Statistiken, die sie produzieren, objektiv, unabhängig und qualitativ hochwertig sind. Und da gehe ich auf jeden Fall mit. Und weiter sagen sie dann, dass sie das machen für Politik, Verwaltung, Wirtschaft, sowie für Bürgerinnen und Bürger. Und bei Datenguide sind wir eben der Meinung, dass dieser letzte Teil Bürgerinnen und Bürger, dass man den durchaus noch besser machen kann. Um ein bisschen plastischer zu machen, was so drinsteckt in der amtlichen Statistik, habe ich hier mal ein paar Beispiele gesammelt. Bei amtlicher Statistik, da denkt man meistens erst mal an demografische Daten. Und das ist auf jeden Fall richtig. Also es gibt in der amtlichen Statistik Zahlen zur Bevölkerung, zur Altersstruktur, zu Wanderungsbewegungen, also zum Hinzug und Wegzug aus bestimmten Regionen. Und es gibt beispielsweise auch Daten zur Migration, also zum Beispiel zu Schutzsuchenden in Deutschland oder zur Einbürgerung. Und für dieses Beispiel hier habe ich mir mal die Frage gestellt, wo gibt es in Deutschland denn die meisten RentnerInnen? Und dann habe ich mir die Daten aus der amtlichen Statistik runtergeladen und habe sie mit einem Datenvisualisierungstool auf eine Karte gepackt. Und hier sehen wir, dass die Rentnermetropolen Deutschlands die Städte Baden-Baden und Dessau-Rosslau sind. Und in beiden Städten kommen auf 100 Personen im typischen Erwerbsalter, fast 50 Menschen, die schon im Rentenalter sind. Aber es gibt eben nicht nur demografische Daten, sondern ganz allgemein auch Daten zu den Bereichen Wirtschaft und Umwelt, also zum Beispiel Daten zur Industrie und Gewerbe oder Daten zum Tourismus oder Daten zur Abfallentsorgung oder Daten zur Landwirtschaft. In diesem Beispiel hier, da habe ich mir mal angeschaut, wo es in Deutschland die meisten Schweine gibt und da gibt es einen ganz klaren Cluster in Niedersachsen und in Teilen von Nordrhein-Westfalen. Und es gibt Zahlen zu Wahlen, also zum Beispiel gültige Stimmen, Wahlbeteiligung oder Wahlberechtigte bei Landtagswahlen, bei Bundestagswahlen und bei Europawahlen. Und für die letzte Europawahl habe ich mir in dieser Grafik mal angeschaut, wo die Leute denn tendenziell eher grün wählen und wo die Leute eher AfD wählen. Und dann sehen wir hier erst mal, dass es da eine ganz klare Trennung gibt. Also die Grünen sind eher eine Partei der Westdeutschen und die AfD ist scheinbar eher eine Partei der Ostdeutschen. Und am einen Ende des Spektrums sehen wir, dass in Freiburg im Preiskau 39 Prozent grün gewählt haben, während am anderen Ende des Spektrums in der sächsischen Schweiz Ostärzgebirge dort haben 33 Prozent die AfD gewählt. Und das ist jetzt auch nur ein ganz einfaches Beispiel, aber es gibt eben eine ganze Reihe von Daten aus dem Bereich der Wahlen, mit denen ihr arbeiten könnt. Und ganz wichtiger Aspekt ist, dass die Statistiken der Amtlichen Statistik in der Regel Zeitreihen sind. Das heißt, die Beispiele, die ich gerade gezeigt habe, die haben immer den Zustand zu einem bestimmten Zeitpunkt gezeigt, aber die Daten gibt es eigentlich immer über die Zeit, weil so eine Statistik wird immer wieder durchgeführt und dann erhaltet ihr eben eine Zeitreihe, mit der ihr Verläufe zeigen könnt, wie ich das hier gemacht habe, zum Beispiel mit Immobilienpreisen für die Städte Hamburg, Berlin und Leipzig. Und auf Basis dieser vier Beispiele, die ich jetzt gerade gezeigt habe, könnt ihr euch wahrscheinlich ganz gut vorstellen, dass es eine Reihe von, ich sag mal, zivilgesellschaftlichen Anwendungen für diese Daten gibt. Es ist einmal der Bereich Journalismus. Also amtliche Statistiken sind ein super wertvolles Werkzeug, zum Beispiel für Datenjournalismus oder für Fact Checking. Und amtliche Statistiken sind auch sehr wichtig, zum Beispiel für die Sozialwissenschaften. Aber auch für zivilgesellschaftliche Initiativen können Daten echter mehr wert sein, zum Beispiel, wenn eine Initiative, ich sag mal, Daten gestützt für die gute Sache kämpfen will. Wenn man jetzt anfängt, mit amtlichen Statistiken zu arbeiten, dann ist es immer ganz wichtig, sich einmal in den Hinterkopf zu rufen, wie diese Daten entstehen. Und dazu erzähle ich immer ganz gerne diese Geschichte. Die habt ihr vielleicht in den letzten Tagen auch schon mal gehört. Und zwar war das so, dass etwa vor 2000 Jahren Kaiser Augustus, der Kaiser des Römischen Reiches, ein Zensus angesetzt hat, weil er bessere Daten über die Bevölkerung seines Reichs brauchte. Und im Rahmen von diesem Zensus, da mussten Maria und Josef zusammen nach Bethlehem reisen, um sich zählen zu lassen. Und das passiert auch heute noch. Also es gibt in allen, ich sag mal, Industrienationen, gibt es irgendeine Form von Zensus, der ungefähr alle zehn Jahre durchgeführt wird. Entweder in Form von der klassischen Volkszählung, wo wirklich Menschen von Tür zu Tür gehen und von der Bevölkerung Daten über jeden einzelnen Haushalt erfassen. Oder das ist der andere Ansatz, in dem man Daten aus Registern, die ohnehin vorliegen, zusammenfasst. Der Zensus in Deutschland, der zum letzten Mal 2011 stattgefunden hat und zum nächsten Mal 2022 stattfindet, der ist in erster Linie ein Registerzensus. Das heißt, es werden Daten aus den Bevölkerungsregistern und anderen amtlichen Registern zusammengetragen und dann wird eben mit statistischen Methoden berechnet, zum Beispiel wie viele Menschen in einer Stadt leben. Und zusätzlich gibt es dann eine kleinere Anzahl von Menschen, die befragt wird, um das eben gegen zu checken. Es gibt auch eben diese andere Art, ein Zensus durchzuführen, die man Mikrozensus nennt und das ist eben einfach ein Sample. Das heißt, man befragt einen bestimmten Teil der Gesellschaft und dann nimmt man diese Daten und rechnet die hoch auf das ganze Land. Und es gibt den Bereich der Sekundärstatistik. Da werden zum Beispiel Daten, die an anderer Stelle erfasst werden, zum Beispiel von der Agentur für Arbeit, die werden dann hinterher weitergegeben an die statistischen Ämter und die statistischen Ämter, die veröffentlich dann die Breiten eines Statistik auf und veröffentlichen die. Und bei allen Verfahren, da ist es ganz wichtig zu verstehen, dass die Daten eben nicht ein perfektes Abbild der Welt sind. Es sind immer Daten, die nach einer bestimmten Methodik erhoben wurden und weiterverarbeitet und die sind in der Regel nicht perfekt. Aber trotzdem ist die Amtliche Statistik normalerweise das Beste, was wir haben. Also die Amtliche Statistik ist in den meisten Fällen sowas wie der Goldstandard der Daten. Ja, und wichtig in dem Zusammenhang ist auch, wir haben in Deutschland ein ganz strenges Statistik-Geheimnis. Das heißt, dass die Daten, die so gesammelt werden, die werden immer anonymisiert. Es werden nur aggregierte Zahlen veröffentlicht und grundsätzlich dürfen Menschen oder Unternehmen nie nachträglich identifizierbar sein. Und trotzdem, oder auch deswegen, ist in Deutschland der Zensus immer hoch umstritten. Also in den 80er Jahren, da gab es sehr große Proteste und auch Verfassungsbeschwerden gegen den Zensus und das ist auch der Grund, warum wir heute in Deutschland überhaupt dieses Konzept eines Rechts auf informationelle Selbstbestimmung in dieser Form haben. Das heißt, die Proteste, die es immer wieder gibt gegen den Zensus, die sind sehr wichtig für den Datenschutz in Deutschland. Aber ich will das gar nicht so thematisieren. In diesem Vortrag soll es eher darum gehen, dass diese Daten jetzt da sind und dass wir euch eine Position versetzen wollen, mit diesen Daten auch wirklich zu arbeiten. Wenn ihr jetzt euch überlegt habt, okay, ich brauche Statistiken zu einem bestimmten Thema und die finde ich vielleicht in der amtlichen Statistik und ihr sucht meinen Web, dann seid ihr höchstwahrscheinlich erstmal ziemlich erschlagen, weil es wirklich sehr, sehr viele Angebote im Web gibt, die amtliche Statistiken zur Verfügung stellen und die sind leider auch von sehr unterschiedlicher Qualität. Der Grund dafür ist einfach gesagt Föderalismus. Also wir haben in Deutschland eben das Statistische Bundesamt und das wird auch die Status genannt und wir haben 14 Statistische Landesämter. Außerdem haben wir ja noch den Bereich der Kommunalstatistik oder städtischstatistischerämter, wo eigentlich in jeder Kommune in Deutschland auch irgendwie Daten erfasst werden. Und all diese Daten werden dann auch in irgendeiner Form im Web veröffentlicht. Und da haben wir sehr, ich sage mal, coole oder moderne Angebote wie das hier. Das ist ganz neu, das Dashboard Deutschland vom Statistischen Bundesamt und hier könnt ihr euch so eine Sammlung von aktuellen Statistiken angucken. Die sind dann auch dargestellt in so ziemlich coolen Grafiken. Aber ihr habt halt keine Möglichkeit jetzt nach einem bestimmten Thema zu suchen oder die Daten hinterher runterzuladen und in euren eigenen Analysen oder Grafiken weiterzuverarbeiten. Das heißt, wenn ihr damit eigene Sachen machen wollt mit diesen Daten, dann sind solche für öffentlichen relativ nutzlos. Und noch viel schlimmer ist dieses Beispiel. Es gibt es leider immer noch, dass Daten einfach in ein PDF gepackt werden in Form von einer Tabelle oder von einer Grafik und hinterher ist es dann sehr schwer für euch diese Daten wieder rauszuholen aus diesem PDF. Und damit ihr jetzt diese Recherche nicht selber machen müsst, habe ich mal für euch zusammengefasst, was die richtig guten Portale sind, wo ihr höchstwahrscheinlich oder hoffentlich dann auch die Daten findet, die ihr braucht. Der erste Startpunkt sollte normalerweise Genesys Online sein. Genesys Online ist so die zentrale Datenbank oder das zentrale Datenportal des Statistischen Bundesamts. Hier habt ihr jetzt gleich so ein großes Suchfeld, da könnt ihr dann ein Thema eingeben und dann findet ihr hoffentlich Daten, die ihr euch interessieren könnt, die dann als Tabelle anzeigen und auch runterladen. Aber damit es nicht zu einfach ist, gibt es nicht nur dieses blaue Datenportal, sondern es gibt das Ganze auch noch mal in Rot. Das hier ist die Regionaldatenbank Deutschland und das ist die gemeinsame Plattform der Statistischen EMTA in Deutschland. Und hier findet ihr eben Daten runtergebrochen auf die verschiedenen Regionen. Das heißt, wenn ihr Daten sucht über eure Stadt oder euren Landkreis und die vielleicht sogar mit anderen Regionen vergleichen wollt, dann findet ihr diese Daten hier in der Regionaldatenbank Deutschland. Jetzt ist es so, dass diese Daten leider oft nicht sehr aktuell sind und auch oft nicht so detailliert, wie man die vielleicht braucht. Und wenn ihr da eben, ich sag mal, noch genauere oder aktuellere Daten braucht, dann hilft es immer sich auch, die Portale der Statistischen Landesämter anzuschauen. Also jedes Statistische Landesamt hat auch so ein Datenportal und es funktioniert letzten Endes auch wie Regionalstatistik.de oder Genesys Online. Und der Grund, warum diese Portale alle sehr ähnlich aussehen, ist, dass die meisten dieser Portale auf der gleichen Softwarelösung basieren. Diese Softwarelösung, die heißt Genesys und das ist halt so eine Eigenentwicklung der Statistischen Ämter, die die dann benutzen, um ihre eigenen Datenportale aufzusetzen. Und in diesen Genesys Anwendungen, da könnt ihr einfach gesagt nach einem Thema suchen oder nach einer Statistik suchen, die ihr braucht. Und wenn ihr eine gefunden habt, dann klickt ihr euch durch so ein Menü und dann könnt ihr euch eben eine Tabelle anzeigen. Und in diese Tabelle, die könnt ihr dann entweder in eine einfache Grafik verarbeiten, direkt auf diesen Datportal oder ihr könnt sie exportieren in eine Ex-Tabelle oder in eine CSV-Datei. Jetzt ist es leider so, dass dieses Datenvisualisierungstool leider nur sehr rudimentär ist. Und ich habe es ehrlich gesagt noch nie geschafft, damit irgendwas sinnvoll Verwendbares zu generieren. Und dieser Datenexport für Excel und CSV, der ist auch nicht maschinenlesbar. Das heißt, es sind verschachtelte Daten, die können nur schwer mit anderen Tools weiterverarbeitet werden, ohne sie vorher händisch aufzuräumen. Erwähnenswert ist noch, dass es ein Webservice gibt, also eine Datenschnittstelle, mit der ihr direkt auf Datensätze zugreifen könnt. Die verwendete bisher SOAP, also SOAP ist quasi ein Standard für Datenschnittstellen, mit der es eher so aus dem letzten Jahrhundert und wird heute eher so im Enterprise-Segment eingesetzt. SOAP ist jetzt eher nicht so das Werkzeug, mit dem ich normalerweise jeden Tag arbeite. Aber und das ist ganz neu, es gibt jetzt auch eine REST-Schnittstelle, also eine modernere Datenschnittstelle, die euch JSON zurückgibt und es gibt die Möglichkeit, ein neues Datenformat zu exportieren, das nennen die statistischen Enter Flat CSV, und ein Flat CSV ist einfach ein normale CSV-Datei, die nicht verschachtelt ist und deswegen einfacher zu verarbeiten. Also hier sehen wir so ein Beispiel, wenn ihr jetzt auf regionalstatistik.de zum Beispiel eine Tabelle gefunden habt, dann könnt ihr euch die anzeigen lassen, es sieht dann so aus, es ist so eine verschachtelte Tabellendarstellung und da könnt ihr jetzt den Wert raussuchen oder die Zahl raussuchen, die ihr braucht oder ihr könnt euch das Ganze eben als Excel oder CSV-Datei exportieren oder ihr könnt die in so einer einfachen Grafik aufbereiten. Ganz wichtig, diese Daten sind Open Data. Sie erscheinen unter der Datenlizenz Deutschland, die erfordert eine Namensnennung, einen Verweis auf die Lizenz und einen Verweis auf den Datensatz, den ihr verwendet, also auf den Ort, von dem ihr diesen Datensatz heruntergeladen habt. Und das ist sehr ähnlich wie eine CC By Lizenz. Das ist jetzt nicht die perfekte Lizenz für Open Data, also zum Beispiel CC0 wäre irgendwie natürlich einfacher zu verwenden, aber es ist jetzt auch nicht das Schlechteste. Grundsätzlich könnt ihr diese Daten also weiter verwenden. Vor einem Jahr, da wäre jetzt an dieser Stelle des Vortrags ein großer Rant gekommen, darüber wie schlimm diese Genesis Software ist. Aber ich muss sagen, dass Genesis in den letzten Monaten wirklich deutlich verbessert wurde. Das heißt, die Plattform ist jetzt auf jeden Fall nutzerfreundlicher, aber trotzdem gibt es immer noch eine Reihe von Problemen. Das größte Problem aus meiner Sicht ist, dass es keine stabilen URLs gibt. Das heißt, es gibt eine session-basierte Navigation und wenn ihr in eine Tabelle gefunden habt, die ihr benutzen wollt und ihr kopiert in der Browser-Leiste die URL dazu, dann könnt ihr die nicht jemand anderem schicken, weil sie dann nicht mehr funktionieren wird. Deshalb werdet ihr auch die Browser vor und zurück Navigation nur eingeschränkt nutzen können und die Seite wird eben nicht von Suchmaschinen indiziert. Das heißt, wenn ihr auf DuckDuckGo oder auf Google nach einer Statistik sucht, dann werdet ihr kein Ergebnis von der Genesis-Datenbank finden. Der nächste Problem ist, dass der Datenabruf je nach Plattform und je nachdem wie viele Daten ihr herunterladen wollt, eine Anmeldung erfordert. Das heißt, ihr sucht euch eine Tabelle aus, die ihr benutzen wollt und dann könnt ihr die eben nicht direkt runterladen, sondern ihr müsst euch erst einen Login anlegen und mit diesem Login könnt ihr die Daten dann bestellen und danach in so einer Art digitalen Postfach abrufen. Hier wäre es natürlich schöner, wenn man einfach direkt auf den Datensatz zugreifen könnte. Wenn ihr die Daten weiterverarbeiten wollt, dann steht ihr vor dem Problem, dass dieser Datenexport, der ein CSV generiert, sehr speziell ist. Das heißt, die Daten sind verschachtelt. Sie verwenden ein deutsches Zahlenformat, also ein Komma als Tausender Trendzeichen, ein Komma als Dezimaltrendzeichen und sie verwenden nicht etwa Unicode oder UTF-8 als Zeichenkodierung, wie die meisten modernen Tools, sondern Windows 12.52. Und meine Vermutung ist, dass dieses ein bisschen schräge Format gewählt wurde, um maximale Kompatibilität mit Microsoft Office sicherzustellen. Das heißt, die Tabellen sind dafür gemacht, dass man sie in Excel öffnet und dann auf Dina 4 ausdruckt, nicht unbedingt dafür, sie einfach direkt in einem Datenvisualisierungstool weiterverarbeiten zu können. Und jetzt könnte man ja denken, okay, aber es gibt eine Datenschnittstelle, wo ich die Daten herunterladen kann. Und hier ist es so, dass diese Datenschnittstellen leider eine sehr hohe Lernschwelle haben. Zum Beispiel diese neue REST-RP, die kommt mit einem 200-seitigen Handbuch. Und ich denke, hier kann man schon ganz gut sehen, dass sie nicht gedacht ist für, ich sag mal so, Casual-Datennutzer, die einfach nur schnell eine Tabelle herunterladen möchten. Und das ist der Punkt, wo jetzt Datenguide zum Einsatz kommt. Was wir bei Datenguide machen, ist, wir nehmen uns die Daten aus regionalstatistik.de und laden die Daten einfach einmal alle runter. Also wir nehmen diese regionalen Statistiken und machen einen riesen Datenimport. Den machen wir jede Nacht, damit wir eine Spiegelung haben, die aktuell ist. Und die Daten, die stellen wir dann eben in unserer eigenen Datenschnittstelle in unserem eigenen Format zur Verfügung und entwickeln dann eine Web-Anwendung auf Basis dieser Daten, mit denen ihr die Daten durchsuchen und herunterladen könnt. Das sieht dann ungefähr so aus. Wir nennen das Datenguide-Datenportal und das ist, ich sag mal, ein experimentelles Tool, mit dem ihr eine Region oder mehrere Regionen auswählen könnt und dann eine Statistik für diese Region. Und dann könnt ihr noch so ein paar Einstellungen machen und zum Beispiel innerhalb der Statistik weiter einschränken, was ihr braucht. Und dann könnt ihr die Daten runterladen. Und die sind dann idealerweise schon in einem Format, was ihr genauso einfach in einem Datenvisualisierungstool oder in einem Datenanalyse-Tool weiter verwenden könnt, ohne dass ihr die Daten erstmal von Hand aufrollen musst. Und wir haben eben nicht nur dieses Datenportal, sondern wir verwenden die Daten auch, um auf der Datenguide-Website die Statistiken zu erklären. Wir haben eben festgestellt, dass die Nutzbarmachung von statistischen Daten eben nicht nur ein rein technisches Problem ist, sondern auch ein Problem mit Data Literacy. Das heißt, Menschen müssen einfach wissen, wie sie mit diesen Daten umgehen, damit sie mit diesen Daten umgehen können. Und deswegen haben wir jetzt so verschiedene Erklärstücke veröffentlicht auf der Datenguide-Website. Und diese Daten, die wir zur Verfügung stellen, die wollen wir eben nicht nur zur Verfügung stellen auf unser eigenes Tool, sondern wir haben ganz bewusste, offene API, die Tritte verwenden können, um dann ihre eigenen Anwendungen auf Basis dieser Daten zu entwickeln. Es gibt zwei Daten-Schnittstellen, also zwei verschiedene Daten-Schnittstellen, die wir zur Verfügung stellen. Die erste ist ein einfacher Tabellen-Download über HTTP. Und der ist einfach dafür gedacht, dass ihr zum Beispiel direkt im Browser einfach über die URL-Leiste in Link eingebt und dann kriegt ihr eine Tabelle zurück. Und das ist diese Tabellen-Download, den man eben auch mit dem Datenguide-Daten-Portal zusammenbauen kann. Und diese Tabellen, die könnt ihr dann entweder in verschiedenen CSV-Formaten, je nachdem, was ihr braucht, runterladen oder als JSON, um sich zum Beispiel mit JavaScript weiter zu verarbeiten. Und wenn ihr eine komplexere Anwendung plant auf Basis von statistischen Daten, dann könnt ihr diese andere Datenschnittstelle verwenden, die wir zur Verfügung stellen. Die verwendet GraphQL. Und GraphQL ist, ich sag mal einfach, ein moderner Standard für Daten-Schnittstellen, um komplexere Anwendungen zu realisieren. Beide Daten-Schnittstellen sind experimentell, in dem Sinne, dass es da durchaus noch Probleme gibt und auch Fehler, von denen wir zum Teil schon wissen und zum Teil wahrscheinlich noch nicht. Und dass die sich auch in ihrer Spezifikation noch ändern. Das heißt, es gibt keine finale Spezifikation für unsere Datenschnittstellen. Wenn ihr jetzt diesen Tabellen-Download nutzen wollt, dann funktioniert es im einfachsten Fall so, dass ihr auf die Datengite-Website geht. Dort benutzt ihr dieses Daten-Portal, um eine Region oder eine Reihe von Regionen auszuwählen, eine Statistik auszuwählen. Und dann klickt ihr eben auf Datendownload oder ihr probiert einfach die CSV-Daten in die Zwischenablage und dann fügt ihr die Daten in einem Datenvisualisierungstool eurer Wahl ein. Ich habe das zum Beispiel, also diese Grafiken, die ich eingangs gezeigt habe, die habe ich mit Data Rapper gemacht. Das ist ein einfaches Datenvisualisierungstool. Da könnt ihr quasi so eine CSV-Datei reinladen und dann könnt ihr quasi eine Karte davon erstellen oder ein Liniendiagramm. Und Full Disclosure, ich arbeite auch an Data Rapper. Aber nach dem gleichen Prinzip könnt ihr die Daten mit einem beliebigen Datenvisualisierungstool oder Analyse-Tool eurer Wahl verwenden. Das ist ein Beispiel für die Verwendung von dieser fortgeschrittenen GraphQL-Schnittstelle. Das ist ein einfaches Quiz zu amtlichen Statistiken, was bei einem Hackday entstanden ist. Und hier könnt ihr quasi euer Wissen über eure Region testen auf Basis von amtlichen Statistiken. Und ein bisschen praktischeres Beispiel für die Nutzung von dieser GraphQL-Schnittstelle ist Datengite Python. Datengite Python ist eine Python-Bibliothek, mit der ihr eben direkt aus Python heraus, zum Beispiel aus einem Jupyter Notebook, auf amtliche Statistiken zugreifen könnt, ohne dass ihr euch selber mit HTTP-Requests oder so auseinandersetzen müsst. Das ist ein Projekt, das wird von einer befreundeten Organisation betreut. Die heißt Correlate und die haben eben auf Basis der datengite daten-Schnittstelle diese Bibliothek entwickelt, um es einfacher zu machen, mit Python auf amtliche Statistiken zuzugreifen. Das war eigentlich schon alles, was ich hatte. Datengite ist jetzt an einem Punkt, wo wir uns eben überlegen, wie geht es weiter. Wir machen es jetzt seit drei Jahren und wir sind mal ursprünglich unter der Maxime gestartet, dass wir gesagt haben, wir machen datengite, um es irgendwann wieder abschalten zu können, weil idealerweise wir nur eine Demo oder ein Proof-of-Concept entwickeln und auf dieser Basis erkennen dann die Statistischen Emter, wie sie ihre Arbeit besser machen können, um, ich sag mal, normale Leute zu erreichen. Jetzt ist es so, dass Genesis Online in den letzten Jahren oder in den letzten Monaten deutlich besser geworden ist, aber trotzdem ist es noch nicht so weit, dass wir datengite jetzt irgendwie nächstes Jahr abschalten werden. Das heißt, wir überlegen uns weiterhin, was können wir tun, um amtliche Statistiken besser aufzubereiten, damit sie für alle nutzbar und auch nützlich sind. Und in dem Zusammenhang müssen wir eben auch unsere Web-Anwendungen und die Datenschutzstellen, die wir zur Verfügung stellen, noch einfacher und vor allem auch stabiler machen. Und in dem Zusammenhang ist auch relevant, dass es eben jetzt diese neuen Datenschutzstellen gibt in Genesis Online. Also ich habe ja vorhin von dieser neuen West-Schutzstelle gesprochen und ich könnte mir gut vorstellen, dass man die benutzen kann, um unsere Dateninfrastruktur bei Datengite noch einfacher zu machen. Das heißt, wir sind jetzt an einem Punkt, wo wir so ein bisschen an der Orientierung feilen, aber auch eben weiter aktiv an den Tools arbeiten, die wir schon haben. Und dazu auch nochmal die Ansage, dass es eben ein Open Source Projekt ist. Das heißt, wir sind momentan eine kleine Gruppe von Leuten, die daran arbeitet und wenn ihr euch auch, sag mal, beruflich mit amtlichen Statistiken auseinandersetzt oder Interesse habt, an so einem Projekt beizutragen, dann kontaktiert uns gerne. Und ihr findet uns oder ihr erreicht uns über Community at Datengite oder ihr findet uns auf Twitter, auf Mastodon oder eben auf GitHub. Und jetzt haben wir noch Zeit für ein paar Fragen. Vielen Dank. Kontaktiert uns sehr gerne und findet uns. Es gilt natürlich vor allem für so eine langfristige Perspektive kurzfristig. Können wir jetzt hier direkt Simon Fragen stellen. Das heißt, ihr könnt alle Fragen stellen. Wir können Fragen stellen, indem ihr zum Beispiel im IRC, okay, ich sollte das hier vielleicht noch ein bisschen nüten. Hört man das? Wahrscheinlich, ne? Profi-Version. Gut. Wo war ich? Genau. Wie kommt ihr ins IRC? Wo könnt ihr die Fragen stellen? Ihr könnt einfach, wenn ihr war auf media.ccc.de wahrscheinlich seid, da gibt es einen kleinen Button, wo Chat steht. Da könnt ihr draufklicken und dann öffnet sich direkt im Browser ein Chatfenster. Da könnt ihr reinkommen und könnt dort eure Fragen stellen. Genauso geht es aber auch auf Mastodon und auf Twitter. Das habe ich auch alles im Blick. Ihr müsst dazu dann den Hashtag RC3-Wikipacker ergänzen, das wird es dann auch rechtzeitig sehen. So, wir haben auch schon die ersten Fragen. Vielleicht als allererstes amtliche Statistiken, wenn man darüber nachdenkt, dann geht es auch immer darum, dass es um einzelne kommunale Verwaltungsgebiete geht, Posterzahlen, Kreise, was auch immer. Die verändern sich aber über die Zeit. Das heißt, es gibt sowas wie Gebietstreformen und dann ist die Frage, wie geht man denn damit um? Wo gibt es Informationen, wann sich was wie ändert? Das ist eine sehr gute Frage tatsächlich und auch ein Problem, den man in der Praxis immer wieder zu tun hat. Wir haben das bei Datengeld bisher ausgespart, uns mit dem Problem auseinanderzusetzen. Einfach, weil wir andere Probleme haben, auf die wir uns konzentrieren. Aber es gibt auf jeden Fall Verfahren, wie man das umrechnen kann, sag ich mal einfach. Normalerweise hat man einen Datensatz und die Region verschwindet. Oder es gibt, die Region geht in zwei neuen Regionen auf oder zwei Regionen werden zu einer zusammengefasst, um so zu erklären, was das Datenproblem bei einer Gebietstreform ist. Und es gibt eine Liste der Gemeinden, die wird von den statistischen Ämtern veröffentlicht jedes Jahr. Und da sieht man dann halt Änderungen. Und es gibt das BBSR. Das ist das Bundesamt für, das muss ich jetzt gerade mal nachgucken, das Bundesamt für Bauwesen und Raumordnung. Und die haben auch Infos zu dem Thema. Und ich weiß auch, dass, ich sag mal, Datenjournalisten, Kollegen von mir dann auch schon direkt beim BBSR angefragt haben, wenn es darum ging, konkret jetzt ein Problem aufzulösen oder quasi eine geänderten, eine Änderung, die stattgefunden hat, irgendwie auf die Daten zu übertragen. Das heißt, da gibt es durchaus Verfahren, aber man muss sich damit ein bisschen auseinandersetzen und es ist nichts mit dem, dass wir jetzt einfach automatisiert durch Datenweite lösen können. Also, ich glaube, das Stichwort wäre Liste der Gemeinden bei D-Statis und im Zweifelsfall das BBSR kontaktieren bzw. schauen, ob die Infos auf ihrer Website parat halten. Ich höre dich leider nicht, Julia. Vielen Dank dafür. Die nächste Frage wäre, muss man sich denn identifizieren, um Daten zu bekommen oder kann man sie anonym bekommen? Also, man kann die Daten anonym bekommen bei sowohl bei uns als auch bei den statistischen Ämtern, wenn man einfach nur Daten runterladen will. Also, ich habe ja im Talk erwähnt, dass man teilweise für diese Genesys-Datenbanken Login braucht und da kann man sich meinem Verständnis nach einfach anmelden. Ich habe das jetzt schon eine Weile nicht mehr gemacht, aber man kann sich, glaube ich, einfach anmelden, ohne dass man Daten angeben muss, soweit ich das in der Erinnerung habe, nur eine E-Mail-Adresse und dann bekommt man einen generierten Nutzernamen. Ich glaube, anders ist es, wenn man Daten wirklich anfragen will von den statistischen Ämtern. Genauso wie wenn man bei anderen öffentlichen Stellen eine Anfrage macht, da gibt es bestimmte Verfahren auch bei den statistischen Ämtern und ich gehe mal davon aus, dass man sich dann in irgendeiner Form identifizieren muss und sei es nur aus sozialen Gründen, was man halt mit Menschen dort zu tun hat. Aber grundsätzlich, wenn es darum geht, Daten abzufragen aus regionalstatistik.de oder über Daten-Guide, das ist Open Data, das einfach im Web zur Verfügung steht. Einfach gesagt. Okay, dann ist natürlich die Frage, du hast gesagt, dass das ultimative Ziel ist, dem Service irgendwann abzuschalten. Wenn die Statistikämter selbst mal auf einem gewissen Stand angekommen sind, wie realistisch ist das denn? Ja, ich glaube, das kommt dann darauf an, wie man diesen gewissen Stand definiert. Also ich glaube, es hat auf jeden Fall so das Mindset ändert sich bei den statistischen Ämtern und die haben festgestellt, dass der Bereich Datenjournalismus und auch vielleicht andere zivilgesellschaftliche Initiativen durchaus wichtige Multiplikatoren für ihre Veröffentlichungen sind und dass es auch in ihrem Interesse ist, ich sage mal, in der Öffentlichkeit gut darzustellen und dementsprechend hat da ein Mindset, also eine Änderung des Mindset stattgefunden. Ich glaube, also die Software, die verändert sich nur sehr langsam und deswegen würde ich sagen, ist es unwahrscheinlich, dass wir irgendwann im nächsten oder übernächsten Jahr die Arbeit, die wir bei Datenguide machen, einstellen. Aber es ist nicht völlig unrealistisch. Dazu auch direkt die Frage, wie ist denn das mit den Daten der statistischen Landesämter? Weil nämlich hier jemand versucht hat, anzufragen, wie es z.B. in Baden-Württemberg ist, wo erst mal niemand wusste, was auf dem Data ist und jetzt möchte diese Person wissen, wie ist denn das eigentlich mit der föderalen Struktur und bekommt man die Daten der statistischen Landesämter? Also auf Regionalsstatistik.de sind ja grundsätzlich mal die Daten der statistischen Landesämter gesammelt. Also Regionalsstatistik.de ist so der kleinste gemeinsame Nenner, wo die statistischen ähnliche Daten zusammentragen. Und dann gibt es eben zusätzlich noch Daten, die halt auf regionaler Ebene, also nur auf Ebene der Bundesländer zur Verfügung stehen. Also spezielle Datensätze, sag ich mal, die z.B. dann nur für Brandenburg oder nur für Baden-Württemberg oder so zur Verfügung stehen, oder die vielleicht nicht vergleichbar sind zwischen verschiedenen Ländern. Und es gibt eigentlich immer irgendwie irgendeine Form von Datenportal. Also jetzt tatsächlich bin ich nicht so firm, was jetzt Baden-Württemberg angeht, weil ich damit persönlich noch nie was zu tun hatte. Aber ich würde eigentlich erwarten, dass es auch ein Datenportal des Statistischen Landesamts Baden-Württemberg gibt. Es ist nicht notwendigerweise auch eine Genesis-Instanz. Also es gibt auch Datenplattformen, die eben nicht auf Genesis basieren, aber es gibt normalerweise irgendeine Form von zentraler Veröffentlichung Ich meine, Baden-Württemberg ist ein bisschen verrückt. Ich hatte mal versucht, da drauf zu klicken und dann kommt man wieder auf die gleiche Seite, ohne irgendwie tiefer zu kommen. Also wer da mehr weiß, gerne mehr. Ja, ich kann mir das auch noch mal genauer angucken und vielleicht werde ich aus der Team pausen. Helfen, da helfen nämlich schon sehr viele Menschen sich auch untereinander mit den verschiedensten Links. Vielleicht noch mal so zur Weiterentwicklung und wie geht es weiter bei euch. Planet ihr denn auf, wie so Allisierungs-Tools direkt auf eurer Webseite zu integrieren? Ja. Also das ist ein schwieriges Thema tatsächlich. Also wir haben das vor. Wir haben, also wenn jemand schon, ich sag mal, frühere Version dieses Vortrags gesehen hat, weil es war ja so ein bisschen Best-of-Zusammenfassung aus den letzten drei Jahren, wenn ihr eine frühere Version dieses Talks gesehen habt oder irgendwann in der Vergangenheit mal auf der Datenguide-Website, dann gab es da durchaus auch so einfache Visualisierung. Wir haben festgestellt, dass es sehr schwierig halt so generisch zu bauen, dass sie immer funktionieren, weil die Daten, also die Datensätze sind sehr unterschiedlich. Es gibt so einen Plan, so eine, ich sage mal wieder, auch eine kleinste gemeinsame Nenner-Visualisierung zu haben für jeden Datensatz. So ähnlich, wie die statistischen Ämter das machen auf rechonaststatistik.de oder auf genisysonline. Aber nur halt ein bisschen moderner und besser zu benutzen. Aber bisher gibt es nicht, wenn jemand Interesse hat, an so was zu arbeiten, mit mir zusammen oder mit jemand bei uns zusammen, dann bin ich gerne bereit, nicht darüber zu unterhalten, wie man das konkret im Detail macht, weil es ist halt ein Open-Source-Projekt. Es ist definitiv nichts an dem jemand, der jetzt gerade aktuell arbeitet, aber es steht auf unserer Liste. Thema Open-Source-Projekt, dazu noch ein kleiner Einwurf. Wie ist denn das mit Genisys? Die Vermutung ist, dass es wahrscheinlich proprietär ist. Wie ist die Bestrebung, wenn das proprietär ist, ob man das vielleicht auch Open-Source stellen möchte? Es ist mir nicht, also nicht, dass ich wüsste. Ich bin mir auch nicht sicher, ob Genisys halt ein riesen Monster, mein Verständnis nach, ich hab noch nie Code gesehen, aber das ist mein Verständnis nach halt eine Java- Anwendung, die es dann Ende der 90er ins Web geschafft hat. Und das ist auch der Grund dafür, warum es eben diese ganze session-pazierte und so war das, glaube ich, ursprünglich. Das ist nicht aus einer der heutigen Web- Anwendungs-Entwicklungsperspektive gestartet worden, dieses Projekt. Aber ich kann keine geheimen Background-Infos zur Entwicklung von Genisys Online geben. Aber ich kann mir ehrlich gesagt nicht vorstellen, dass es als Open-Source irgendwann in der Öffentlichkeit landet. Genisys Online ist eine eigene Entwicklung und das wird von IT NRW entwickelt. IT NRW ist so eine Kombination aus regionalem IT-Dienstleister für das Land Nordrhein-Westfalen und eben dem Statistischen Landesamt Nordrhein-Westfalen. Das ist beides quasi unter diesem Dach und die Betreibenregionaststatistik.de und die Software-Hintergenisys Online wird zum Teil auch in Wiesbaden, also beim Statistischen Bundesamt entwickelt. Also es gibt Leute die im öffentlichen Dienst sind und an dieser Software arbeiten. Okay, sehr gut. Jetzt habe ich noch sehr viele Fragen von Dateninteressierten, die vielleicht ein bisschen über das, was ihr jetzt als Datenguide anbietet, hinausgehen. Trotzdem, hast du eine Empfehlung für eine Datenquelle für internationale Daten? Ja, das ist eine gute Frage. Es kommt jetzt auf an worum es geht. Genauso wie die Statistischen Landesämter in Deutschland alle zusammenarbeiten und da eine gemeinsame Datenveröffentlichung machen, gibt es auf europäischer Ebene auch gemeinsame Datenveröffentlichungen. Es gibt ein europäisches Open Data Portal zum Beispiel. Also quasi wo die EU-Mitgliedsländer Daten hinliefern. Es gibt auch ein zweites Open Data Portal, wo es alle möglichen Arten von Open Data von der EU gibt. Und es gibt auch eine gemeinsame Plattform von Eurostat. Also Eurostat ist quasi so was wie die gemeinsame Arbeitsgemeinschaft der Statistischen Enter in den einzelnen Mitgliedsländern der EU. Das heißt, es geht immer so nach oben. Auf europäischer auf internationaler Ebene. Also die Weltbank hat statistische Informationen quasi über alle Länder. Da findet man Dinge und es gibt halt so verschiedene, ich sag mal unabhängige Plattformen. Zum Beispiel Our World in Data ist sehr gut. Ich muss gerade mal kurz nachgucken, ob ich das richtig sage. Genau, das ist OurWorldInData.org und die sammeln quasi Daten zu allen möglichen Themen, die halt weltweit zur Verfügung stehen. Das ist von der University, also von der Oxford University und da findet man sehr viele Datensätze, wenn man jetzt so internationaler Vergleiche machen möchte oder ja, also Daten zu verschiedenen Themen braucht, die wirklich für verschiedene Länder irgendwie vergleichbar zur Verfügung stehen. Das ist auch ein guter Startpunkt. Okay, genau so eine ähnliche Frage wäre, was ist eigentlich mit teileffentlichen Daten, zum Beispiel von der Deutschen Bahn? Findet man die bei euch auch oder weißt du, wo man die vielleicht finden könnte? Zum Beispiel wie viele Güterzüge fahren nach Hamburg? Ja, da bin ich jetzt tatsächlich überfragt. Also ich weiß, also die Bahn, es gibt ja eine Open Data Initiative innerhalb der Bahn. Könnt mir vorstellen, dass es da vielleicht Veröffentlichungen zu diesem Thema gibt. Aber sicher bin ich mir da nicht. Ich hab mich mit dem Thema noch nicht befasst. Ich würde jetzt nicht völlig ausschließen, dass es von den statistischen Bundesämtern so im Kontext Verkehr irgendwie Daten zu diesem Thema gibt. Aber ich hatte bisher nie was damit zu tun, müsste ich jetzt auch mal auf den Seiten der statistischen Ämter nachgucken. Ansonsten eben, es gibt ja, heißt es Open Data Bahn. Ich weiß auch nicht, gerade aus dem Kopf, genau wie es heißt, aber die Bahn hat selber auch offen daran. Also das ist nicht bei euch jetzt direkt mit dabei. Okay, eine andere, sehr konkrete Frage zu Daten wäre, gibt es zum Beispiel so was wie die Energieverbrauchsdaten der Bundesländer für einzelne Gemeinden oder Bundes-Ebene, findet man so was bei euch? Das ist auch eine sehr spezielle Frage. Genau, das ist richtig, vielleicht weißt du es. Kannst du ja vielleicht erklären, wie man daran kommt? Also man könnte jetzt auf auf regionalstatistik.de zum Beispiel nach dem Thema Energie suchen oder Stromversorgung und dann schauen, ob es da Ergebnisse gibt auf Datenguide. Auch quasi, wir haben dieses Datenguide Datenportal. Wenn ihr auf Datenportal klickt auf der auf der Datenguide Website und dann gibt es ja so ein Interface, wo ihr einen Suchbegriff eingeben könnt unter Statistik und da mal mit dem Suchbegriff Strom oder Energie. Ansonsten wäre ich mir relativ sicher, dass es ja so europäische Energieagenturen und solche Dinge, dass es irgendwie Stellen gibt, die Daten dazu veröffentlichen müsste ich aber auch recherchieren. Okay, dann vielen Dank für deine Antworten zu den sehr spezifischen Fragen. Ich habe außerdem noch eine sehr spezifische Frage, die uns über Twitter erreicht hat und zwar es geht um die Verwendung der Daten der USGS die aktuell nur noch als PDF vor Dingen. Ich weiß leider selbst nicht, was die USGS ist, weil du das, ich habe auch nochmal nachgefragt, bis du ja noch keine Antwort bekommen. Also, das sind Geodaten aus den USA, glaube ich, aber ich kann dazu nichts sagen. Ich weiß, dass in den USA ja auch diese gab es in den letzten 4 Jahren so eine umgekehrte Entwicklung wo verschiedene Daten, die quasi in der Public Domain als Open Data zur Verfügung standen nicht mehr als Open Data zur Verfügung stehen, weil es einfach so ist, dass die Obama-Regierung hat sehr viel geöffnet im Sinne von Open Data und die Trump-Regierung hat dann einfach sehr viel wieder zugemacht und teilweise auch Organisationen oder Organisationsformen dies gab und die gemeinsam Daten veröffentlicht haben in der Form aufgelöst aber jetzt zu dieser konkreten Frage kann ich nichts sagen. Das sind ja auch alles sehr spezifische Fragen, die auch schon eigentlich über euer Angebot so ein bisschen hinausgehen, wo man dann merkt, ok, hier sitzen die Daten, hört es dir auch bis ins Leste alles ausschöpfen wollen. Es ist natürlich so ein bisschen die Frage was ist denn vielleicht, wenn ich noch nicht so viel Erfahrung habe, mich aber ganz gerne mal mit den Daten bei euch beschäftigen möchte. Wie kann ich denn mitmachen? Wie kann ich einsteigen? Wie kann ich anfangen? Also der, ich denke mal, wenn ich jetzt mit dem Thema anfangen würde, würde ich mir glaube ich also normalerweise hat man ja ein Thema mit dem man sich auseinandersetzen will, also ein inhaltliches Thema, zu dem man Daten sucht. Dann würde ich mal gucken, was es, was gibt bei den statistischen Ämtern, was gibt es auf Daten-Guide zu dem Thema und dann würde ich mal ein bisschen anfangen, mit diesen Daten zu arbeiten mit einem, also mal die Daten, sich mal genauer angucken, Daten runterladen und dann mit einem Tool in der Wahl, diese Daten mal zu visualisieren oder zu gucken, was man da rausziehen kann. Es kann so einfach wie Excel sein oder mit Python oder R oder auch mit einfachen Datenvisualisierungstools wie Data Rapper oder Flourish Studio, das sind beide Tools, die kann man umsonst im Bett benutzen und da mal die Daten hochladen und dann gucken, was man daraus machen kann einfach einmal so ein Gefühl dafür zu kriegen und wenn ihr ganz konkret an Daten-Guide mitarbeiten wollt, dann ist Daten-Guide natürlich in erster Linie mal ein Software-Projekt, das heißt wir haben wir hätten Tickets an denen man arbeiten könnte das einfach zu dem Moment ist, wenn man uns direkt kontaktiert über die Kanäle, die ich vorhin angezeigt habe oder einfach über Daten-Guide auf Twitter zum Beispiel, mal Kontakt mit uns aufnimmt und dann können wir darüber reden. Wir haben sehr viele Tickets, also ein sehr langes Clock, es ist glaube ich nicht, es ist unterschiedlich schwierig da einzusteigen aber zusammen würden wir glaube ich auch einfache Ticket um einzusteigen finden und die andere Sache ist eben dass wir auch ein Interesse daran haben mehr ich sag mal Arbeit rund um Data Literacy zu machen, das heißt auch wenn ihr nicht also jetzt nicht aus dem Bereich Software-Entwicklung kommt euch halt für Daten interessiert oder ich sag mal als Nutzer von Daten irgendwie Erfahrung habt, dann gäbe es auch die Möglichkeit zum Beispiel Workshops zu machen, zum Thema Daten-Guide und amtlicher Statistik, da haben wir auch schon so ein paar Materialien aber da könnte man eben weitere Dinge aufschreiben oder einfach Workshops halten und da ist auch glaube ich die einfachste Möglichkeit mal mit uns Kontakt aufzunehmen über die genannten Kanäle Okay, dann sehe ich jetzt erstmal keine weiteren Fragen mehr hast du noch irgendwas, was du ergänzen möchtest, was du jetzt vielleicht dir noch aufgefallen ist so weit nicht mehr Also ich würde mich gerne bedanken, ja also danke an das Wikipacker Team dass sie das alles auf die Beine gestellt haben und ich freue mich wenn ihr uns kontaktiert im Nachgang von diesem Talk Genau, das wird es jetzt auch noch geben wir haben noch ein kleines Q&A das wird in einem Big Blue Button Raum Ich finde den Link dafür, den findet ihr auch dann gleich im IRC also wieder aus media.cc.de wo ihr wahrscheinlich seid, wenn ihr diesen Stream schaut, auf Chat klicken und dann kommt ihr direkt in den richtigen Channel rein und dort gibt es dann den Link zum Q&A Big Blue Button Raum da wird dann sie mal noch ein paar Fragen beantworten, ich bedanke mich ganz herzlich für die Antworten auf diese ganzen Fragen, für die Vorstellung eures Projekts und nicht zulässt dafür, wie das überhaupt macht. Danke und großen virtuellen Applaus und damit beenden wir jetzt diesen wunderbaren Talk zu Daten-Guide. Dankeschön Danke