 Ist schon ganz schön lang unterwegs. Beim 33 C3, da fuhr er mit Xerox ab. Beim 33 C3 hat er dann Spiegel einmal gedater meint und hat geguckt, was ist denn dort Spiegel online und hat uns wirklich eine total perfekte Datenanalyse zu dem Thema gemacht. Und beim 36 C3 geht's mit dieser Zugfahrt weiter. Bitte begrüßen mit einem riesen Applaus, David Kriesel. Applaus, Applaus, Applaus! Also ich glaube, so geil bin ich noch niemals eingeleitet worden. Ja, herzlich willkommen, euch allen hier auch, herzlich willkommen an die Leute im Stream und an die Allohüte im Besonderen. Die Allohüte glühen aber leider noch nicht, vielleicht kriegen wir das im Verlaufer dieses Vortrages doch hin. Mein Name ist David Kriesel, ich bin Informatiker aus der Nähe von Bonn. Und im richtigen Leben ist es mein Beruf, interessante Sachen in größeren Datenmengen zu finden. Und Neudeutsch heißt das Data Scientist. Und zujetzig zum Beruf habe ich verschiedene Hobbyprojekte und manchmal nehme ich mir eins davon raus und halte darüber hier in Vortrag. Ich bin Rheinländer und bei uns sagt man ab zweimal ist es Tradition und beim dritten mal ist es Brauchtum. Ich bin jetzt das dritte mal hier, das ist also schon voll Brauchtum und ich freue mich, dass es so oft geklappt hat. Unsere Geschichte heute beginnt im Jahr 2018. Am Ende des Jahres 2018 hat nämlich die Bahn gesagt, rund 75% ihrer Fernzüge seien pünktlich gewesen. Und dafür muss man erst mal wissen, was ist denn pünktlich, ja? Die Bahn errechnet das folgendermaßen, die sagen, wenn ein Zug bei einem Stopp weniger als sechs Minuten zu spät ankommt, dann ist der pünktlich. Das ist wirklich die Definition und wir übernehmen das einfach, dann müssen wir da nicht handeln irgendwie. Und dann errechnen sie den Prozentsatz aller Stops, bei denen das der Fall ist und das wären bei knapp 75% in 2018 so der Fall gewesen. Das hat mich in meiner persönlichen Erfahrung irgendwie gestört. In den letzten Jahren bin ich quer durch Deutschland gereist, davon relativ häufig mit der Bahn. Und dann habe ich meine Mailbox geguckt und für mehr als die Hälfte meiner Fahrten habe ich diese E-Mail von verspätungsalarm.atbahn.de. Und da dachte ich, ich bin wohl dieser eine Typ, der aufpassen muss, nicht vom Blitz getroffen zu werden, während er den Sechser im Lotto abholt. Und ich wollte das dann genauer wissen, also habe ich mal in die Statistiken geguckt, die auf der Webseite der Bahn sind, dann habe ich gesehen, da sind kaum welche. Die Bahn bietet auf ihrer Webseite nur die Prozent der pünktlichen Stops pro Monat an fürs Gesamtnetz bundesweit getrennt in Nah- und Fernverkehr. Und das ist zusammengefasst, damit kann man nichts anfangen. Man kann dann nicht nach bestimmten Verbindungen filtern. Man kann auch nicht gucken, bei welchen Bahnhöfen die Performance besonders schlecht ist oder gut ist und alles, was interessant ist oder was ich interessant fand, das geht nicht. Also habe ich am 8. Januar begonnen, die Deutsche Bahn zu Vorratsdaten speichern. Und in diesem Datensatz gucken wir heute rein. Und wir werden das auch nicht nur aus, sondern ich werde auch ein bisschen Zeit darauf verwenden, euch grob zu erklären, wie man so ein Datenprojekt angeht und worauf man achten muss und wie man vor allem merkt, ob man Vertrauen in die Daten haben kann. Das muss ja nicht sein, das alles stimmt, was man so runterlädt. Und über den ganzen Vortrag hinweg gebe ich euch immer so ein paar, wie nenne ich das, Praxistips, die ihr mit nach Hause nehmen und an die ihr denken könnt, wenn ihr eine Bahnfahrt bucht. Und das Claimer vorweg, ich habe mit der Bahn nicht über die Auswertungen gesprochen, behaltet im Hinterkopf. Am Ende ist das ein kleines Hobbyprojekt und es kann durchaus sein, dass ich Fehler gemacht habe. Aber da wir auch noch über die Vertrauenswürdigkeit der Daten reden, könnt ihr selbst entscheiden, ob ihr meinen Daten vertraut oder nicht. Und wir gucken uns jetzt endlich mal an, wie die Daten aussehen. Hier sehen wir eine fiktive Fahrt eines ICE. Ich gebe euch mal kurz fünf Sekunden für den ersten Überblick und danach erkläre ich die drei Sekunden Reichen auch. Der ICE fährt in München los und jede weitere Zeile ist ein Stopp. Und irgendwann ist der im Ziel angekommen, hier bergen auf Rügen. Und eine Fahrt ist also die Sequenz aller Stops, die der Zug von Anfang bis Ende macht. Danach ist das eine neue Fahrt. Hier sind die Verspätungen pro Stopp. Der Zug ist mit sechs Minuten Verspätung abgefahren und nach der Messmethode der Bahn wäre der so gerade als verspätet zu werden, werten an diesem Stopp. Und dann schwanken die Verspätungen in Erfurt, sind wir auch mal sechs Minuten zu früh dran gewesen. Die Verspätung ist negativ, das passiert. In der Regel heißt das, dass der Zug denn einfach länger bleibt und nicht auch zu früh wieder abfährt. Und am Berliner Flughafen, der Stopp fällt aus. In 20 Jahren werde ich diese Witze immer noch machen können. Und diese Stopps aller Fahrten sind die Grundlage unserer Daten. Meine Tabelle hat 25 Millionen Zeilen, das sind 25 Millionen Stopps von irgendwelchen Zügen. Das sind alle Stopps im Fernverkehr von 8. Januar bis jetzt und auch der Nahverkehr, aber der nur an den Fernbahnhöfen komme ich gleich noch zu. Und die Tabelle hat auch verschiedenste Spalten, die ich hier vorführe und noch einige mehr. Und wir können in einzelne Orte reingucken, einzelne Fahrten reingucken, in Zeiträume reingucken, wir können auch kompliziertere Auswertungen fahren, machen wir auch heute noch. Und zum Anfang machen wir mal ein paar ganz einfache Sachen mit den Daten. Das ist nicht mit euch zu langweilen, aber wir müssen ja erstmal reinkommen, den Datensatz kennenlernen und so weiter. Und wir sortieren jetzt die ganze Tabelle von Stopps, 25 Millionen Stück mal nach Bahnhöfen und dann ermitteln wir die Anzahl der Stopps für jeden Bahnhof über das ganze Jahr hinweg. Und jeder Bubble hier ist so ein Bahnhof mit Fernverkehr und davon haben wir um die 350 Stück. Das sind die wichtigen. Und die Größe der Bubble gibt die Anzahl der erfassten Halter für den Bahnhof wieder. Und zwar für alles, was da fährt, Fern- und Nahverkehr. Und der größte, was das angeht, ist Köln Hauptbahnhof mit im Moment 380.000 Stopps in der Datenbank. Ich habe die Top 6 mal in der Karte beschriftet. Warum genau die Top 6? Weil der 6. Bahnhof genau Hamburg-Dammtor ist. Und das wollte ich euch nicht vorenthalten. Das war unser letzter Kongressbahnhof. Der Bahnhof Leipzig-Messe ist übrigens deutlich kleiner, inklusive Nahverkehr. Haben wir hier so 60.000 Stopps im Jahr und überhaupt nur ein paar 100 Fernverkehr. Und wo wir schon dabei sind, machen wir jetzt was aus Kundensicht Interessantes. Und färben mal die Bahnhöfe ein. Und zwar nach der Pünktlichkeit, nach dem Prozentzatz der Pünktlichkeit der dortigen Stopps im Fernverkehr. Das ist die Pünktlichkeit. Knallrot ist 60 Prozent. Knallblau ist 90 Prozent. Und dazwischen fahrblos, das ist ungefähr der Durchschnitt, bei 75. Als erstes sieht man in Ostdeutschland, ist quasi alles blau. Ich bin sicher, das sind diese blühenden Landschaften. Von den Altkanzler Kohl immer Sprach. In Nordrhein-Westfalen ist so ziemlich alles rot. Köln hat nur so 66 Prozent Pünktlichkeit. Bonn ist wirklich eines der Schlusslichter mit 59 Prozent. Das sind die beiden Bahnhöfe, über die ich oft fahre. Generell, der ganze dicht besielte Raum in Nordrhein-Westfalen ist ziemlich schlimm dran. Und ich habe euch ja gesagt, dass ich das ganze Projekt überhaupt erst gestartet habe. Weil ich dachte, die Statistik der Bahn wäre falsch, weil meine Züge so häufig unpünktlich sind. Die simple Wahrheit ist, ich wohne nur schlecht. Hamburg oben ist auch schlimm, das finde ich auch gerecht. Warum soll ich der Einzige sein? Irgendwo bei 60 Prozent, je nachdem, welchen Bahnhof man erwischt. Das sieht da jetzt röter aus, als es ist, weil die Dinger transparent sind. Und was die Pünktlichkeit angeht, haben wir uns mit Leipzig-Messe definitiv verbessert. Wir sind hier so bei 80 Prozent oder etwas mehr. Ganz wichtig, ich zeichere jetzt überall, wo es nicht anders dran steht, nur noch den Fernverkehr an. Überhaupt wird der ganze Vortrag primär über den Fernverkehr gehen, weil das wird meistens berichtet in den Medien und auch gemäckert. Und der Fernverkehr ist das, worüber alle reden. Aber wenn ich sage, dass ich hier primär über den Fernverkehr heute rede, da muss ich auch fair sein. Und das Folgende sagen, der Nahverkehr, den wir jetzt auslassen, erreicht fast flächendeckend Pünktlichkeitswerte von besser als 90 Prozent. Behalte das bitte über den Rest des Vortrags im Hinterkopf. Die Bahn hat auch gute Seiten und bringt gerade im Nahverkehr eine ziemliche Menge Leute jeden Tag zu ihrem Job. Da geht sicher auch mal was schief, aber deutlich weniger als im Fernverkehr. Ich hoffe, die Leute von der Bahn hören zu und hören das jetzt gerade. Wir ändern jetzt noch mal die Ansicht. Die Pünktlichkeiten pro Bahnhof waren ja interessant für den Kunden. Aber wenn man ein bisschen analytisch was machen will und bei der Bahn arbeitet, dann ist da das Interessante, welche Bahnhöfe richtig viel Verspätung generieren, also dem Netz hinzufügen. Und das ist die Ansicht. Ganz schlimm sind große Bahnhöfe mit vielen Stops, die gleichzeitig jedem Zug, der da anhält, noch so ein bisschen Verspätung mit auf den Weg geben. Die fünf Schlimmsten sind Hamburg, Köln, Frankfurt Flughafen, Mannheim. Die sind alle mit mehr als 50.000 hinzugefüchten Verspätungsminuten in einem Messzeitraum. Und der Spitzenreiter ist Frankfurt Hauptbahnhof mit 93.000 generierten Verspätungsminuten. Ich höre, wir haben eine Frankfurt-Fraktion. Wie seid ihr hergekommen? Die sind heute erst angekommen. Ich hoffe, ihr habt euch nicht gehetzt. Zweiter Tag abends. Gibt aber auch Bahnhöfe, die funktionieren so gut, dass sie insgesamt Verspätung aus dem Netz rausnehmen. Drei sind Bremen, Berlin Hauptbahnhof und Berlin Spandau. Das hat mich sehr kalt erwischt, dass mir völlig unverhofft ein Nachweis dieser Größenordnung gelungen ist. Es gibt tatsächlich etwas an Berlin, das funktioniert. Wir machen weiter. Hier seht ihr im Vergleich, sonst atet das aus. Hier seht ihr im Vergleich, wie viel Fahrten es im Nahverkehr, Fernverkehr und von Drittanbietern gibt. Wie ihr seht, ist das weitaus meiste der Nahverkehr hier orange. Es sind mehr als fünf Millionen Fahrten im Datensatz. Dagegen gibt es nur circa eine Viertelmillion Fahrten im Fernverkehr. Der ist hier blau. Und es gibt noch ziemlich viele Fahrten von Drittanbietern. Wir dröseln das jetzt mal in einzelne Zugarten auf, damit wir sehen, was es so gibt, bevor wir richtig einsteigen. Wir sehen jetzt, dass sich der Nahverkehr aufspaltet und das ist ein Bubble. Regionalbahn, Regionalexpress S-Bahn und der Fernverkehr in ICE Intercity. Das ist EC und EuroCity EC. Die Abkürzung verwende ich auch im Folgenden. Und diese vergleichsweise kleinen Blauen Punkte, das sind die eigentlich interessanten Zugarten für heute. Das sind nämlich die Züge, die quer durch Deutschland fahren. Da kann man richtig was sehen. Und jetzt gehen wir einen Schritt weiter. Wir nehmen diese für uns relevanten Zugarten her. Das ist die Intercity, EuroCity. Und dann schauen wir einfach mal, welche Zugart generell am spätesten dran ist. Damit man gleich weiß, wo man ausweichen muss. Ich wiederhole nochmals, wie die Bahn das Missprozentzahl der Stops, die maximal sechs Minuten zu spät sind, sind pünktlich. Im Fernverkehr am pünktlichsten sind die Intercity mit gut 76%. Dicht danach folgen die ICE und deutlich dahinter die EuroCity. Da sind nicht mal 70% nach der Bahndefinition pünktlich. Da muss ich sagen, das kann ich in der Tat aus persönlicher Erfahrung bestätigen. Nach meinem Eindruck ist die Qualität von den Teilen einfach schlechter in jeder Hinsicht. Also die Züge sehen, auch wenn ich damit fahre, immer relativ alt aus. Aber man muss auch fair sein. Die fahren internationaler als der Rest der Züge. Und wenn die direkt von außen verspätung mitbringen, kann die Bahn da nichts fürhören, solche Fälle gibt es. Und es fehlt noch eine Größe, die wir messen können und die wir messen werden. Und über die schweigt sich die Bahn auf ihren Webseiten aus. Und wenn man sich so konsequent ausschweigt, hat das natürlich zur Folge, dass man sich für eine Analyse bewirbt. Und das ist der Prozentsatz der Ausfälle. Und hier ist er. Und das war für mich überraschend. ICE sind ja das Flaggschiff der Bahn und anscheinend fallen die mit weitem Abstand am häufigsten aus. EuroCity gut 2%, Intercity gut 3% und ICE über 5%. Also, wenn ihr einen ICE bucht, dann taucht er in einem von 20 Mal einfach nicht auf. Und das fand ich ganz schön stramm. Mich hat das überrascht. Mein Praxistipp an euch lautet also, Vorsicht mit den ICEs. Ich weise fairerweise nochmals darauf hin, dass das eine Auswertung von außen ist. Es besteht die Möglichkeit, dass das nicht stimmt oder da ewig viele extra Fahrten dann für die Ausfälle gefahren werden, die gar nicht im Plan standen. Aber alle diese Stopps standen in deren Daten explizit als ausgefallen drin. Die Daten sehen insgesamt realistisch aus und im Spiegel hatten sie auch neulich eine Auswertung, wo sie auf ähnliche Werte kamen. Also schlage ich vor, wir betrachten das mal als gegeben, bis die Bahn widerspricht. Übrigens, einer der fettesten, nicht ausgefallenen Verspätungen in meinem Datensatz war der ICE 576 von Stuttgart nach Hamburg und zwar am 17. Oktober 2019. Der hatte 456 Minuten Verspätung. Das sind mehr als 7,5 Stunden. Und der war nicht ausgefallen. Um unseren Überblick zu vollenden, gucken wir uns jetzt das Ganze nochmal über die Zeit an. Hier sehen wir die Fahrten über die Zeit, die ich für den Fernverkehr in der Datenbank habe. Die können wir uns mal angucken, wie das funktioniert. Wir sehen, dass wir so um die 800 Fahrten am Tag haben im Fernverkehr. Wir sind immer Samstag, die Hohenzacken immer Freitage. Das ist der Berufsverkehr. Hier sind Ostern und Pfingsten. Weihnachten habe ich nicht mehr hingekriegt. Und was sieht man noch? Man sieht zum Beispiel, dass ich zwischendurch Mist gebaut habe und ein paar Tage Daten verloren habe, wer meinen letzten Vortrag hier gesehen hat, den wird das bekannt vorkommen. Ich mache das jeden Vortrag. Aber ich war besser. Diesmal war ich so klug. Und dann habe ich mir ein vernünftiges Download-Monitoring gesagt, ich wäre cool. Und dann habe ich es irgendwie geschafft, den Debian-Server, auf dem das Ganze läuft, komplett zu creschen. Der hat gar nicht mehr geantwortet. Ich musste die Kiste hart buten. Und ich war da gerade in Urlaub und habe das nicht gemerkt. Diesmal technischer Tipp für euch. Baut nicht nur ein Download-Monitoring, sondern lasst das auch noch auf dem anderen Server laufen als den Download selbst. Und weil wir heute ja auf Bahnbewerbung hin, die Ausfälle besonders genau machen wollen, hier sind die Ausfälle über die Zeit. Das sind die Prozent der Stops pro Tag, die einfach ausgefallen sind. Und man sieht sofort zwei fette Spikes. Hier ist der Orkan Eberhardt. Dieser Orkan ist am 10. März über uns hereingebrochen und am Nachmittag, weil der der Meinung ist, es würde jetzt mal reichen mit Bahnverkehr. Und den gucken wir uns auch noch genauer an. Und hier ist der heiße Tag des Jahres mit der Hitzewelle dieses Jahr. Und generell sieht man hier, wenn ihr mal so wissen genauer guckt, dass es im Hochsommer eine stark erhöhte Ausfallrate gibt. Wie kommt das? Klimaanlage höre ich da. Die Ausfälle nach Zeit zerlegen wir jetzt nochmal in die relevanten Zugarten, bevor der alles vorweg nimmt. Und das machen wir jetzt nicht mehr auf der Basis von Tagen, sondern von Wochen. Das ist einfach etwas glattern. Es gibt die ICEs. Und da sieht man erst mal, was für ein fettes Problem die mit den ICEs im Sommer haben. Ihr seht wie die Aushölle der ICEs im Sommer im Vergleich zu den anderen Zugarten richtig stark nach oben ausbrechen. Das sind so um die 8% Ausfallquote. Fast an jedem 12. Stop taucht so ein ICE in der warmen Zeit dann einfach nicht auf. Und in der Woche vom 22. Juli, in der ganzen Woche sind mehr als 10% aller ICE-Stops ausgefallen. Also ich weiß nicht, wie euch das geht, aber das geht bei mir über die Fehler-Toleranz. Also wenn das jeden Sommer so ist, hier mein nächster Praxistipp für euch. Vorsicht mit ICEs im Sommer. Und jetzt, wo es kälter wird, fängt das auch wieder so an. Aber wenn man das so anguckt, wir müssen noch ein bisschen abwarten. Es ist noch nicht raus, ob das wirklich so wird. Aber in den letzten Monaten wissen wir mehr, wenn es richtig kalt war. Wir machen jetzt noch zwei kleine Sachen. Und danach reden wir mal darüber, wie man so ein Projekt überhaupt aufbaut und was die Grundregeln sind. Hier ist was Offensichtliches. Ich habe hier die Stops mal aller Fahrten sortiert, nach der Zeit, die die Zugfahrt bereits vor diesem Stopp gedauert hat. Von links nach rechts steigt die bereits gefahrene Laufzeit vor dem Stopp an, hier vor 0 bis 500 Minuten. Bei der Fahrt ist der Prozentsatz der pünktlichen Züge höher. Später in der Fahrt sinkt die prozentuale Pünktlichkeit krass ab. Bei 500 Minuten sind unter 60 Prozent pünktlich. Das habt ihr euch wahrscheinlich jetzt alle schon selbst gedacht. Warum sage ich das also? Weil ich die Bahn ein bisschen in Schutz nehmen möchte. Man sieht nämlich häufiger in den Medien irgendwelche Untersuchungen von Fahrten zwischen weit entfernten Metropolen. Und da werden dann unglaublich schlechte Pünktlichkeiten gemessen. Und wenn ihr sowas seht, lasst mich euch sagen, das ist, weil Sie durch Weiterentfernen eben nur den Datenteil mit der hohen Verspätung auswählen. Und ganz ehrlich, also die häufigen Probleme mit den japanischen Hochgeschwindigkeitszügen sind aus meiner Sicht auch einfach Stuss. Die verbinden in Japan nur die absolut riesigen Metropolen. Die haben ein komplettes Schienenetz für sich alleine. Der Fernverkehr der Bahn muss sich das Netz mit Güter und Nahverkehr teilen und bindet auch noch die Mittelzentren mit an. Also, das ist nicht vergleichbar. So vermissen wir schon sein. Hier wieder mein Praxistip für euch. Vorsicht mit Zügen, die bereits lange unterwegs sind. Ihr könnt ja, wenn ihr bucht, sehen, was das für eine Zuglinie ist und woher die kommt, könnt ihr also mit einbeziehen. Als nächstes habe ich mich gefragt, ab welcher Verspätung wird es nicht mehr besser? Und dafür habe ich für alle Stops aller Fahrten geguckt, wie sehr ist er gerade schon verspätet. Und das hier ist von links nach rechts aufgetragen. Links stehen die wenig verspäteten Stops, rechts die mit mehr Verspätung. Und dann habe ich geguckt, wie viel Prozent bauen auf dem Rest ihrer Fahrt 5 Prozent der Verspätung ab und existieren noch. Also sind nicht ausgefallen. Heute ist es jetzt kompliziert an, aber kurz wie viel Prozent werden noch einmal spürbar besser? Oder war es das jetzt? Und wie man sieht, ist das bei Verspätung unter 40 Minuten noch mehr als die Hälfte der Züge der Fahrten besser dastehen als jetzt gerade. Und ab 40 Minuten Verspätung, da ist eine gut sichtbare Stufe in den Daten. Die einzige, da scheint die Bahn die Dinger irgendwie aufzugeben. Ab da wird es in der Mehrzahl der Fälle bis zum Fahrtende nicht mehr besser. Woran das liegen könnte, darauf kommen wir gleich auch noch. Praxistip für euch also, ab einer Verspätung von 40 Minuten erweckt ein anderes Transportmittel. So, das war ein Höllenritt. Jetzt haben wir schon diverse Praxistips abgestaubt. Ich schlage vor, wir machen jetzt einen Einstub und ich versuche euch ein paar Anhaltspunkte zu geben, was ihr beachten solltet, wenn ihr Datenprojekte selber hochzieht. Und ich werde das kurz halten, sodass wir wieder in die Daten eintauchen können. Punkt eins. Organisiert den Download gut. Die Bahn hat einige öffentliche Schnittstellen. Es gab hier auch schon einen schönen Vortrag zu eben diesen Schnittstellen. Ich bin froh, dass jemand ermessen kann, wieviel Schmerzen ich gehabt habe. Über zwei davon kann man Fahrpläne und Veränderungen abrufen. Wenn ihr in eurem Smartphone mit der Bahn-App oder FW-Bahnverbindung nachguckt, dann macht euer Handy genau das. In den Fahrplänen steht, wann welcher Zug ankommen soll. Und in den Änderungen steht, was sich dem gegenüber verändert. Ausfälle, Verspätung usw. Und das ist ein bisschen anstrengend, denn leider müsst ihr beides in getrennten Abfragen abrufen. Und wenn ihr die Schnittstellen abruft, erhaltet ihr nur zeitlich begrenzt Daten ein paar Stündchen vor und zurück. Und leider müsst ihr beides für jeden Bahnhof einzeln abrufen. Und das bedeutet, wir können uns nicht am Schluss einfach ein Jahr Daten ziehen, sondern wir müssen wirklich über das ganze Jahr hinweg mit ein bisschen Infrastruktur sehr häufig Daten abrufen, die sich überlappen. Solches Szenarios findet man relativ häufig. Es funktioniert dann so, dass man die Downloads einfach erst mal wegspeichert und die gute Werte auslesen und Duplikate raussortieren. Das passiert dann einfach alles später. Und jetzt machen wir mal eine Nebenrechnung auf. Wir haben 6500 Bahnhöfe in Deutschland. Für jeden müssen wir einzeln beides abrufen, also mal 2. Und jetzt sagen wir mal, wir machen das alle 10 Minuten für Fahrplan und Änderungen. Und das macht dann 6600 mal 2 mal 144. Das sind knapp 2 Millionen Abrufe am Tag. So ein Abruf hat im Durchschnitt 22 KB bei den Veränderungsdaten ein bisschen weniger bei den Plandaten und wir würden dann so bei 40 Gigabyte XML landen am Tag. Für das ganze Jahr, ja, das passt sich auch nicht mehr von alleine. Für das ganze Jahr wären das dann 14 Terabyte in 700 Millionen Requests. Denn diesen Moment kriegen die Admins der Bahn vermutlich einen Herzanfall. Und wenn die damit fertig sind, dann werden die in ihre Locks schauen, welche Abrufe von mir sind und dann werden die ihren Anwalt anrufen um mir eine riesige Rechnung zu schicken, aber die enttäuschen wir jetzt. Natürlich habe ich das nicht so gemacht. Erst mal hätte ich das dann alles speichern und verarbeiten müssen. Das ist viel zu aufbindig. Und zweitens ist eine Sache ganz wichtig, wenn ihr sowas macht, ihr müsst den Treffek minimieren. Und zwar aus zwei Gründen. Und zwar handelt verantwortungsvoll. Das bedeutet, dass ihr bitte nicht so viel Treffek erzeugt, dass ihr die Infrastruktur des Ziels abwirkt oder irgendwie unnötige Kosten verursacht. Das ist jetzt realistischer, als es sich anhört. Vielleicht nicht bei der Bahn, aber beispielsweise bei den Justizportalen in Deutschland müsst ihr aufpassen. Die sind erstaunlich schwach aufer Brust. Habe ich gehört. Meine Lösung dafür, ich rufe maximal stündlich ab. Und auch nur die ca. 350 Fernbahnhöfe. Das sind dann statt der 2 Mio. sofort nur noch 16.000 Requests am Tag. In der Regel ist es noch mal deutlich geringer, weil man das adaptiv machen kann. Und in diesem Moment kriegen die Admins zwar keinen Herzanfall mehr, aber die sind trotzdem enttäuscht, weil sich dafür keine Rechnungen mehr lohnt. Punkt 3. Fliegt unter dem Radar. Das soll ja eine Weihnachtsüberraschung bleiben. So was. Und das wäre es natürlich schlecht gewesen, wenn die Millionen Abrufe vom Server der Krise kommen, irgendwie in ihren Locks stehen haben. Das fällt nämlich irgendwann auf. Und die Lösung hierfür ist, ihr schickt die Abfragen über Tausende Zwischenstationen in der ganzen Welt. In der Fachsprache heißen die anonyme Proxies. Mit anderen Worten, wenn ich Massen von Daten runter lade, dann sieht das für das Ziel aus, wie so ein Grundrauschen die einzigen Abfragen, die von der ganzen Welt kommen. Viele von euch werden das auch zu machen. Niemand sieht mich, aber in Wirklichkeit laufen die Daten dann einfach im Hintergrund auf meinen Servern wieder zusammen, sofern ich sie nicht kresche. An dieser Stelle hören die Admins der Bahn vermutlich auf, meine Abfragen in ihren Locks zu suchen. Und ich freue mich, dass sie jetzt wieder voll beim Vortrag dabei sind. Da bin ich euch nicht abschrecken. So ein Aufwand müsst ihr nicht bei jedem Datenprojekt treiben. Das war vielleicht ein bisschen Overkill, weil ich das mal ausprobieren wollte mit den Proxies. Punkt 4. Es kann passieren, dass ihr nicht sicher seid, was ihr rechtlich dürft, ohne dran zu kommen. Die meisten unter uns sind keine Juristen, und manche AGBs sind auch einfach mies formuliert. Und wenn ihr nicht sicher seid, was ihr dürft, dann fragt einen Anwalt, der für euch die AGB liest. Es gibt im Internet Portale, wo ihr für schmales Geld Anwälten Fragen stellen könnt. Und danach kriegt ihr eine rechtsverbindliche Antwort. Wenn das nicht stimmt, haftet der. Und bei mir kann dann leider raus, dass ich bei der Bahn lieber eine schriftliche Genehmigung erfragen sollte. Und das war so ein Moment, wo ich kurz dachte, dass das Projekt vielleicht aber kippe steht. Und das wäre schade gewesen, weil ich mir vorab schon ein bisschen Arbeit gemacht hatte. Also lest zuerst die AGB und Punkt 5. Hab trotz Hindernissen den Mut es einfach zu tun. Ich hab dann gepokert und wirklich bei der Bahn nachgefragt, dass sie automatisiert Daten runterladen und darüber zum Beispiel einen kleinen Community-Vortrag halten darf. Und sie haben es mir genehmigt. Ohne weitere Auflagen. Und ob sie wirklich so offen sind oder einfach vergessen haben zu googeln, weiß ich nicht. Aber ganz ehrlich, das könnte jetzt mal ein Applaus für die Bahn wert sein, weil das sportlich. Nicht schlecht. Ich hoffe, die hören zu. Und Punkt 6. Seid fair bei der Auswertung, wenn ihr ein Jahr habt zum Beispiel, dann sucht ihr nicht die vier Monate raus, wo die Bahn besonders unpünktlich war, damit ihr fiesere Dinge behaupten könnt. Gängiges Mittel. Und das Wichtigste zu Letzt. Punkt 7. Guckt, ob ihr euren eigenen Daten vertrauen könnt. Und das ist gar nicht so einfach. Und ich führ das jetzt mal vor und dann könnt ihr entscheiden, ob ihr meinen Daten vertraut. Und außerdem ist das jetzt unsere Ausrede, dass wir diesen Einschub verlassen und endlich wieder in die Daten reingucken. Und das ist das, was die Bahn komplett nachbaut, die Quelle des Datensatzes. Also hier, die Bahn schon mal gemacht hat. Und die Bahn gibt auf ihrer Webseite ja pro Monat die Prozentzahl der pünktlichen Stops an. Und in ihren Dokumenten steht, auch wie sie das exakt ausrechnen. Und die habe ich einfach genauso nachgebaut und siehe da. Das sieht wirklich fast genauso aus. Die zwei größten Abweichungen sind die folgenden. Im Januar messe ich die Bahn einen halben Prozent punkt schlechter als sie ist. Das liegt vermutlich daran, dass ich erst am 8. Januar angefangen habe, Daten aufzunehmen. Und im September 0,8 Prozentpunkte, das ist da, wo mir ein paar Tage fehlen. Ansonsten scheint, wenn wir die Bahn sogar generell minimal besser wegzukommen, exakt die gleichen Werte werdet ihr nie kriegen. Die meisten Abweichungen sind hier so um 0,1 Prozentpunkte. Aber für eine Messung von außen ist das verdammt akkurat. Wenn eure Werte, mit denen das Ziel so übereinstimmt, dann seid ihr auf einem guten Weg. Das heißt externe Verifikation, weil wir was externes zum vergleichen hatten, jetzt kommt die interne. Das bedeutet, ihr guckt in den Datensatz rein, ob da alles realistisch aussieht. Zum Beispiel in Hand der Tageszeiten. Jeder Punkt hier ist wieder an Fernverkehrsbahnhof. Das ist der Tagesbeginn 0 Uhr vom 9. März diesen Jahres. Ich gehe jetzt die Zeit Stunde für Stunde durch und dann sehen wir, wie so ein Tag die Bahn ausseht. Die Bahnhofspunkte schwellen an, wenn in der Stunde mehr Stopps stattgefunden haben. Die Farbe markiert die Ausfälle, blau ist wenig, rot ist viel, dunkelrot entspricht 50 Prozent oder mehr Ausfällen. Es ist jetzt 0 Uhr und man sieht, dass noch einige wenige Züge des Vortages unterwegs sind, die Lumpensammler sozusagen. Das wird jetzt weniger werden und die Nachtruhe kehrt ein. Die Zeit vergeht. Nachtruhe. Und hier erwacht ein neuer Tag. Jetzt ist es so langsam voll betrieb. Es ist 8 Uhr. Wir sehen hier ein paar punktuelle Ereignisse, die für Ausfälle sorgen. Das sind die roten Flecken. Das Unwetter oder so passiert. Keine Notizen. Es ist Mittag. Jetzt wird es wieder weniger. Der Tag geht am Ende entgegen. Die letzte Stunde des Tages. Ein neuer Tag beginnt. Das ist der 10. März. Wir sehen wieder die letzten Züge bevor die Nachtruhe beginnt. Alles schläft. Der Tag wird älter. Es ist 6 Uhr. Man sieht schon ein bisschen Treffig. Es ist 9 Uhr. Wir sind wieder im Vollbetrieb. Es ist Mittag am 10. März. Und wir erinnern uns, an dem Tag war ja was. Und hier zeigt der Orkan Eberhard dass er die Farbskale erweitern musste. Weil man 50 Prozent Ausfälle normal nicht hat. Wir lassen diesen schlechten Tag für die Bahn nun ausklingen. Hier ist wieder Mitternacht. Die Grenze zum Folgetag. Eine Störung in der Größenordnung zieht einige Tage messbare Verspätung und Ausfälle nach sich. Wenn man das aufplottet, sieht man, dass mehrere Tage runtergehen. Die spielen aber nicht alle durch. Aber wir sehen, nicht immer ist die Bahn schuld. Wenn ihr die Daten so auf Plausibilität checkt, dann nutzt unbedingt gute Visualisierungen, die am besten gleich mehrere Dimensionen abdecken. Hier hatten wir Ausfälle, Ort in 2 Dimensionen und die Anzahl der Stops und die Zeit nach Stunde. Der beste Apparat zur Mustererkennung, den wir zur Zeit haben, das ist nun mal das Gehirn. Da gibt es nur eine Breitbandleitung hin und das sind die Augen. Wir werden jetzt noch ein paar größere Auswertungen machen. Als erstes bitte ich euch dafür, in Gedanken die Seiten zu wechseln. Stellt euch vor, ihr gebt keine Analysen raus, sondern ihr lest welche. Und wenn ihr Analysen lest, die andere euch geben, da das ist immer sehr wichtig zu riechen, worüber die anderen mit euch nicht reden möchten. Bei Firmen findet man das raus, indem man deren Kennzahlen genau anguckt. Die Bahn hat zum Beispiel gesagt, sie wollte dieses Jahr in den letzten Jahren 76,5-pünktliche Stops haben. Daran wollen sie sich messen. Dieser Bericht ist aus dem Januar 2019 und Anfang Dezember 2019 haben sie das Ziel dann kassiert. Es werden nur unter 75-pünktliche Stops im Fernverkehr. In meinen Daten sind es im Moment noch knapp über 75%, aber trotzdem eigentlich das Ziel wird verfehlt. Aber was insgesamt auffällt, ist, dass sich die Bahn zu ausfällen. Ich sage das schon ganz komisch ausschweigt. Und jetzt bitte ich mal um Handzeichen an euch. Stellt euch vor, ihr steht am Bahnsteig und der Zug, der fällt einfach aus. Ihr steht da mit leeren Blick. Und da kommt einfach nicht. Und ihr dürft jetzt entscheiden, ist der pünktlich oder unpünktlich? Wer von euch sollte sagen, der ist eher pünktlich. Ich sehe 2 Hände. 3 im Saal von 5.000 Mann. Okay, ist messbar. Wer würde sagen, der Zug ist eher unpünktlich. Das sind so ziemlich alle. Und so sehe ich das eigentlich auch. Und jetzt schauen wir mal in die Unterlagen der Bahn dazu. Ihr müsst das nicht lesen, ich lese euch das vor. Komplettausfälle oder Teilausfälle werden, wie übrigens bei den anderen europäischen Bahnen auch, nicht in Statistiken eingerechnet. Zum einen ist es schwierig, wenn man in einer bestimmten Stelle seiner Fahrt ausfällt. Wir können binär messen, ob 3 von 8 Stopps pünktlich oder nicht pünktlich sind. Aber mit ausgefallen, nicht ausgefallen, das geht nicht. Und zum anderen liegt die sogenannte Erfüllungsquote aller täglich verkehenden DB-Personenzüge über 99 % im Jahresschnitt, sowohl für fern als auch für nachverkehr. Also Punkt 1. Da möchte ich als erstes mal zu anmerken, dass ich das in der Sache nicht nachvollziehen kann, weil wir schon gesehen hatten, dass alleine der Fernverkehr eine Ausfallquote von mehr als 4 % hat und nicht 1 %. Das heißt, wir haben insgesamt 103 % Fernverkehr. Aber vor allem vielleicht ist die Erfüllungsquote auch was anderes, was ich hier nicht verstehe, keine Ahnung. Aber vor allem so ein ausgefallener Zug, der ist nicht unpünktlich. Der fällt einfach komplett außer Wertung. Die Ausfälle werden statistisch verdeckt, weil man sie angeblich nicht statistisch einbauen kann. Also, liebe Leute, ich mache solche Auswertungen ja auch beruflich und da habe ich echt schon manche Ausrede zu hören gekriegt. Aber das hier, das ist schon krass. Ich nenne sowas den finalen Rettungsstuss. Wenn ihr sowas erzählt kriegt, dann wisst ihr ganz genau, ihr habt es gefunden. Hier müsst ihr gucken und nicht woanders. Also, helfen wir jetzt mit und wir entwickeln jetzt eine Idee, wie man die Ausfälle doch sinnvoll in die Statistik reinkriegt. Hier sehen wir eine Zugfahrt mit 4 Stops. Die beiden weißen links sind pünktlich, der hellblaue ist unpünktlich, größer 6 Minuten und der rechte in rot ist ganz ausgefallen. Im Moment zählt die Bahn einfach alle Stops, die nicht ausgefallen sind und misst davon den Prozentsatz der Pünktlichkeit. Das wären hier 2 von 3, 66 Prozent und ich schlage stattdessen vor, wir zählen alle Stops, die geplant waren und messen davon den Prozentsatz, der angekommen ist und pünktlich war. Das wären hier 50 Prozent. Nehmt das nicht auf die leichte Schulter, das ist jetzt wirklich große Mathematik. Bahnbrechende sozusagen. Danke schön. Wenn man mit den Ausfällen ehrlich umgeht, dann liegt die Bahn nicht bei den 76er-Halb-Pünktlichkeit, das waren die angekündigten und auch nicht bei den 75, das ist der aktuelle Wert, sondern bei 72er-Halb. Mit jedem Prozent weniger wird es sehr viel unwahrscheinlicher, dass Leute ihre Anschlüsse kriegen. Also unterschätzt das nicht, wenn das nochmal 2 Prozent weniger sind als sie behaupten. Das ist knackig. Beim Fernverkehr liegt bei den Einiges im Argen. Damit möchte ich noch zum wichtigen Thema kommen. Erfolgskriterien in Unternehmen. Wenn ihr als Unternehmen eure Erfolgskriterien schlecht setzt, dann schafft ihr Anreize, die das Unternehmen in eine unerwartete Richtung lenken. Und hier haben wir ein Paradebeispiel dafür. Wenn die Bahn einen unpünktlichen Zug einfach spontan ausfallen lässt, dann steht die nach ihrer eigenen Messmethode danach besser da und nicht schlechter. Weil die Ausfälle einfach komplett aus der Statistik fliegen. Also müssen wir uns die Frage stellen, wo genau lohnt es sich für die Bahn am meisten, ein paar Ausfälle zu erzeugen, um damit die Pünktlichkeitsstatistik zu pushen. Ihr klatscht ja schon vorher. So kann ich nicht arbeiten. Und die Lösung ist, am Ende und am Anfang von Fahrten. Züge fahren nämlich häufig dieselbe Strecke hin und her. Und der hier fährt los. Bis hier ist alles gut gegangen. Hier hat er dann satt Verspätung angesammelt. Das passiert. Und an diesem Punkt ist zu erwarten, dass die letzten beiden Halte auch verspätet sein werden. Und auch die ersten beiden Halte der Rückfahrt natürlich. Das ist also schlecht für die Statistik. Also lassen wir die doch einfach ausfallen. Der Zug schmeißt die Fahrgäste raus, dreht an Ortenstelle um und ist wieder pünktlich. Und wer in den roten Stops einsteigen und aussteigen will, der steht halt mit leeren Blick am Gleis. Aber die Verspätungsstatistik verbessert sich, denn die Ausfälle fallen ja einfach unter den Tisch. Aber wie könnte man sowas messen? Ganz einfach. Was? Hamburg. Oh ja. Das ist einfach. Hier ist wieder eine Zugfahrt mit all ihren Stops. Und die unterteilen wir jetzt einfach in drei Klassen. Frühe, mittlere und späte Stops. Die frühen und späten sind die ersten und letzten drei. Hier grau. Und die mittleren sind der Rest. Und für diese drei Artenstops machen wir getrennte Auswertungen. Wenn Ausfälle aufgrund technischen Betriebes entstehen, würde man ja erwarten, dass es am Start artistisch weniger Ausfälle gibt. Und dann werden das so über die Zeit mehr. Und beim IC ist das auch genauso. Die Ausfälle steigen nach hinten an. Und beim ICE dagegen fallen die ersten und letztens Stops häufiger aus. Das passt alles genau. Die scheinen die Dinger einfach hart zu wenden. Und ich habe dieses Verhalten auch von zwei unabhängigen Quellen bestätigt bekommen. Und das war vor einiger Zeit schon mal irgendwo klein in der Presse. Aber das war für eine gute Zeit. Und die Beide sind ganz gleich. Die Geheimnisse. Und je nach dem, wenn man fragt, heißt dieses Vorgehen entweder nach unserem Verkehrsminister die Scheuawende oder aber nach dem Bahnenvorstand die Pofallawende. Das müsst ihr heute Abend beim Bier entscheiden, was ihr besser findet. Jedenfalls ein weiterer Praxistipp. Vorsicht am Anfang und am Ende eines ICE-Zugelaus. die Bahn hat natürlich ein Interesse daran, dass das ganze Zugnetz ungefähr im Plan ist. Also werden die sich denken, dass bei so einem Manöver nicht so viele Passagiere von den Ausfällen betroffen sind, darf er aber im weiteren Verlauf deutlich mehr Passagiere in pünktlichen Zug kriegen. Ist eben deren Geschäftsentscheidung, und es liegt mir fern, da jetzt von der Seitenlinie ohne tieferes Wissen alte kluge Ratschläge zu erteilen, wir sind hier nicht auf Twitter. Was ich hier kritisieren möchte ist aber, dass ausschließlich die positive Seite des Manövers danach in der Statistik auftaucht und die negative einfach verschwindet. Da stört. Wir wollen gar nicht wissen, wie viele Leute im Verkehrsministerium denen das abgekauft haben. So, und wir hatten jetzt schon ein bisschen Praxistips gesehen, die euch zu Hause beim Buchen vielleicht ein bisschen was bringen. Vorsicht mit bestimmten Bahnhöfen, Vorsicht mit ICEs im allgemeinen ICEs, Vorsicht mit ICEs im Sommer, im speziellen, ja. Vorsicht, wenn Züge schon lange unterwegs waren. Vorsicht, wenn sie 40 Minuten oder mehr verspätet sind. Und jetzt gerade Vorsicht mit ICEs am Anfang und am Ende der Fahrt wegen der Scheuervenden. Und ich könnte jetzt mit euch noch jede Menge Standardkram machen, der sich irgendwie aus den Daten ergibt, top 10 Bahnhöfe oder Zuglinien nach Verspätung ausfällen und so weiter. Aber das hilft doch nur wenigen, ganz ehrlich. Also machen wir jetzt noch zwei Sachen. Erstens machen wir unsere letzte große Sache mit den Bahndaten. Und ich hoffe, dass ihr davon zumindest für ein paar Monate ganz konkret was habt. Und danach würde ich mit euch gerne kurz über das ausklingende Jahrzehnt nachdenken. Zuerst die Datensache. Wenn ihr einen Bankticket kauft, könnt ihr wählen. Wenn ihr ein Sparkticket seid, ihr an exakt die Züge, die ihr gebucht habt, gebunden oder ihr nehmt ein Flexticket, das ist deutlich teurer, aber dafür habt ihr keine Zugbindung. Und interessant ist nun folgende Regel auf den Sparktickets. Wenn sie durch Verschulden der DB ihren Anschlusszug nicht erwischen oder allgemein eine Verspätung von mehr als 20 Minuten erwartet werden muss, wird die Zugbindung automatisch aufgehoben. Und ich verstehe das so, dass ihr dann eigentlich ein Flexticket habt plötzlich. Und dann gucken wir mal auf den Prozenters der Stops, die entweder mehr als 20 Minuten zu spät waren oder aber ausgefallen sind und insgesamt sind das immerhin 12,4 Prozent. Und wenn man jetzt diese Stops erwischt, dann verwandeln die einem vielleicht schon vor Abfahrt ein preiswertes Sparkticket in ein Flexticket. Und das wäre doch total cool, wenn man die vorher wissen könnte. Ich bin nicht so vorhersehbar. Und komplett vorhersehen geht natürlich nicht, aber es gibt Züge, bei denen so was häufiger auftritt und Bahnhöfe, bei denen so was häufiger auftritt. Und es gibt auch Wochentage, bei denen so was häufiger auftritt. Und hier ist ein Beispiel. Lest mal mit, das bedeutet beim Intercity 2221 ist an allen Halten bei Mainz Hauptbahnhof in allen Mittwochen dieses Jahr mit 53 Prozent Wahrscheinlichkeit die Zugbindung aufgehoben. Also von allen Stops, die ich dazu erfasst habe, waren 53 Prozent entweder mehr als 20 Minuten zu spät oder sind ganz ausgefallen. Und am Freitag das Ganze mit 50 Prozent. Ich muss die Schreibweise so kurz machen dann und euch das so beibringen, das lesen, damit ich jetzt gleich platzsparend arbeiten kann. Euch schwaren vermutlich schon, was ich jetzt mache. Also ich habe für euch mal die Kombination aus allen Wochentagen, allen Bahnhöfen und allen Fernzügen durchsucht und habe dann nur die Kombination genommen, wo ich mindestens zehn Datenpunkte hatte, damit das einigermaßen fundiert ist. Und für die habe ich gemessen, bei wie viel Prozent die Zugbindung dieses Zuges an diesem Wochentag, an diesem Bahnhof gekillt wurde. Und dann habe ich gesagt, ich will nur die ganz fiesen haben, wo das mit mindestens 50 Prozent der Fälle der Fall war. Und herausgekommen sind fast 500 Kombinationen aus Wochentagen, Bahnhöfen und Zügen. Hier sind sie. Also ich würde kein Flex-Ticket für teuer Geld kaufen, wenn ich an einem dieser Bahnhöfe Einsteige, Aussteige oder Umsteige an dem Wochentag mit diesem Zug kaufte, ein Sparticket. Und für alle, die das jetzt nicht lesen könnten, ich stelle den Folien-Satz wieder irgendwie bei mir auf die Seite morgen oder so. Beachtet auch, dass die Daten irgendwann ungültig werden. Ihr behaltet den Zug bitte am Fahrtag im Auge. Ich bin nicht schuld, wenn ihr unverhofft doch pünktlich zum Zug eintreten müsst, weil die Kiste halt pünktlich ist. Also bitte behandelt diese Daten, als wären sie mit Xerox-Geräten gescannend. Und wenn ihr doch pünktlich da sein müsst, dann ist das ja auch ein gutes Zeichen, weil es nichts anderes bedeutet, als dass die Bahn was verbessert. Verbesserung passieren nämlich durchaus. Dieses Jahr wurde zum Beispiel eine neue ... die ECE-Trasse zwischen München und Berlin ausgebaut. Da kann man jetzt unter vier Stunden zwischen beiden Städten hin und her fahren, ohne den Zug zu wechseln. Und wenn das rund läuft, ist das echt mal eine Alternative zum Flug. Es ist also nicht alles schlecht. Also ich hoffe auch, ich bin bei aller Kritik fair mit der Bahn umgegangen heute. Ich bin jedenfalls, obwohl ich das alles gesehen habe, mit der Bahn zum Kongress gefahren und werde das auch auf dem Rückweg machen. Und für heute möchte ich damit die Bahnbetrachtung abschließen. Mit den Worten, seid nett zur Bahn mit ihren Fehlern. Wir haben nur diese einen. Und was bleibt? Einen habe ich noch. Einen hat der Kamer schon gelaufen. Das hier ist der letzte Vortrag, den ich in diesem Jahrzehnt halten werde. Ich lasse euch jetzt mal ein paar Sekunden in Ruhe und wünsche mir, dass jeder kurz darüber nachdenkt, was für ihn in diesem Jahrzehnt die maßgebliche, gesellschaftliche Entwicklung war. Glaube hat jeder was. Für mich ist es der Aufstieg der Empörten. Und damit meine ich ausdrücklich jede politische Richtung. Ich habe in diesem Jahrzehnt tausendmal an jeder Ecke gehört, wie wichtig heutzutage technische, naturwissenschaftliche und analytische Skills sein, die man angeblich mit anderen Worten Rationalität. Auf der anderen Seite aber reicht das heute im öffentlichen Diskurs als Totschlagsargument, wenn jemand empört ist. Und ich finde, das Paradox ist das Gegenteil von Rationalität. Man kann nicht beides gleichzeitig propagieren. Und ich möchte anregen, dass wir für das jetzt kommende Jahrzehnt zu einer Kultur finden, in der es ungern gesehen wird, einfach nur alles Mögliche anzubrangern und ganz umgekehrt bewundert wird, wenn man sich die Datenlage anguckt und sie sich gegenseitig präsentiert mit seinem Kontrahenten und sich dann zusammensetzt. Und wer soll das starten, wenn nicht wir hier? Verlassen wir uns nicht auf die Medien, wenn die Leben vom Aufruhr, auch wenn es positive Gegenbeispiele gibt. Verlassen wir uns nicht auf irgendwelche Stars, die Leben von Likes und die kriegt man am besten die Bespitzung. In der Regel sind die Teil des Problems. Verlassen wir uns nicht auf Politiker, die achten wegen der Shitstorm-Kultur, nur noch darauf bis zur nächsten Wahl nicht anzuecken und zu viele von denen haben, ohnehin niemals außerhalb der Politik gearbeitet. Was soll da schon kommen? Und das ist der Grund, warum ich das hier mache. Ich versuche euch zu inspirieren, eure eigenen Analysen zu strittigen Themen anzustellen. Denn in meinen letzten Vorträgen, habt ihr ein paar Instinkte davon bekommen, wie das geht. Und ich hoffe, ich habe euch bewiesen, dass das absolut keine Raketenwissenschaft ist. Ja, und ich frage nochmal, wer soll das machen, wenn nicht wir hier? Wenn wir es gemeinsam schaffen, dass wenigstens manche, die heute echt nichts Besseres zu tun haben, als sich im Internet zu empören, im nächsten Jahrzehnt zu engagierten Analyse übergehen und dabei auch anerkennen, wenn was rauskommt, dann haben wir gesellschaftlich unglaublich viel gewonnen. Und heute Abend stehe ich hier in einem Saal mit 5.000 Leuten vollbelegt, da sitzen sie noch neben der Tribüne, die sich mit 5.000 Leuten, die sich am Samstagabend zwischen Weihnachten und Silvester hier hinsetzen, also da, wo die allermeisten Menschen einfach gar nichts tun und sich die Flasche Wein an den Hals anschließen. Und warum tun die 5.000 Leute was? Das, um einen Statistikvortrag zu hören. Ja, das gibt mir Hoffnung. Ich werde glücklich heimfahren, da können die Bahn mit mir machen, was sie will. Und ich bedanke mich, dass ihr hier wart und wünsche euch ein schönes neues Jahrzehnt. Vielen lieben Dank. Wow. Auch von mir noch mal herzlichen Dank. Super Vortrag wie immer. Super lustig. Dankeschön, David, dass du das immer wieder machst. Echt schön. Wir haben noch ein bisschen Zeit für Fragen. Bitte an die Mikrofone. Es gibt 4, 5 Stück, glaube ich, hier im Saal. Wir fangen mit Mikrofon 1 an. Ja, du hast ja damit angefangen, dass du der Fairness halber die Pünktlichkeitsdefinition der Bahn von 6 Minuten höchstens gesetzt hast. Hast du aus purer Neugier mal Sachen durchgerechnet mit Pünktlichkeitsdefinitionen, die sie irgendwie sinnvoller anfühlen? Müssen ja nicht gleich die 30 Sekunden aus Japan sein. Ja, also da kann man jetzt ja sich streiten, welchen Wert man setzt. Also das sieht natürlich... Ja, das sieht so aus, dass wenn man das eng zieht, am Schluss natürlich alle Züge verspätet sind. Jeder hat mal irgendwie eine Minute. Was ich gemacht habe, war, ich habe mal eine Reibungslosmetrik gesetzt. Reibungslos habe ich gesagt, dass alles, was maximal 3 Minuten zu spät ist, nicht ausgefallen und keinen Gleiswechsel, weil das geht mir mal unglaublich auf die Nerven, wenn ich dann mit Koffer einmal hoch und runter. Und das waren dann irgendwie 60 Prozent. Aber nagern mich jetzt darauf nicht fest. Ich habe es jetzt nicht im Kopf, aber es war deutlich weniger. Ich glaube, es war bei 60 Prozent oder so diese Pünktlichkeit. Danke. Ich weiß jetzt nicht, wer ist Mikro-Erster? Wir fangen mal an den Signal. Der Stream schließt sich den Standing Ovation an. Danke schön. Und es gab viele Leute, die darauf hingewiesen haben, dass für ausgefallene Züge oft Ersatzfahrten bereitgestellt werden, die das teilweise kompensieren. Wie taucht das bei dir in der Statistik auf? Ich weiß gar nicht auf. Deswegen, da war ich mir auch nicht komplett sicher. Deswegen habe ich es auch gesagt, wenn die komplett neue Fahrten haben, die irgendwie gar nicht im Plan aufgetaucht waren, dann werde ich die vermutlich nicht drin haben. Wenn die Fahrten in irgendeiner Form in den Planendaten drin waren, habe ich die aber drin. Deswegen kann ich es nicht genau sagen. Ich weiß jedenfalls, dass die Kollegen beim Spiegel eine ähnliche Analyse neulich hatten auf einen kleineren Datensatz. Und da war das auch jenseits der 4 Prozent Ausfallquote. Deswegen, wenn es falsch ist, stimmt es zumindest über ein. Es kann sein, dass sie drin sind. Ich bin mir nicht völlig sicher. Danke, Mikrofon 5, bitte, mit einer Frage. Ja, vielen Dank für diesen sehr interessanten Vortragsverband. Es stimmt auch super viel Aufwand, das alles zu analysieren. Und nach den Ständigen, oh, weiß ich, trau ich mich auch fast, gar nicht eine kritische Frage zu stellen. Bitte. Aber Sie hatten ja ziemlich am Anfangslei zu den Bahnhöfen, die den Zügen Verspätung hinzufügen oder wo die Züge vielleicht Verspätung aufholen. Ja. Aber es ist nicht viel eher so, dass die Strecken zwischen den Bahnhöfen dazu führen, dass die Züge Verspätung bekommen und nicht die Bahnhöfe selber. Und wäre das dann nicht auch für die Bahn interessant zu schauen, zwischen welchen Bahnhöfen kriegen die Züge am meisten Verspätung? Also, das ist eine exakt sehr geile Frage. Weil diese Auswertung war in der Tat ein bisschen tricky, genau aus dem Grund. Vielleicht ist der Bahnhof Frankfurt die Verspätung gar nicht schuld, sondern die Gleise beim Rhein- und Rausfahren zum Beispiel. Und deswegen messe ich die Verspätungsänderung von dem Streckensegment vor dem Bahnhof und dem Streckensegment nach dem Bahnhof und der jeweilige Bahnhof kriegt dann den Durchschnitt, damit ich genau von diesem Effekt halt geheilt werde. Dann habe ich einen sehr guten Durchschnittswert. Und wer halt immer was dazufügt im Schnitt, der wird auch selber was dazu beitragen. Oder beide Streckensegmente dahin sind schlecht. Also immer. Und dann ist das auch für mich ein Bahnhofsproblem. Also, genau genommen, was ich analysiere, ist dann das Problem des Bahnhofs und der Näherung und der Umgebung darum herum. Also, danke für diese Frage. Vielen Dank für die Antwort. Wir gehen. Da habe ich mir nämlich lange durch Gedanken zugemacht. Ob ich da jetzt einfach immer nur die Änderung der Verspätung nehme, das hätte ich mir selbst als Statistik zerrechnen, wenn ich da einen bei erwischt hätte. Aber deswegen, perfekt, dass es aufgefallen ist. Sehr gut. Wir haben nur gute Menschen hier. Sehr schön. Wir nehmen Mikrofon 3, wechseln mal die Seite, bitte. Ich muss immer ein bisschen suchen. Bitte entschuldigt, wenn ich euch nicht dahinten ist. Du hattest am Anfang angeprangert, oder am Ende Mitte angeprangert, dass die Ausfällen nicht zu Verspätungen zählen. Und hat das am Anfang dieses Leid, wo der Berliner Flughafen immer ausfällt. Und es gibt ja vielleicht auch andere Bahnhöfe, die umgebaut werden, oder wo eben in den Anfangszeichen Plan mehr nicht ausfallen. Dann sind die nicht rausgerechnet. Nach meiner Information sind die Stops dann gar nicht im Plan. Also, das sieht so aus, ihr habt die Plan-Daten mit den Stops und dann habt ihr die Änderungen. Und da ist dann, wenn da was ausfällt, ist da eine Cancellation-Time drin. Nämlich der Zeitpunkt des Ausfalls. Da kann man auch noch schöne Auswertungen machen. Ausfälle mit kurzer Vorlaufzeit und so weiter. Und das würde dann in den Daten nach meiner Kenntnis anders aussehen, wobei ich das auch nur reverse engeniere. Die dokumentieren nicht alles. Ich weiß nicht, wer von euch vorhin in dem BahnAPI-Vortrag drin war, aber man muss sehr viel reverse engenieren, wenn man das macht. Also auch das mit dem Körnchen Salz. Danke. Wir nehmen Mikrofon 2. Ich bin auch Bahnfahrer, aber nach meiner Erfahrung ist der Regionalverkehr viel häufiger verspätet als der Fernverkehr. Und deshalb die Frage, wann gibt es die Analyse für den Nahverkehr? Wo kommst du denn her? Ich lebe südlich von Stuttgart. Südlich von Stuttgart. Also, ich habe die Nahverkehrsbahnhöfe nicht runtergeladen. Was ich aber habe, ist einfach, weil das hätte die Request zu werden explodiert. Aber was ich habe, ist natürlich sämtlicher Nahverkehr, der über alle Fernbahnhöfe gefahren ist. Und die sind strategisch gut verteilt, sodass ich da in der Tat auch für den Nahverkehr was sehen kann. Also, vielleicht mache ich meine Pünktlichkeit von dem Nahenverkehr, der in den Fernverkehrsbahnhöfen vorbeigefahren ist, weil das habe ich. Dann muss ich das mal als Tabelle auf meine Webseite stellen. So, wir haben noch ein kleines bisschen Zeit. Mikrofon 6 noch mal, die andere Seite. Ja, vielen Dank nochmal für den Vortrag. Aus München kommend haben wir eine chronisch schlechte S-Bahn. Und ich habe mich auch gefragt, ist es dann regionalverkehr nochmal unterschiedlich zum Nahverkehr oder ist einfach die Münchner S-Bahn da und zu spät und dem Rest Deutschlands gut? Also, die fährt ja über eure großen Bahnhöfe. Ihr habt ja zwei oder drei richtig dicke, ne? In München, Ost, München und noch irgendein. Ja. Und dann habe ich die drinnen, kann ich mal gucken auch. Würde dann auch in der Frage auftauchen, ob die da über, also, diese 90 Prozent, über 90 Prozent Pünktlichkeit im Regionalverkehr, die sind für Bahn- und Subunternehmen vermutlich. Ich muss mal gucken, aber die anderen habe ich ja drinnen, zu Not, als Drittunternehmen. Vielleicht beziehe ich die einfach mal mit ein in die regionale Analyse, das könnte interessant sein. Wenn ich da für irgendwann Zeit habe, erwartet das jetzt nicht morgen früh. Danke. Super, wir nehmen noch euch beide hier Mikrofon 4 zuerst. Auf den Slides 80 und 84 war dargestellt, wie die Bahn die Teilausfälle rausrechnet aus der Statistik, aber müssten nicht die gesamten Züge rausgrechen während aus der Statistik. Die Verspätung akkumiert sich ja natürlich und dann wäre die Statistik dementsprechend noch besser. Jetzt habe ich meinen PowerPoint abgeschossen. Wieso müsstest du die ganze Züge rausrechnen? Das verstehe ich nicht. Es ist ja schön, Granular für Stops zu rechnen. Wenn ihr jetzt angenommen, das ganze System würde so funktionieren, dass alle Züge auf der Hälfte ihrer Stoffs pünktlich sind und auf der anderen Hälfte unpünktlich. Dann wäre das doch halb pünktlich. Wir arbeiten ja feiner als auf der Granularität von Zügen. Das ist doch besser. Ja, aber es werden ja Teilausfälle auch rausgerechnet. Ist es dann wirklich nur der ausgefallene Stopp? Nein, soweit ich weiß, ist es da wirklich nur der ausgefallene Stopp. Okay, gut, danke. So, dann noch Mikrofon 1. Ja, vielen Dank nochmal für den Talk. Meine Frage geht in die Richtung Perverse Incentives. Also sprich die Kennzahlen, an denen sich die Bahn messen lässt. Es ist, hat es ja darauf hingewiesen, dass die Ausfallrate da vielleicht nichts... Also gut sein könnte, wenn... Es wäre schön, wenn sie drin wäre. Genau, wenn sie drin wäre. Eine andere Sache, die da reinspielt, ist halt, wie hoch die Ziele sind, die sich die Bahn setzt sozusagen. Also, hast du in deinen Daten irgendwelche... Das geht durch die Presse. Also ich meine Ziele im Sinne von, wie schnell denn eine Strecke zu befahren ist. Man könnte ja die Züge pünktlicher machen, dadurch, dass man einfach jedem Zug eine Stunde mehr Zeit gibt, dieselbe Strecke zu fahren. Du meinst die Taktung? Ja. Nee, die habe ich nicht. Die ist aber bei der Bahn relativ eng im Vergleich zu Flugzeugen, habe ich mir sagen lassen von günigen Personen. Weswegen die Flugzeuge auch häufiger pünktlich sind. Oder ungefähr pünktlich. Aber bei der Bahn ist alles sehr eng getaktet. Ja, und vor allem sind die Sachen interdependent. Wenn einer auf der Strecke liegen bleibt, halten alle dahinter halt auch ein Problem. Und das beides in Kombinationen sorgt für die Fragilität, die wir sehen. Hast du vor, die Analyse in weiteren Jahren vorzuführen, um dann da vielleicht in die Richtung was zu sehen? Ich bin mir nicht sicher. Zum einen habe ich wie alle anderen auch Arbeit und Familie und so. Und zweitens ist die infrastrukturell sehr aufwändig. Ein bisschen mache ich das sicher noch weiter, und dann gucke ich mal, was ich noch rauskriege. Ich kann nichts versprechen. Letzter Nachschub, sind deine Daten von... Kriegt man die von dir? Denke ich nicht, weil ich das nicht darf. Am Ende hat die Bahn dafür das Copyright. Also viel mehr Copyright-Verstoß ginge gar nicht, als wenn ich das ganze Ding nehme und euch einfach raus kopiere. Aber, gesucht bei der Bahn die Timetable-API, und dann ladet ihr das einfach runter. Und es geht. Es ist keine Raketenwissenschaft. Vielen Dank. Super. Noch mal ein riesengroßen Applaus an David. Herzlichen Dank.