 Unser nächster Vortrag, Little Big Data, Spurensuche in elektronischem Time Nehmen Verzeichnissen oder auch, was euch passieren kann, wenn der Erdgeist euch dazu einlädt, seine CDU-Funkbücher, seine DVD-Sammlung zu durchsuchen. Es geht um Rufnummern zur Teilnehmerzuordnung und damit, was man dabei erleben kann, wie das funktioniert und was man dabei so lernen kann. Unser Sprecher, der Erdgeist und Andreas Sehne, zwei Berliner Hacker und Telefonbuch-Sammler mit obskuren Leidenschaften, Sammelätigen und einem Hang dazu, lange auf da anzustahnen und darin Muster zu erkennen. Herzlich willkommen mit einem herzlichen Applaus, viel Spaß. Wunderschönen guten Tag. Hallo, namens Erdgeist und ganz toll aufgerichtet, weil den Vortrag, den haben wir im ähnlichen Form vor vier Jahren schon mal in ungefähr dreieinhalb Stunden Zeit gehalten. Und seitdem habe ich noch mal vier Jahre Forschung dazwischen, die da mit rein müssen in den Vortrag. Also werden wir uns da ein wenig ranhalten müssen. Zuerst, der Herr Herald hat da gerade schon angefangen, ist so ein bisschen mal Zeit, dass wir einander kennenlernen. Wenn ich jemanden einlade, sich meine Telefonbuch-Sammlung anzugucken, dann ist es keine bewillige Anwache, die steht da wirklich und sieht genauso aus. Die habe ich über die letzten jetzt 16 Jahre in dem gemeinsamen benutzten Raum für diese Telefonbuchforschung dort akkumuliert und zusammengesammelt. Und das sind wir und jetzt haben wir Fragen an euch. Wenn ihr spannende Frage ist, wer von euch hat noch einen festen Netzanschluss? Fast alle. Gut, wer von euch kennt die eigene Rufnummer aus Wendig? Die Hälfte? Und wer von euch nützt elektronische Telefonbücher? Feinzelte Hände. Wer von euch hat noch ein gedrucktes Telefonbuch zu Hause? Wer von euch steht noch im Telefonbuch? Wer von euch stand hier im Telefonbuch? Ihr habt jetzt Obseck angemacht. Okay, deswegen sehen wir nachher. Verzeichnisse gibt es schon eine ganze Weile. Das fing in Berlin an mit einem Telefonbuch, in dem tatsächlich 100 Teilnehmer waren, das Telefonbuch der 100 beglebten. Aber überwiegend Firmen waren, die sich einen Telefonanschluss geleisteten, logischerweise. 1881 war das über die Zeit hinweg, sind Telefonbücher immer größer, immer wichtiger geworden. Und waren zu ihrer Hochphase Ende der 80er, Anfang der 90er sehr dicke Wälzer. Die hatten dann bekommen als Anschlussteilnehmer. Da gab es eine Karte, die am Übersand wurde. Herzlich willkommen, liebe Anschlussteilnehmer. Es gibt in der Postfiliale wieder die aktuelle Ausgabe des Telefonbuches. Gegenüberbringung des alten Telefonbuches kann man sich das neu dann abholen. Das wurde über die Jahre sehr viel liberaler gehandhabt in den 90ern, weil das auch ein Reklameträger war. Und so fing ich an, meinen Freunden davon zu erzählen. Und die haben dann regelmäßig bei Besuchen in Berlin und dem Club Telefonbücher aus der Republik mitgebracht in Print. Ihr könnt euch vorstellen, wie das aussieht, wenn man so 4,5 Regalmeter Telefonbuch hat, eines Jahrgangs, und dann versucht auch noch so bei einigen Dingen ein Diff zum Vorjahr zu machen. Und so waren wir sehr glücklich, dass sich das geändert hat. Nicht nur gab es dann den Telefonbuch versandt. Man konnte also die Telefonbücher im Sinne der Vollständigkeit einfach für 4 Euro pro Stück bestellen und bekam die unter den merkwürdigen Augen der Nachbarn nach Hause geliefert. Und dann gab es die plötzlich auf CD. Und das hat unser Hobby so viel leichter gemacht. Das habt ihr gerade schon gesehen. Das ist tatsächlich die komplette Sammlung, die wir beide an einem Ort teilen. Und das sind alle Telefonbücher seit 1997. 1992. Zu Anfang waren diese Telefonbücher auf meinem Schreibtisch dann wirklich auch noch genau wie im Original sortiert nach den Vorwahlleitregionen. Und es waren viele und die waren in einem komischen HTML-Format, bis ich das erste Mal gesehen habe, dass es eine Gesamtdeutschland-Ausgabe war. Das war so 2003. Die landete da auf meinem Tisch. Und seitdem habe ich, nachdem ich die auseinandergenommen hat und nicht akzeptieren wollte, dass was einmal auf meinem Computer sich befindet, nicht vollständig von mir angeguckt werden kann, habe ich einfach gesammelt, alle die mir in die Hände gekommen sind und hatte das Problem, dass zu der Zeit die nicht mehr alle so verfügbar waren. Mein Wunsch, die lückenlos zusammen zu bekommen, hat dann wie erst so 2010, 2011 angefangen. Und dann gab es dann schon langsam eBay, den man befragen konnte, aber das war dann zuweilend teurer als der Originalpreis für die DVD. Da hat man gerne mal so 50 Euro in die Hand genommen. Das war unakzeptabel. Ich habe mich gefreut, dass es, wie ihr da recht im Bild seht, Bibliotheken noch alte Ausgaben gibt. Das ist 1992. Die erste Ausgabe, die ich in die Hand bekommen habe, soll nach Gerüchten auch 1990 ein elektronisches Teilnehmerverzeichnis gegeben haben. Habe ich leider noch nie gesehen, wenn jemand da an den Streams da draußen oder hier im Publikum diese DVD in der Hand hat, total geil. Und sonst hat Pfeffer in seinem Blog mal aufgerufen, mir vielleicht so das eine oder andere fehlende Exemplar zu schicken, was dann wirklich auch in der Datenspende in meinem Briefkasten resultierte. Und so ist dann, ich glaube, inzwischen nach 2000 Euro Investitionen meine Sammlung ziemlich korrekt. Aber erst mal diese DVDs auf dem Schreibtisch zu haben, also früher noch CD's, hilft einem erst mal noch nicht so richtig. Man kann es dann so im Simulator straten und so ein bisschen drum rumklicken, das ist ein FAT-Feilsystem drunter. Ich habe hier mal alten DOS-Simulator die 92er CD angeworfen. Aber wenn man dann in die Files reinguckt, dann sieht man dann wie ziemlich viele, ziemlich kleine Files. Das war damals zu den Zeiten von DOS noch nicht so richtig einfach, so was effizient zu komprimieren, so was dabei gleichzeitig durchsuchbar zu halten. Also gibt es über die Jahre sehr interessante Versuche, diese Datenmenge zu reduzieren. Was ihr hier seht, ist jetzt so ein Pfeil mit der Endung 001 genommen. Im header steht einmal so deren primäres Ordnungsmerkmal, was die Vorwahl ist, die 06751 für Gerweiler. Und unten seht ihr so ein Pfeilformat, was ziemlich viele Bits spart, von dem Text-Encoding, was sie da genommen haben, was so dieses Windows CP437 war. Da kommen nur sieben Bits raus. Also haben wir gesagt, da können wir nochmal einen Bitprobyte sparten und die einfach bittig hintereinanderpacken. Das macht dann reverse-engineering eigentlich gar keinen Spaß. Vor allem, wenn ihr eh schon denkt, dass du jetzt alle Formate reverse-engineered hast und plötzlich kriege ich die 92er CD in die Hand und muss mich wieder hinsetzen und mit dem Debugger in irgendeinem nicht mehr supporteten Betriebssystem darin rumfuhrwerken. Vorher war die Version, so sah das vorher damals aus. Ich weiß nicht, ich habe nie so einen alten PC besessen, aber das ist dann schon Version 3.0, wahrscheinlich auch Version 3.0 der Kompression. Da haben sie dann das erste Mal richtig angefangen, so mit PK, war damals der heiße Scheiß, Dinge zu komprimieren. Da ist dann, was ihr hier seht, ich könnte jetzt auch Stunden lang zu nerden, die Zeit haben wir leider nicht, aber das ist dann das Fallformat, in dem so von dem dunkelblauen Punkt aus, in dem drin steht, wie viele Records da sind, stehen links immer in Pink, die Längenweiz von den Strings der dynamischen Länge und dahinter dann passt man rückwärts. Und nach vorne gibt es nochmal die Bitfelder, welche von den Strings dann hinten auch wirklich besetzt sind. Da hat mich auch eine Weile gedauert, ich würde auch total gerne davon berichten, aber das funktioniert von der Zeit nicht. Das war jetzt alles nicht ganz chronologisch, die beiden hatte ich sozusagen eine ungekehrte Reihenfolge. Das erste, was ich überhaupt in der Hand hatte, war so die Ausgabe von 2003, die mir der Artboard mitbrachte. Und bei der sieht er, dass die dort schon LH benutzt haben. Das seht ihr da im Header, die ersten Bytes, das ist dieses Minus von dem Minus LHA5, da waren einige Dateien mit komprimiert, die einfach in plaintext rumlagen. Und auf derselben DVD lag dann so wie Nährblopp, aber im selben Abstand, wie in den anderen Schreils, da wo am Anfang, nö, hier, der LHA Header ist, zack, zack, sind da auch identische Bytes. Dann brauchst du einfach nur noch X, Orn und Subdraheren und einen Key, mit dem sie das verschlüsselt haben und wie jeder in Kryptografie 101 mal gelernt hat, wenn ihr die Pinguin sehen könnt, ist eure Kryptoscheiße. Das war so mein allererster Erfolg, wo ich mich echt doll gefreut habe. Und das war in 2003. Und direkt im Folge her habe ich die neue CD mitgebracht und tada, es hat sich geändert. Mit einem neuen Format. Glücklicherweise gab es eine Ausgabe für MacOS. Da haben sie wahrscheinlich out geshorst, weiß ich nicht. Aber ich habe mich dann hingesetzt, mit dem GDB daran gemacht, geguckt, was passiert, was nachdem ein Block von der CD gelesen wird, bevor er ausgefertet und angezeigt wird. Habe da eine Weile mit dem GDB so Single Step durch diesen PowerPC-Code durch, bis ich dann irgendwann gesehen habe, Moment. Da sind Zündel dabei. Ich habe mir den Backtrace angeguckt und die haben da wirklich eine Funktion. Die heißt SecretX-Eure in Kryptchen. Lesen also von der CD im Block. Dekomplimieren dann einfach LZW. Und haben von diesem LZW-Block, der da im Speicher rum liegt, die ersten 27-byte verschlüsselt. Und verschlüsseln, ist, nachdem ich geguckt habe, was deren Secret-Key ist, ist einfach nur ein X-Ore mit diesem, ja, mit diesem statischen String, der da steht, mit einem Buchtitel, den da wahrscheinlich irgendein Nerd einfach nur in seinem Bücherschrank stehen gehabt hat, hatte gesagt, pfff, nehm ich ihn. Und hatte mir dann nach zwei Tagen die Bangen und ziemlich viel über PowerPC-Assembler zu lernen, dann doch den Schlüssel da einfach quasi-frei Haus sogar mit dem Swimble dazugegeben. Das führte da in den meisten Fällen dazu, dass da irgendwelche Playtext-Falls rumliegen, meistens so 11 bis 13 nebeneinander, in dem einfach untereinander alle Vornamen, alle Nachnamen, alle Postleitzahlen, alle Straßennamen, alle Hausnummern stehen. Und die kann man dann einmal zusammenlamminieren und hat quasi dann das gesamte Telefonbuch des jeweiligen Jahres rumliegen. Beziehungsweise des jeweiligen Halbjahres. Oh ja, oder manchmal sogar ein Quartalsebene in 2001, glaube ich, gab es sogar für jedes Quartal eine Ausgabe. Und dazwischen, wenn man das Abo bei DT-Medien hat, bekommt man im zwei Monatsrücken sogar Updates in digitales und unterladen. Was noch cool ist, ist das auf diesen DVDs, die hier ist vor Gast dann gekommen. Da ist auch Map and Route drauf. Das heißt, da haben sie gepartnert mit einer Firma, die Geo-Informationssysteme herstellt und haben dann auf der DVD für jede Adresse auch noch Geo-Kroninaten drin, was total cool ist. Aber, aber, das ist so ein Fahr-Doch mal hin, stattruft doch mal an. Und dann sitzt man da nachts nach der Arbeit noch und rätselt, was passiert hier eigentlich, warum kennt man das nicht? Aber low and behold, the power of followers. Wir haben dann mal gefragt, so kann jemand, der die Geo-Informationssysteme auskennt, sagen, in welcher Projektion map die gegebene Straße auf diese Koordinate. Das war am 3. Februar um 10 Uhr morgens. Wenige Tage später, am 7. Februar, kam eine Antwort. Es handelt sich um die Lambertsche Schnittkegelprojektion, was es erheblich erleichtert hat, die in WGS 84 zu normalisieren. Vielen Dank an dieser Stelle. Das Tolle ist aber auch diese Person, die die Verkaufs-Szene rockt. Diese Person hat den Account genau dafür angelegt. Vielen Dank. Und, Sie hat, der Link, der da noch damit bei war, ist ein Stück C-Code, dass ich einfach meinen Projekt inkorbrieren konnte, was mir die Konvertierung von dieser Schnittkegelprojektion direkt nach WGS 84 vorgenommen hat. Was ziemlich deugehäufen hat danach, darauf, Dinge wie Geo-Mapping zu machen. Und wenn man die einmal umgerechnet hat und das 1. Mal plottet, dann kommt auch einmal alle Koordinaten von allen Telefonnummern in Deutschland raus. Man weiß, dass man beim Dekomprimieren und Reverse-Engineering auf dem richtigen Weg gewesen ist. Und dann hat man so eine Hitmap und die sieht plausibel aus. Das sind die großen Regionen in der Bundesrepublik. Das ist die präzise Verteilung der Telefonanschlüsse, wie sie im Telefonbuch gelistet ist und vermutlich die ungefähre Verteilung der Telefonanschlüsse, wenn man annimmt, dass die nicht eingetragenen Anschlüsse gleich verteilt sind. Da kommen wir später noch zu. Und es war aber tatsächlich eine große Datei, die war auch nicht so gut handhabbar. Wir wollen ja ein bisschen über Little Big Data sprechen. Da hat man dann so ein Pfeil mit ein paar Gigabyte, ein Textpfeil und da greppt man dann drin rum und dann guckt man dem Pfeilsystem dazu, wie es performt oder halt auch nicht. Und manchmal muss man sich vergewissern, dass man sich auf einen richtigen Weg ist. Und dann greppt man Dinge und findet nichts und denkt sich dann vielleicht, ist die T-Kompression schiefgegangen, vielleicht ist die Entschlüsselung schiefgegangen, wer weiß schon, was da passiert. Und dann greppt man so string so und sich denkt, ja, das kommt. Und irgendwann greppt man zum Beispiel nach Hornokse, findet nichts. Es verzweifelt und kürzt es nochmal ab und greppt nach Horno und stellt fest, Horno gibt es eine Stadt, die hat die Ortsnetz-Kennzahl 3172 und dann kann man so ein WCL machen und sieht, das ist so die Anzahl von Leuten in diesem Dorf einen Telefonanschluss haben und im Telefonbuch eingetragen sind. Und dann macht man das fürs Folgejahr und dann wird es irgendwie weniger und denkt sich, irgendwas stimmt hier nicht. Wer weiß, was hier passiert ist, aber die Lösung ist ganz einfach. Es handelt sich um einen Telefonbucheintrag der Wattenfall Europe Mining AG und wer so eine ungefähre Vorstellung hat, weiß, was die machen, die baggern weg. Und so ist einfach das Dorf weg. Das Dorf ist zum Decomprimieren, das Dorf war weg. Und inzwischen sieht es da anders aus. Wir haben mal Google Street View rausgeholt. Schöne Grüße an die Kollegen, die im Hambacher Forst sind. An dieser Stelle. Aber man fragt sich manchmal, nicht nur deswegen werden, aber die Telefonnummern im Telefonbuch weniger, sondern grundsätzlich geht der Trend also schon dazu, dass das weniger wird. Piecktelefonbuch war Anfang 2001. Die empirische Forschung bringt uns also nahe. Das sind vielleicht eher ältere Menschen und weniger junge Menschen, die sich ins Telefonbuch eintragen lassen, sodass es jetzt auch eher eine historische Betrachtung ist, die wir hier machen. Und der Erkenntnisgewinn nimmt Rapide ab über die Jahre. Wir haben auch noch Zahlen. Die frische Scheibe kam gestern hier an, von 18,6 Millionen auf 17,9 Millionen. Das ist ein Hobby, das irgendwann enden wird unglücklicherweise. Und das Traurige ist, dass wenn man sich die aktuellen CDs anguckt, dann sind genau die Einträge, die danach trachten, im Telefonbuch immer ganz als Erstes gelistet zu werden. Wenn man sie aufklappt, so meistens Schlüssel, Notöffnungsdienste und so, da findet tatsächlich ein Spam statt. Also es gibt Firmen, die darauf spezialisiert sind, sich in alle möglichen Telefonbüchern von allen einzelnen Ortsnetzbereichen einzutragen und jeweils dort ganz am Anfang zu stehen. Und die finden wir auch wieder. Die spämen mir jetzt auch gerade die Datenbank zu. Die kommen möglicherweise mit echt, die gucken, wie lange die Einträge maximal sind, diese da reintun können. Das weiß ich nicht, warum. Aber das werden viele Daten. Das sprengt dann auch von Jahr zu Jahr die Annahme darüber, wie lange so ein Feld in meiner Datenbank sein kann, wenn ich es dann später importiere. Das hat auch dazu geführt, dass eine Neusortierung bei der Deutschen Postreklamme stattgefunden hat. Früher waren die C von vorne. Das heißt, die 1111AAA Aufsperrdienst hat sich auf die erste Seite gemogelt und ist jetzt in Band 2 hinter Z. Viel Spaß beim Umbenennen. Genau. Und was ihr hier gerade seht, ist das Ergebnis von jetzt 16 Jahren weniger Forschung, aber 16 Jahre Aufräumen. Man kann inzwischen mit einem Skript, den ich auch hier hingelegt habe, jede beliebige CD oder DVD in seinen Laufwerk reinschieben. Dieses Skript läuft durch und am Ende liegt dort ein sortiertes, mit einzelnen Spalten benanntes, eine Sammlung von Pfeils rum, in der dann eure CD oder DVD gedammt ist. Dieses Skripte funktionieren auf den Telefonbüchern, die funktionieren auf den gelben Seiten, was eigentlich auch nichts weiter als ein Telefonbuch, aber mit noch großen Branchenindex, der irgendeine Hierarchistin sortiert ist, aber quasi dasselbe Format. Und für unsere österreichischen Freunde, die von, wie ist die Firma? Herold, herausgegeben wird. Herold rausgegebenen DVDs, die kann man damit auch dekomprimieren. So, nochmal. Wir haben da jetzt vier verschiedene binäre Datenformate gesehen, die sich im Laufe der Jahre, die Engineers da ausgedacht haben, um dort jeweils mit dem Mundmotto der Zeit die Daten zu komprimieren. Ich habe zweimal, na ja, Krypto gekrackt. Ich habe 51 Ausgaben in digitaler Form, leider nicht alle in physisch, weil so gerade die Älteren nur in Bibliotheken, in Glasschrank, mal höchstens so auf einem Saton-Kissen zum Auslesen, die hergegeben und gleich wieder angesagt werden. Und wir haben, wenn wir uns die letzten Jahre angucken, auch für die Felder, die da in diesen, ich sage da ja so 11 bis 13 Spalten fallen daraus, diese Mann-Dink, die wackelt der Wild durcheinander, kann ich mir noch später was dazu sagen. So, jetzt die Frage, warum tun wir das? Meines Einfaster wäre einfach zu sagen, irgendwelche Hacker werden immer was hacken, wenn so eine Defolie da rumliegt und die auf meinem Rechner drin steckt, dann will ich dann diese Daten auch ran und dann will ich da auch lustige Queries drauf machen. Es gibt Menschen mit auch noch detaillierteren Hobbys. Genau, und dazu vielleicht ganz kurz eine Aussage zu Telefonvorwaltbereichen und der Struktur von Rufnummern. Deutschland ist unterteilt in 5.202 Telefonvermittlungsstellen in entsprechend 5.202 Ortsnetz-Kennzahlen, zum Beispiel 03307 für Mildenberg, wo wir hier gerade sind. Die sind historisch gewachsen, das Schöneste ist früher, die tatsächliche Leitung physisch doch geschaltet wurde und das waren mechanische Hebdrehwähler, Geräte, die sich um die jeweilige Anzahl der jeweiligen Ziffer der Telefonnummer weiterbewegt haben und dann auf eine entsprechende Leitung in diese Richtung geschaltet haben. Die Älteren von euch mögen sich an das Klackern im Telefonapparat erinnern. Das sind tatsächlich mechanische Komponenten, die diese Verbindung dann durchschalten. Und die waren optimiert, und das sieht man hier in dem Bild schön, die waren optimiert darauf, weil je mehr Takte man wählt, desto länger dauert es auch, dass diejenigen Anschlüsse, die oft angerufen werden, entsprechend kurze Wege haben und entsprechend in kurzer Zeit angerufen werden können. Deswegen zum Beispiel die jeweilige Bundesregierung in 0228 saß. Es ist halt nur zwei Takte, die nicht so dicht besiedelnden Regionen in Südde und Nordbayern haben dann die 8 und die 9. Da kann es ruhig mal dauern, da ruft man nicht so viele Leute an und da sind auch die Rufnummern kürzer. Und warum muss das schnell gehen? Zeit war Geld. Weil jeder Klick war einmal schon eine belegte Leitung, die einfach kein Geld generierte, weil gekostet hat es erst, wenn man verbunden war und wenn man eine Nummer angerufen hat, dann war ab dem Moment, wo man die Leitung belegt hat, bis der Koal verbunden war, hat die Post noch bezahlt. Ab dann hat man selber bezahlt. Also wollten die darauf optimieren, so schnell wie möglich die Kosten für die belegte Leitung auf den Teilnehmer umzuwälzen. Das ist wie gesagt auch ein historischer Rückblick. Dieses Hobby stirbt aus, aber es ist beeindruckend zu sehen, so fernmälde Geschichte, die ja auch immer mit dem Klub verbunden war in so einer Datenbank. Und wir haben lange, lange, lange Nachts auf diese Daten gestartet. Der Dampf heute war um 10 Uhr morgens. Der Dampf beim letzten Mal haben wir in den Slides vom letzten Mal gesehen war um 3 Uhr 30 morgens. Das ist schon auch ein merkwürdiges Hobby. Wir haben jetzt noch einen Dampfer. Vielleicht ganz kurz, was ist in dieser Ortsnetz-Kennzahl? Das ist das kanonische Format einer Rufnummer. Es gibt die Landesvorwahl. Die ist ein bis drei Stellen lang. Dann kommt die Ortsnetz-Kennzahl. Das hängt von der Ausgestaltung des lokalen Rufnummern-Raums im jeweiligen Land über den E164-Plan. Der Einsehbar ist ab. In diesem Fall ist die Ortsnetz-Kennzahl die 4.0 für Hamburg. Das ist der Chaos-Computer-Club e.V. in Hamburg. 4.0 sagt uns historisch betrachtet, dass es sich um einen Anschluss handelt, der in der Vermittlungsstelle 40 ist. Und die Vermittlungsstelle 40 ist in Eimsbüttel, in der Emilienstraße 9 bis 11 oder so. Um das Eck vom Klub früher. In den Zeiten vor der Rufnummern-Partabilität. So war auch immer diese Geolokation ein bisschen mit in die Rufnummer codiert. In der Rufnummer wurde es schon im analogen Telefon-Buch geguckt. Wenn man wusste, Schulze wohnt in Zehlen, dann ging man so lange, dass man eine Rummer hatte, die mit 8.3.1 angefangen hat. Aber das geht sehr viel besser, wenn man das digital macht. Die Einschränkungen, die einem diese DOS-Software gegeben hat, haben dazu geführt, dass sie gesagt haben, Gerebb geht einfach schöner. Vor allem geht es so ein Gerebb schöner, wenn ihr einen Anruf habt. Die Gerebb ist auf der Bordmittel nachgebaut. Dazu vielleicht auch noch ganz kurz, wenn ihr euch deutsche Städte anguckt, das kann man sich auch schön plotten aus diesen Daten. Seht ihr, dass in der Regel die 1.1 es vorbelegt für besondere Dienste, die kurz angewählt werden müssen. Beispielsweise 1.1.2, die Feuerwehr, 4-Takt-Im-Analogen-Netz. Und ganz oft ist die Innenstadt 21. D.h. das Rathaus hat dann z.B. die 2.1.1. Die 2.1.3 in Bonn kamen das gut. Die fingen alle mit 1 an. Dann hat man den Rufnummernbereich und dann kann man über den sortieren. Dann haben wir uns gedacht, was machen wir jetzt mit diesen Daten? Wir gucken einfach mal rein. Erste grobe Analyse, mal zu schauen, was Leute einfach wirklich über sich selber ins Telefonbuch dahintragen. Das sind so reale Einträge, die wir da gerade vorfinden. Wir haben uns in ein paar Minuten weg ins Telefonbuch reintragen. Das ist bei der ersten Grobsichtung gleich aufgefallen, wie große Mengen Diplom-Ingenieure. Den Leuten ist es wichtig, dass in dem Telefonbuch das damals so, dass es so was wie Studievz, aber nicht freiwillig. Also für die jüngeren Leute. Es ist doll wichtig, dass das so wie ein Konversationslexikon deiner Stadt, wer es wer und wenn man da im Telefonbuch drin steht, dann steht man da aber auch vollständig mit all seinen Titeln. Und wenn man nicht nur Banksparkassen, direkt da gibt es auch ganz viele, Kapelmeister haben wir gefunden. Es ist ein Quell der Freude, allein mal aus zeitgeschichtlichen Erwägungen durchzugehen. Wir haben auch noch ein paar Adressen drauf zu gucken, nach diesen Adressen mit kleinen Skripten, die schon nicht besonders viel können müssen. Ich habe ein Schelz-Skript geschrieben, was nichts weiter gemacht hat. Als Sortiermal aus allen Adressen, diejenigen raus, an denen nur ein Nachname dran hängt. Die Blauen sind alle Adressen, und die Pinken sind, da hängt nur ein Nachname dran. Da sieht man ganz klar den Speckgürtel um Berlin rum. Und was eigentlich mein Plan noch für diese Präsentation war, war, einen kleinen Film daraus zu machen über die Jahre, dass man mal so guckt, wie der Speckgürtel wächst. Das Skript liegt leider nur halb voll rum, aber das mache ich noch fertig. Kommt dann demnächst auch in meinem Blog. Und man kann mit so Heatmap-Tools, dann auch so Dinge plotten, kleines Rätsel an euch. Wir finden ja Empirie ganz gut. Ich habe auch Politikwissenschaftsstudie, dass wir mal gut zu sehen, so was passiert in diesem Land da draußen. Wir treffen unsere Annahmen zu, zumindest in erster Nährung. Das ist ein ganz gutes Instrument. Und da haben wir was gemalt. Wir lösen auf. Das sind all die, die im Telefonbuch das Fleck hatten, dass sie die Entwärtssuche widersprungen haben. Das steht dann natürlich mit drinnen, weil müssen sie ausliefern, dass die Entwärtssuche verhindert werden, dass in der Rückwärtssuche sie mit auftauchen. Und das gibt ein schönes Bild, wo das, was wir den Leuten gesagt haben, schreibt die Briefe bitte, wenn euch da eure Privatsphäre wichtig ist. Bei denen hat es gefruchtet. Wir sehen da eine große Ballung in den großen Städten. Wir haben alle Personen, die promoviert haben und das haben ins Telefonbuch eintragen, im Telefonbuch zu überlegen. Wir haben auch eine große Ballung mitpablektive. Wir haben ein ganz gutes Telefon, das wir in der Rückwärtssuche haben. Wir haben ein paar neue Regen, das wir im Telefonbuch haben. Wir haben eine neue Ballung, das wir im Telefonbuch haben. Wir haben eine neue Ballung, das wir im Telefonbuch aber die tragen uns ja trotzdem, sind auch im Telefonbuch, haben wir mal geguckt, wo unterdeutsche Adl denn so entspricht auch ungefähr den Erwartungen, dann haben wir nochmal geguckt, wo sind denn auch nur erste Nährungen, zum Beispiel typisch türkische Vornamen in der Bundesrepublik, man sieht wie zu erwarten wir auf dem Gebiet der ehemaligen deutschen demokratischen Republik, weniger in den Städten Leipzig und Dresden und ansonsten in Berlin und dort nochmal Granularer, auch erwartungskonform, aber es ist ganz spannend, einfach mal so seine Annahmen explizit zu machen und zu sagen, kann ich das den verifizieren oder falsifizieren anhand der Daten, die ich habe. Wir haben dann versucht es über die Jahre hinweg zu tun, zunächst hatten wir das immer nur für einzelne Jahrgänge und dann als wir die Möglichkeit hatten, konnten wir plötzlich auch Trends und Bewegungen zwischen den Jahrgängen identifizieren, das ist ganz spannend, da kann man zum Beispiel gucken, eine Bundesoberbehörde im Geschäftsbereich des Bundeskanzleramtes zieht von Poulach im Isartal nach Berlin-Lichter-Felde und dann gucken wir mal, die Rufnurmblöcke der Parteruprecht Meierstraße in Poulach im Isartal der Teilnummervermittlungsstelle sind 793, 744 und 749 und die Erwartung wäre, dass diese Menschen dann nach Berlin-Dale im Lichter-Felde Zählenorf ziehen und in der Tat das passiert, also man kann dann so Makro-Trends ableiten, aber es gibt Hürden beim Matchen über die Jahre hinweg. So richtig spannend wird es nämlich, wenn man nicht nur visualisiert, was so große Trends betrifft, sondern wenn man es wieder schafft, auf die einzelne Personen zurück zu matchen, dazu muss man aber diese einzelnen Personen erst mal zwischen den Jahrgängen finden und dort gibt es echt Probleme. Erstens ist schon alleine Orte kein brauchbares Merkmal und wenn die sich zwischen zwei Ausgaben unterscheiden, wenn irgendwie Frankfurt oder Frankfurt am Main steht oder irgendwelche Ortsbestandteile damit dazugetan werden, dann braucht man plötzlich Heuristiken, die machen, dass das Matching nicht mehr so gut wird. Wir haben über die Jahre Korrekturen, dass die First-Mitarbeiter, die damals da an diesen neuen Computern Adressen eintippern mussten, dann kann man sich vorstellen, die haben da irgendwie oft so eine Null-Fühn-O, ist irgendwie schon das Allereinfachste, was man noch ersetzen kann, aber wir haben da Post-Flight-Zahlen in den Hausnummer-Feldern wiedergefunden, was dann auch nicht so leicht rauszusortieren ist, weil die Hausnummer in Deutschland einfach nicht standardisiert oder normiert sind, sondern Hausnummern gibt es im Dielefeld die Null, es gibt negative Hausnummern, es gibt gebrochene Zahlen als Hausnummern, es gibt dort beliebige, na, das einfache Sohne, A bis F noch als Suffix, aber irgendein Versuch, dieses Hausnummern Feld zu standardisen, ist bisher zum Scheitern verurteilt, ich habe da so eine sehr grobschlechtige Heuristik dann gebastelt, um das wenigstens grob zwischen den Nagegängen hinzubekommen in den früheren Ausgaben. Ihr hattet das vorhin gesehen bei der Nummer des Gras-Computer-Clubs, da steht plötzlich ein Kuder drinnen und bis dann mein Freund und Kollege mich aufgeklärt hatte, was dieses Kuhl bedeutet, habe ich auch gedacht, jetzt muss ich erst noch alle Großbuchstaben daraus greppen. Es war auch schade, weil da Informationen mit drinstehen und dann wurde ich auch nochmal darauf hingewiesen, dass so Dinge wie D1, FU, was damals die erste Version des Funktelefons im Auto war, dass die zum Beispiel gar keine Vorwahl haben, weil die Signalisierung in diesen Auto-Telefonen war so einfach, du musst grob wissen, in welchem Vorwahlenbereich gerade das Auto fährt und dann kannst du das durchprobieren, diese D1-Fu-Nummer innerhalb dieses Vorwahlenbereichs anzurufen und dann erreichst du den. Das heißt, so ein wirkliches Geomapping dann auf die auf die Region ist da quasi unmöglich. Und was dann dazu kommt, ist so diese 51 Ausgaben A, was haben wir gesehen, maximal 38 Millionen Teilnehmer. Das ist echt schon viel Holz, das ist viel I.O., das heißt, einmal auch nur die Dinge auszupacken von den DVDs, dauert halt so einen Lauf einfach mal ein halber Tag, bis die Daten dann wieder rumliegen und dann muss man mit denen irgendwas machen, damit man möglichst einfach nachgucken kann, also analysieren kann und gucken kann, ob zwei aufeinanderfolgende vielleicht irgendwie so ähnlich sind, dass es dieselben sind. Das ist aber bei so knapp zwei Milliarden Records. Da ist allein der Index da drauf schon zu groß für meinen Ramm hier drin. Und SSD war zur Zeit, wo ich angefangen habe, damit zu spielen, echt teuer. Und da ich herausgefunden habe, dass diese Telekom, die ja früher über den Post war, schon so ein Ordnungsmerkmal erfunden hat, mit dem man kleine Chancen da rausschnippeln kann, in denen ungefähr mal dieselbe Menge von Personen oder Anschlüssen oder Adressen drin waren, das ist einfach die Postleitzahl. Es ist ganz praktisch, solange die Postleitzahl da dran hängt, kann man die Postleitzahl einfach nehmen und danach sortiert man dann einfach in so große Files ein. Es gibt so knapp, ich glaube, 21.000 vergebene Postleitzahlen im Telefonbuch und da wären die halt nie größer als so 100 Megabyte. Und das ist dann schon das Extrem. Und die kann man dann einfach da drinnen schön sortieren nach den Records. Und dann hat man eigentlich schon mal gute Anhaltspunkte, um nachzugucken, ob zwei aufeinanderfolgende Records dasselbe sind. Das einzige Problem ist, ich hatte kurz davor den 1992er Telefonbuch zu denen in die Hand bekommen. Und da war es zwischen 1992 und 1995 ist einiges passiert. Da war vorher dieses Ereignis Wände und sie haben plötzlich sowohl Postleitzahlensysteme als auch Vorwahlensysteme zusammenwerfen müssen. Als auch Rufnummernsysteme. Uns, ihr habt in dieser Zeit große Mengen Straßen unbindern. Da gab es so Kommunistenführer aus Bulgarien, die in einigen Regionen Straßennamen abbekommen haben. Diese Postleitzahlen haben sie sich ja lange darüber gestritten, weil im Osten wie im Westen haben sie so ein Schneckensystem gemacht, gegen das Uhrzeigersystems, die Postleitzahlen zu vergeben. Begab es die dann einmal in W minus vierstellig, in O minus vierstellig. Und die gab es dann teilweise Konflikte und sie haben grob noch darüber nachgedacht, die einfach zu merken und nur die zu renambern, die jetzt konfligieren würden, haben sich dann aber um entschieden. So dass mir denn aufgefallen ist in der Recherche, dass so zwischen 1992 und 1995 in einigen Gegenden Hellersdorfs zum Beispiel so ein Mensch kann man sich vorstellen, hat gerade ein neues System abbekommen, ist vielleicht gerade auch noch ein neues Beruf, wenn überhaupt und plötzlich kommt die Bürokratie her, boppt neue Postleitzahlen, boppt neue Vorwahl, boppt neue Telefonnummer, neue Straßennahme und wenn er Pech hatte, auch noch eine neue Hausnummer. Das macht es mich natürlich dann extrem hart, diese Einträge dann über die Jahre zu folgen. Und ganz ehrlich, die beste Regex fängt euch sowas wie vorhin, Graf-Auto-Telefon von einfach nicht ab. Das kriegt ihr nicht gefasst und wenn jeder Run, wenn jedes wir gucken, um welche Annahmen wir getroffen haben, wir machen noch einen neuen Run und wenn jeder Run einfach wirklich lange dauert, weil zwei Milliarden Records erstaunlich lange dauern, man glaubt das gar nicht, dann wird es langsam schwierig zu sagen, na ja, gut, wie oft kann ich das verfeinern? Im 92er-Telefon muss auch noch das Problem, dass da Rufnummer in die Mitte 37 beginnen, weil es sich bei der Landesvorwahl damals noch um die Landesvorwahl der Deutschen Demokratischen Republik gehandelt hat. Das heißt, das macht das Match in der Telefon, wenn man nicht leichter, dann wurden zum Teil die Rufnummer verlängert oder die Teilnehmervermittlungsstellen wurden umgestellt. Und dann überlegt man sich, na gut, irgendein Kriterium brauche ich ja noch, um das Matchen zu können. Die Straße fällt weg, die Postleitzahl fällt weg und dann gibt es einfach Doppelungen, die kriegen wir nicht gefasst. Und manche davon, wir gucken uns natürlich dann auch von Hand an, starren nachts beim Bier ab und zu mal auf diese Records. Und das ist dann doch manchmal ganz schön heiter zu sehen, so was passiert eigentlich in Werniger Rode, heißt die Karl-Marx-Straße nach der Wendeplätze-Ich-Holz-Weg. Na ja. So, mir war ja ganz deutlich wichtig, dass ich jetzt bei diesem zusammenfassend, bei diesem Verfolgen von Einträgen über die Jahre, dass ich gerade dieses spannende 92er-Ausgabe nicht einfach hinten unterfallen lasse und habe mich dann hingesetzt und habe ein größeres mächtiges Grip geschrieben, was versucht einfach per Brutforce in der nächsten Ausgabe, die dann die 95er-Ausgabe war, dieselbe Person zu finden. Wenn wir die Postleitzahl einfach mapen könnten, diese Postleitzahl, die links seht, die ist schon gemapped, das ist dann aus meinem Skript rausgefallen, damit ich einfach mapen könnte, dann wäre es recht einfach. Aber es gibt kein digital verfügbares Mapping von alter Postleitzahl-Straße-Hausnummer auf neue Postleitzahl-Straße-Hausnummer. Das konnte ich aber dann aus diesem Telefonbuchdaten erzeugen, indem ich einfach mal gesagt habe, na gut, dann gehe ich mal Hardcore vor und sortiere die erst mal nach der Vorwahl und nach der Rufnummer und nach dem Straßennummer und nach der Hausnummer und nach dem Vornamen und trage die einfach eine große Liste ein und dann gucke ich, wenn ich die aus 95 zu einer Postleitzahl mapen kann und ich finde genau dieselben Daten, dieses Sextubel vor auf eine alte Postleitzahl, zack, habe ich im Mapping. Das ist schon mal perfekt. Und wenn ich es nicht finde, dann fange ich von hinten an, Dinge wegzunehmen und gebe dann ein bisschen schlechtere Scores pro schlechteren Mapping und habe dann ab irgendwann, wenn ich nicht mal mehr Straßennahme und Hausnummer mapen kann, dann ist was komisch. Und dann habe ich wahrscheinlich entweder den korrigierten Straßennamen oder ich habe eine Straßennummer umbenennung. Ich wollte dann noch wieder darauf finden, dass wenn zum Beispiel viele Personen gleichzeitig aus einem Jahrgang, aus einem Haus mit der Hausnummer in eine andere Straße, mit derselben Hausnummer umgezogen sind, dann war das entweder ein großer Ringtausch. Sehr unwahrscheinlich, also eben die Straße umbenannt. Wenn wir mal nachgucken, ist der alte Straßennamen oder neue Straßenname einigermaßen ähnlich. Dann ist es wahrscheinlich einfach nur ein Type, wo der gefixt ist oder so in München haben sie die FIJ Straßstraße in Franzios auf Straßstraße umbenannt. Und da gab es das große Problem, dass die meisten String-Ähnlichkeitsalgorithmen gar nicht darauf ausgelegt sind, so auf zwei Strings im Telefon, wo zu gucken, ob der Straßennamen ähnlich ist, muss dann am Ende drei von diesen mächtigen Algorithmen miteinander kombinieren, um dann genau dieses Ergebnis da rausfallen lassen zu können. Ich habe jetzt einen Mapping. Ich habe mich eigentlich auch mal veröffentlicht in dem Repro von alten Prosterzahlen auf Neue mit Hausnummer Genauigkeit und konnte dann endlich weitermachen. Weitermachen heißt, ich habe es in eine SQL passbare Form überführt, was auch nicht so einfach ist, weil wenn man an so ein altes Telefonbuch da reinguckt, was ihr da so links oben seht, die Treuhand Anstalt, zum Beispiel, das ist so eine Zeile im Telefonbuch. Treuhand Anstalt, 10, 20 Prosterzahlen, Alexanderplatzstraße, Sechste Hausnummer und danach die Telefonnummer. Und danach kommt auch eine Zeile. In der Zeile steht nix drinnen, außer eine neue Telefonnummer. Und danach kommt noch eine Zeile, das bürger Telefon geht implizit davon aus, dass es weiterhin zur Treuhand Anstalt gehört. Jetzt steht die Adresse da nochmal drinnen, aber hat wieder eine andere Telefonnummer. Noch eine Zeile, nochmal ein Verweis woanders hin. Keinerlei sementische Zusammenhänge, aber diese Zeilen gehören irgendwie zusammen und muss man einsortieren in seine Datenbanken, was ein bisschen harig ist. Was ist, wenn da jetzt unterschiedliche Prosterzahlen, sowie evangelische Kirche zum Beispiel in einem großen Bereich, hat dann auch gleich mal für so eine Region 50 verschiedene Prosterzahlen, wo sie ihre Kirche da drin hat und alles unter einem Eintrag, was dann wieder das Einsortieren schwierig macht. Und ich habe die dann erst mal nur nach der Prosterzahl die ersten Zeile einsortiert, die in den meisten Ausgaben direkt dran steht. Und das fühlte dann zu so links oben ist das Datenbankschema, was dann einmal Arrays von innerhalb von einzelnen Kolums macht, was macht, wenn ich das einsortieren muss, dass ich für eine brauchbare Volltext suche, so ein Trigramm von Postgres eignet sich da gerade noch am besten, muss ich diese Arrays wieder auseinanderpropeln. Was ziemlich schade ist, wo ich gerne auch Feedback entgegen nehme, ob man das cooler abbilden kann. Also was ihr hier gerade seht, ist links die Tabelle aufmachen, rechts einmal alles aus den Tabellen in eine extra String-Index-Tabelle reinsortieren, auf den ich danach dann da unten diese Trigramm-Index darauf mache, um dann am Ende mit einem großen Inner-Join darauf suchen zu können. Aber das ist alles noch nicht schön, das ist vor allem nicht schön, weil ich ja eigentlich dieses Umbau und SQL-Datel gemacht habe, das Wissenschaftler und die Presse von mir einfach nur noch eine große Datenbank bekommen können, um dann ihre Rechargen darauf zu machen, weil einige von den Dingen, an denen die da forschen wollen, will ich gar nicht wissen. Und es wäre cool, wenn die nicht mal bei mir ankommen und von mir wollen, dass ich in das Kripte schreibe. Für uns habe ich dann zwischendurch mal so ein Web-Interface gebaut, was ihr da sehen könnt, wo die Suche da drinnen innerhalb einer kleinen Flask-Aplikation schon auch die Query so zusammenbaut, dass man da unten die Ergebnisse sieht. Man sieht, dass da so eine Person zwischen 1997 und 1998 in Jena gewohnt hat. Das sind also die post-plazialen Bücher, in die Sie meldet, es ist eine Zeit, die die Reversuche nicht widersprochen hätte. Ich hätte an Ihrer Stelle vielleicht getan. Und das ist das jetzt, wo wir und unsere Freunde von der Presse recherchieren können. Das hat sich erstaunlich dargestellt. Für uns war das ein beklopptes Nerd-Hobby, das man macht, weil es relativ günstig war. Das kostet im Halbjahr ungefähr 25 Euro und viel Zeit. In der Summe waren es, dann haben wir heute festgestellt, doch ungefähr 2.000 Euro, die wir da investiert haben, plus diesen Computer, aber immerhin. Aber es gibt erheblichen Bedarf, insbesondere in der Presse historische Analysen zu machen. Dann guckt man mal, was für Leute machten das noch so? Wir haben wahnsinnig viel gefunden bei Genialogie. Es gibt offenbar Religionsgemeinschaften, die nach dem Telefonbuch taufen, hiermit taufe ich dich. Müller Herbert, wohnhaft in der Straße, ruf nochmal hiermit taufe ich dich, Müller Heinrich. Die scannen inzwischen Adressbücher aus den 30ern ein. Die gibt es dann auf den entsprechend verlinkten Seiten bei denen. Und die spenden die auch. Die Zentral- und Landesbibliothek in Berlin hat freundlicherweise angefangen, uns die Papierbestände zu erleichtern, weil sie aus den 60ern angefangen haben, einfach Telefonbühre zu scannen, Seite um Seite, um Seite, um Seite, schöne Grüße an den Praktikanten. Und es ist aber einfach angenehmer, das digital durchsuchbar zu machen, statt sich Seite um Seite zu klicken, was aber immerhin angenehmer ist, als in eine andere Stadt zu fahren und im Telefonbuch zu blättern und zu gucken, wo war denn die Vigene, je nach eigentlich Vorbereitung der Recherche. Aber das wirft natürlich Fragen auf, nämlich rechtliche und ethische Aspekte und das Tolle ist, viele von denen wurden im Club schon mal diskutiert auf dem Eften-Couse-Communication Congress. Gabs an Tag zwei einen längeren Workshop zu Telefonbuch-CD-Rom-Sicherheit und Datenschutz fragen, weil ja jetzt eine Telefonbuch-CD-Rom rausgekommen ist. Das sind auch so Langfrist-Trends, die uns da offenbar begleiten. Was man damit machen kann, können wir leider in der Kürze der Zeit nicht mehr erzählen, haben aber beschlossen, draußen befindet sich so ein praktischer Telekom-Wagen. Es gibt leider keine Telefonzelle mehr, sonst hätten wir gesagt, lasst uns an der Telefonzelle treffen. Für diejenigen, die es noch interessiert, treffen wir uns einfach draußen an dem LTE-Verstärker an der mobilen Basis-Station. So, so ein Birds of Feather, wo all die Fragen, also all die Details, die ich gerne erzählt hätte, wo ich hoffe, dass vielleicht der eine oder andere noch mal eine Nachfrage hat, beantworte ich dann gerne. Vielleicht hat jemand Ideen, was man mit diesen Daten noch visualisieren kann, wer da drauf forschen sollte, der die noch nicht hat. Wir haben das große Problem, dass das Datenschutzaspekte berührt aus guten Gründen. Dieses Inversuche widersprechend Fleck ist aus genau Datenschutzgründen auch dort draufgepackt worden. Wir wollen auch nicht, dass einige Menschen, die Werbung an den Mann bringen wollen, da jetzt eine digitale Fundgrube haben. Deswegen geben wir diese Daten auch nicht einfach so raus. Es gibt Menschen, die nicht vertraue, dass sie damit umgehen können. Einige Wissenschaftler haben die Daten bekommen. Einige Pressevertreter haben die Daten bekommen und ich lade auch dazu ein, wer da gerne dran forschen möchte und den Grund benennen, glaubhaft benennen kann, auf diese Daten mit mir zusammen drauf zu gucken. Und euch danken wir für die Aufmerksamkeit und treffen uns dann vielleicht gleich draußen auf dem Bier. Vielen Dank, Erdke Sunder Reels.