 ist Data Scientist. Und der ein oder andere kennt ihn vielleicht noch vom 31 C3, wo er den relativ bekannt gewordenen berühmten Xerox Scanningbug-Vortrag gehalten hat. Diese hat ihn offensichtlich nicht nur hier bekannt gemacht, sondern sogar auch zur internationaler Bekanntheit verhelfen. Und damit begrüße ich ihn und freue mich auf einen spannenden Talk und bitte euch nochmal um ein ganz ganz herzlicher Applaus für David. Danke schön. Ja, danke schön. Herzlich willkommen auch noch mal von mir, auch an die Leute im Internet und auch an die Leute vom Spiegel, von denen ich weiß, dass sie anwesend sind. Es ist schön wieder hier zu sein. Mein Name ist David Kriesel. Ich bin Informatiker aus Bonn und ich mache beruflich, es wurde schon gesagt, Data Science und Machine Learning. Und salopp gesagt versuche ich für meine Arbeitgeber, aus großen Datenmengen Wissen zu ziehen. Und seit 2014 habe ich knapp 100.000 Artikel von Spiegel Online Gevorratsdatenspeichert. Und das habe ich einfach niemandem erzählt. Und während ich da so zweieinhalb Jahre sitze und das niemandem erzähle, ist die Stimmung medial irgendwie umgeschlagen. Vor zweieinhalb Jahren war die Welt noch in Ordnung und heute ist die Rede von Lügenpresse und Fake News. Und genau aus dieser Zeit des Stimmungsumbruchs haben wir jetzt einen riesigen Datensatz über den vielleicht größten Meinungsmacher unserer Nation. Und mit diesem Datensatz werden wir heute zwei Sachen machen. Erstens, wir werden den Datensatz durchleuchten und was über Spiegel Online lernen und zwar so, dass ihr das auch mit nach Hause nehmen und beim Lesen dann anwenden könnt. Und zweitens, wir werden Einblick erhalten, wie die Datensammelwut von heute funktioniert und wie mächtig oder vielleicht auch nicht mächtig die ist. Und das machen wir so, dass es für jeden Verstehbar ist, nicht nur für Informatiker. Und zusätzlich werde ich wie meinem letzten Vortrag vor zwei Jahren ein bisschen aufs gesellschaftliche eingehen und wir werden an ein paar passenden Beispielen beleuchten, wie die moderne Datenverarbeitung unsere Gesellschaft beeinflussen kann. Und ob wir die Welt mit dieser allumfassenden Datensammelwut besser oder schlechter machen, das kann dann ja später jeder von euch für sich selbst entscheiden. Am besten fangen wir an, indem ich kurz beschreibe, wie genau Spiegel Mining funktioniert. Rund um die Uhr, alle paar Minuten schaut einer meiner Server voll automatisch auf Spiegel Online nach, ob dort neue Artikel stehen und werden neue Artikel gefunden, dann werden die runter geladen und abgespeichert. Und auf diese Weise hat der Datensatz einen coolen Vorteil, der jetzt vielleicht nicht sofort ersichtlich ist. Ich erhalte neue Artikel binnen Minuten, nachdem sie veröffentlicht wurden. Das heißt, ich kriege die im Originalzustand, also vor allen Verbesserungen und Änderungen, die im Nachhinein vorgenommen werden. Und das ist natürlich viel aussagekräftiger, man erhält einen unverfälschten Eindruck. Und es ist nicht so, wie man Artikel runterlädt, die vielleicht schon Jahre alt und tausendmal editiert sind. Aus den runtergeladenen Artikeln lese ich dann sogenannte Features. Feature ist einfach das Fachwort für ein Artikelmerkmal, ganz einfache Features eines Artikels können zum Beispiel der Veröffentlichungszeitpunkt oder die Rubriksein, in der der Artikel steckt. Und die Features nehme ich dann und mache damit Auswertungen. Vor denen sehen wir heute noch ein paar. Und die Interessanten unter den Auswertungen nutze ich dann, um auf meiner Seite eine Blockartikel-Serie zu schreiben und meinen Lesern einen Einblick in Spiegel Online und in die Data Science gleichermaßen zu geben. Und das war es. Spiegel Mining in wenigen Minuten. Am Anfang machen wir jetzt ein paar sehr einfache Auswertungen. So sehen wir, wie das funktioniert und verschaffen uns gleichzeitig so einen Überblick über Spiegel Online und als erstes zählen wir mal, wie häufig die einzelnen Rubriken so vorkommen. Das ist die Ansicht. Die Größe der Kreise gibt die Artikelanzahl pro Rubrik wieder. Und wie wir sehen wird Spiegel Online dominiert von Politik. Das ist der große rote Kreis rechts oben, vom Panorama. Das ist der grüne Kreis in der Mitte und vom Sport. Das ist der fliederfarbene Kreis ganz unten. Ich weiß, was Fliederfarben ist. Ich höre schon Leute. Also die drei Rubriken, die machen zusammen die Hälfte der Artikel aus. Und das nächste super einfache Feature ist der Veröffentlichungszeitpunkt von jedem Artikel. Damit messen wir jetzt einfach mal, wie viele Artikel Spiegel Online am Tag so schreibt. Der Plot sieht jetzt richtig, richtig krass unordentlich aus, dass man da fast keine Werte erkennen kann. Das liegt an den Wochenenden. Und da wird um die Hälfte weniger veröffentlicht als normal. Und deswegen schwankt das so krass. Und hier gibt es dann auch gleich den ersten Bericht außer Praxis. Wie man deutlich sieht, habe ich Anfang März 2015 ein paar Tage Loch in den Daten. Und der Grund ist, dass der März ein Monat mit äh ist. Also mir ist das nach kurzer Zeit zum Glück aufgefallen. Also wenn ihr Daten aufnehmt, dann programmiert euch bitte mal irgendeine Form von Warnsystem, das anschlägt, wenn länger keine Daten mehr eintrudeln. Ich hatte das zum Glück und das hat mir hier sehr geholfen. Und jetzt schlägt es in ein paar Minuten an und da hatte ich irgendwie so paar Tage, keine Ahnung, zurück zum Plot. Wegen der Unordnung mit den Wochenenden ändern wir jetzt unseren Plot und berechnen statt den Artikeln pro Tag. Jetzt die Artikel pro Woche. Und man sieht jetzt auch was. Und da sehen wir das Spiegel online im Schnitt so 700 Artikel, die Woche veröffentlicht, also so 100 am Tag. Und das ist schon ziemlich viel Output. Übrigens, die beiden krassen Einbrüche, die ihr hier seht, das sind die Weihnachtswochen. Da wird weniger veröffentlicht und der Datensatz für diesen Vortrag ist vom 4. Dezember. Deswegen ist dieser Weihnachtslow dieses Mal einfach noch nicht drin. Und wir haben jetzt Features einzeln betrachtet, aber richtig interessant wird es, wenn wir Features zusammen betrachten. Wir verwursten jetzt also mal Veröffentlichungszeitpunkt und Rubrik zusammen. Und dann können wir sehen, dass beispielsweise der Output in den Rubriken, Panorama und Politik stabil ist, während Wissenschaft und Spiegel, Unispiegel ganz schön zusammengestrichen wurden. Das gilt übrigens in abgeschwächter Form auch für andere Ressorts. Solche Infos, welche Ressorts gerade gerupft werden, sind zum Beispiel relativ interessant, wenn man Konkurrent von Spiegel online ist. Das kann man ohne weiteres auslesen. Und wir sehen, geschickt Features ausdenken und zusammen stöpseln ist die halbe Welt. Jetzt nehmen wir mal die Textlänge der Artikel dazu. Hier sind die typischen Artikellängen im Spiegel angegeben, und zwar pro Rubrik. Und man sieht, dass der typische Kulturartikel fast dreimal so lang ist wie der typische Panorama oder Sportartikel und immerhin noch doppelt so lang wie der typische Politikartikel. Und jetzt hatten wir schon gesehen, dass Panorama, Sport und Politik trotz ihrer kurzen Artikellängen genau die drei dominierenden Ressorts sind. Und daraus können wir folgern, dass Spiegel online ist eher auf Reichweite anlegt und auf Aktikungsbreite als auf Tiefe. Die Strategie, Reichweite um jeden Preis, scheint Spiegel online auch noch so zu verstärken. Die zusammengestrichenen Rubriken waren alles welche mit eher langen Texten. Und bevor das jetzt hier falsch ankommt, ich sage das ohne jede Wertung im Sinne von gut oder schlecht. Das ist ja eine valide Strategie für ein Medium und ich beschreibe einfach nur gemessene Daten. Und das ist keineswegs der Zweck der Veranstaltung irgendwie substanzlos in Richtung von Spiegel online zu haten. Wer hatet wird nicht ernst genommen. Das habe ich ja im letzten Vortag schon ausführlich beschrieben. Und die meisten Sachen, die hier im Vortag noch kommen, denkt daran, die sind bei den anderen wahrscheinlich ähnlich. Wichtig ist auch, dass man mit den Features experimentiert. Hier ist zum Beispiel ein Diagramm, das zeigt das Veröffentlichungsvolumen pro Wochentag und Stunde. Die Zeilen sind die Wochentage und die Spalten sind die Stunden eines Tages. Pro Wochentag und Stunde sehen wir einen Block und in den großen Blocken sind viele Artikel erschienen und in den kleinen wenigen. Und jetzt lernen wir daran mal, wie es in der Data Science zugeht. Erstens. In der Data Science findet man immer wieder Botschaft bestätigt, die man vorher schon erahnt hat. Das ist der langweilige Teil der Data Science. Aber das ist gut, um die eigenen Messverfahren zu überprüfen. Wir sehen hier, zu den unkristlichen Zeiten wird viel weniger veröffentlicht. Bahnbrechende Erkenntnis, auch der Spiegel online Redakteur möchte mal schlafen. Zweitens. In der Data Science findet man aber auch immer wieder Systematiken da, wo man keine erwartet hat. Und das passiert oft dann, wenn man Features verbindet. Wir färben jetzt mal jeden dieser Blöcke ein nach der typischen Textlänge. Rote Blöcke enthalten typischerweise lange Texte und blaue Blöcke eher kurze. Und zack. Es gibt einen klaren Zusammenhang zwischen Tageszeit und Länge der Artikel. Ja, für mich als Nichtjournalisten war das damals überraschend die typische Länge der veröffentlichten Artikel. Die ist von Montag bis Freitag zwischen 5 bis 6 Uhr früh am größten. Das gleiche am Wochenende. Hier gibt es zum Tagestart auch nur längere Artikel, ein bisschen später natürlich. Und das Rätsellösung zu diesem Phänomen kommt später noch. Und als Drittes ist die Data Science natürlich auch dazu da, fieseste Vorurteile zu schüren. Ich führe euch das mal vor. Jetzt gibt mir bitte mal ein Handzeichen. Wer von euch denkt, dass die Leutchen aus dem Kulturresort morgens bitte gerne ein bisschen länger pennen als die anderen. Also vielleicht fürs Internet, wir haben einen Raum von 1600 Leuten, der ist poppenvoll und fast alle am die Hand gehoben. Und die Lösung ist, stimmt. Die Kulturwissenschaftler, die Kulturwissenschaftler veröffentlichen typischerweise später. In der oberen Verteilung sind alle Artikel außer Kultur. Da ist ab 5 Uhr morgens Aktivität und in der unteren Verteilung sind die Kulturartikel. Da geht es mindestens zwei Stunden später los. Aber zum Ausgleich gehen die auch früher nach Hause. Aber damit wir hier nicht wirklich Vorurteile schüren, ich war bei Spiege Online eingeladen im Oktober und da habe ich das auch so gesagt. Und dann haben sie gesagt, David, nein, nein. Manche Artikel werden natürlich auch verabgescheduled. Das will ich erfährerweise dazu sagen. Und ich mache das auch als Ermanung, dass ihr, wenn ihr daran arbeitet, immer noch mal selbst nachdenken müsst, was ihr aus solchen Auswertungen wirklich vollgang könnt. Besonders dann, wenn ihr schon mit dem Vorurteil da reingegangen seid, so wie wir jetzt. Und wir haben gerade gesehen, wie solche Auswertungen grundsätzlich funktionieren. Also können wir jetzt einen Schritt weitergehen. Und im Internet wird es ja immer genau dann besonders knusprig, wenn personenbezogene Daten ins Spiel kommen. Also habe ich mir gedacht, es wäre doch mal ein nettes Feature, wenn wir mal die Autoren aus den Spiegelartikeln rauslesen. Und das machen wir jetzt. Und die werden wir gleich auf zwei Arten aus. Die erste Auswertung wird eine ganz neue Auswertung in diesem Vortrag, also eine ganz neue Art. Und die zweite Auswertung wird ein bisschen politisch inkorrekt. In unserer ersten Auswertung werden wir versuchen, Spiegel online interne Personalstrukturen einfach von außen zu lesen. Wenn man zu jedem Artikel eine Liste an Autoren hat, dann weiß man ja nicht nur, wer jeden Artikel geschrieben hat, sondern man weiß auch, wer mit wem schreibt. Und bei Autoren, die oft zusammen Artikel schreiben, dürfen wir davon ausgehen, dass die intensiv zusammenarbeiten. Wir wissen also sozusagen, welche Autoren wichtig für einander sind, was die Artikel angeht. Wer wenig oder gar nicht zusammenschreibt, der ist in dieser Ansicht nicht wichtig für einander. Aus diesen Wichtigkeiten können wir dann eine Autoren-Landkarte bauen. Und hier ist sie. Ja, das ist ein Teil des sozialen Netzwerkes. Der Spiegel online Autoren generiert über die letzten zwei Jahre und jeder Autor ist so ein Bubble und Autoren, die nur ganz selten vorkommen, die habe ich hier gefiltert. Und man sieht genau, dass da Gripchen von Autoren gibt, die sich dichter zusammen tun. Und das sieht aus, als wären es die Teams. Und jetzt müssen wir natürlich kontrollieren, ob unser Durchleuchten von außen auch wirklich funktioniert. Und um das zu machen, färben wir die Autoren mal nach ihren Ressorts ein. Die aus Ressorts, die kriegt man aus dem Spiegel online Impressum. So, und siehe da, in vielen Fällen haben sich tatsächlich die Ressorts vollautomatisch in der Landkarte zusammengetan. Ja, hier in Pink ist Sport, Wissenschaft und Gesundheit, Netzwelt, Politik, bisschen verteilter, habe ich jetzt nicht alle eingekreist, Panorama, Reise. Ich nenne jetzt nicht alle Teams, aber ihr seht das Prinzip. Die hillblauen Verteiltenpunkte, die sind übrigens das Team von Bento, die arbeiten ein bisschen übergreifender. Das ist die Kinderausgabe vom Spiegel, wer das nicht kennt. Und der Punkt ist, der Punkt ist, wir haben wirklich jetzt relativ genau von außen durchleuchten können, wer intern mit wem in einem Team steckt. Und der Witz ist, schaut die ganzen grauen Bubble an. Die sind grau, weil sie nicht mehr über das Spiegelimpressum zugeordnet werden konnten. Das sind zum Beispiel ausgeschiedene Kollegen. Der Spiegelchefredakteur ist kürzlich auch grau geworden. Und das sind aber durch ihre Nähe zu den gefärbten Gruppen, können wir die trotzdem Gruppenteam zuordnen. Wir können also was über die sagen, obwohl wir eigentlich gar nichts über die wissen. Und sowas ist denn interessant. Wir können also einfach live von außen über die Personalstrukturen buch führen. Aber jetzt, ihr wartet bestimmt schon alle zum politisch-inkurrekten Teil. Ich möchte euch nämlich für was sensibilisieren. In diesem Plot ist jede Zeile ein Autor. Und von links nach rechts, da geht die Zeit. Und jeder farbige Strich ist ein vom jeweiligen Autor veröffentlichter Artikel. Und wenn wir die Autoren kennen, und das tun wir ja jetzt, dann wissen wir natürlich auch sehr genau, wer wann veröffentlicht. Wir sehen zum Beispiel diese Zeile mit regelmäßigen Muster. Das ist ein Kolumnist, der veröffentlicht genau im Wochen-Takt bis auf Paar Ausnahmen. Und bei den Leuten, die Tagesgeschehen veröffentlichen, ist die Dichte höher. Und das heißt, wir wissen bei denen umgekehrt auch relativ gut, wann die Urlaub machen. Das sind nämlich die Lücken in den dicht gefüllten Zeilen. Und wenn wir aber die Urlaube ungefähr kennen, dann wissen wir auch ungefähr, wessen Urlaube sich überproportional überschneiden. Sachen wie Weihnachten, die fast alle Urlaub machen, die kann man ja einfach rausrechnen. Und ich appelliere jetzt an eure Berufserfahrung. Und Mutmaßel war ganz wild, dass hier auch schon mal Kollegen hatte, die irgendwie immer gleichzeitig in Urlaub waren. Also Spaß beiseite aus solchen Daten kann man ohne Weiteres lesen, wer mit wem was hat. Jetzt wisst ihr auch, warum ich die Autoren hier anonymisiert habe. Es ist übrigens total klar, dass das, was wir hier finden, nur nicht alles Pärchen sein müssen. Das sind die Pärchenkandidaten. Aber wenn man an der Praxis und sowas interessiert ist, dann ist man damit ja schon mal auf 99 Prozent des Weges zum Ziel. Es gibt Firmen, die werden sowas aus, so illegal das auch ist. Jetzt habt ihr alle gerade gelacht. Kann ich mal um Handzeichen bitten, wer von euch heute bei seiner Firma Urlaub genommen hat? Über jeden gibt es solche Daten. Glaubt mir. Und wir halten jetzt mal inne und dann machen wir uns nochmal klar, was wir gerade gesehen haben und was die gesellschaftlichen Implikationen sind. Was wir gerade gesehen haben, ist Wissensgewinnung über interne Firmen, Informationen und über höchstpersönliche Lebensbereiche und aus Daten, die erst mal gar nicht danach aussehen. Wir hatten ja eigentlich ein Satz Spiegelartikeln und plötzlich und überraschend haben wir gute Anhaltspunkte, wer mit wem was hat und wir können Teamstrukturen erahnen. Und damit komme ich zur wichtigsten Message des Vortrags. Wenn ihr Daten veröffentlicht, dann entscheidet nicht ihr, was ihr da veröffentlicht. Das entscheidet der Geichner. Wir haben nur nicht mehr die Daten selbst betrachtet. Wir haben die Artikel selbst ja gar nicht angefasst. Das wir angefasst haben, waren nur Metadaten. Zeiten und Autoren, genau wie bei der Vorratsdatenspeicherung, das sind ja auch nur Metadaten. Gibt man ein paar Monate eure Metadaten? Einfach nur, wie mir Wannmails und WhatsApps geschickt habt und wann ihr auf welchen Webseiten wart. Keine Inhalte. Danach kann ich euch sagen, wer eure besten Freunde sind, ob ihr Affäre habt, wie ihr sexuell orientiert seid, ob ihr schwanger seid, ob ihr eine Krankheit habt, was eure politische Einstellung ist, wie euer Glaube ausgerichtet ist und ob ihr finanzielle Probleme habt und alles, was ich gerade vergessen habe. Das Missbrauchsprofil für einen solchen Datensatz wie den der Vorratsdatenspeicherung, das kann man gar nicht in Worte fassen. Und ich will da überhaupt nicht mit Verschwörungstheorien anfangen. Wir können ja alle mal glauben, dass die Vorratsdatenspeicherung für die Aufklärung von Verbrechen nützlich sein kann. Das ist ja auch total plausibel. Und wir können ja auch mal glauben, dass die Personen, die die Vorratsdatenspeicherung jetzt etablieren, guten Willens sind. Lass uns das einfach mal annehmen. Das heißt aber nicht, dass morgen keiner an die Macht kommt, der das vielleicht ganz anders macht. Was wir hier gerade erhalten, ist die Infrastruktur für eine Generalüberwachung, die selbst George Orwells Big Brother, die Schamesröte ins Gesicht treiben würde. Und diese Überwachungsinfrastruktur, die stellen wir jetzt extra schon mal bereit für den Fall, dass eine zukünftige Regierung böswillig ist und sie nutzen will. Das ist, was gerade passiert. Jetzt haben wir einen kurzen Exkurs über Metadaten gemacht und wir gehen jetzt zurück zu Spiegel Online, damit sich eure Laune wiederhebt. Und deswegen kommt jetzt ein kleiner Einschub, den könnt ihr dann direkt anwenden, wenn ihr das nächste Mal Spiegel Online lese. Und danach machen wir mal ein bisschen was größeres, als ich die Autoren aus den Artikeln rauslesen wollte. Da war ich irgendwann ziemlich genervt. Also manchmal stehen die oben unter dem Titel, wie hier links im Bild, oder die stehen unten wie rechts im Bild. Und wenn die Autoren oben stehen, sind sie ausgeschrieben und wenn sie unten stehen, sind es Kürzel. Oben stehen sie im wirklichen Satz, hier zum Beispiel von Marcel Rosenbach und unten die Kürzel sind ohne Satz drumrum. Manche Autoren haben nur Vor- und Nachname und manche Namen haben aber auch hier oder fünf Worte, wie zum Beispiel der freundliche Herr Philipp Alvarez de Souza Suarez. Das habe ich mir extra hier aufgeschrieben. Fünf Worte, das ist Einnahme. Also Data Science kann technisch nervig sein, sagt nicht, ich hätte euch nicht gewarnt. Und jedenfalls habe ich mir gedacht, ja, what the fuck, warum stehen da Autoren in verschiedenen Formen und vor allem an verschiedenen Orten? Also habe ich mir mal das als Feature reingenommen, ob die Autoren oben oder unten stehen. Und dann habe ich Messwerte zwischen den beiden Artikelgruppen verglichen, Autoren oben und Autoren unten. Und es stellt sich raus, wenn die Autoren unten stehen, also nicht namentlich ausgeschrieben sind, ist ein typischer Artikel knapp 300 Worte lang. Wir sehen hier die Verteilung der Artikellängen von Artikeln ohne ausgeschriebenen Namen. Und nach rechts werden die Artikel länger, da wird es immer weniger. Und stehen die Autoren aber oben, sind also ausgeschrieben. Ist ein Artikel typischerweise mehr als zweieinhalb Mal so lang. Knapp 750 Worte, man weiß schon, womit man gegoogelt werden will als Redakteur. Und noch was, bei den langen Artikeln ist auch nur ca. 2%, bei 2% in Nachden-Agentur mit dabei und bei den kurzen Artikeln ist bei knapp 80% in Nachden-Agentur mit dabei. Also Fazit für euch, somit nach Hause nehmen, wenn ihr längere Artikel wollt, die Spiegel online selbst verfasst hat, dann achtet drauf, dass die Autoren dran geschrieben sind. Wenn ihr kurze Agenturmeldungen wollt, sind die Kürzel gut. Und jetzt, wir hatten ja schon gesehen, dass am Tagesanfang primär längere Artikel erscheinen und das waren eben in Wirklichkeit die selbst geschriebenen. Die morgens ist der Prozentsatz von denen vergleichsweise hoch. Und jetzt können wir die Gelegenheit nutzen und einen Schritt zurücktreten und gucken, was wir bis jetzt gemacht haben. Und wir haben unsere Riesenmenge Artikel immer auf äußerst einfache Art und Weise auseinandergeschnitten und ausgewertet. Wir haben die in Wochentage oder Urzeiten auseinander geschnitten oder in Rubriken. Und dafür, wie einfach diese Ideen sind, haben wir eigentlich schon ein paar ganz gute Ergebnisse bekommen. Aber was wir noch gar nicht gemacht haben, ist uns im Datensatz mal inhaltlich zu nähern. Und das wäre doch total cool, wenn wir die Artikelmenge mal nach den wirklichen Themen über die berichtet wird auseinanderschneiden und auswerten können. Spiegel Online liefert uns hierbei auch eine gute Hilfe. Artikel werden dort verschlagwortet. Jeder Artikel bekommt von seinem Auto also um die zehn Keywords zugewiesen. Der Artikel links im Bild hat zum Beispiel die Keywords Politik, Ausland, Saudi Arabien und Königssalman von Saudi Arabien. Also habe ich die Keywords mal ausgelesen über alle Artikel hinweg. Habe ich um die 65.000 verschiedene Keywords gefunden. Und jetzt gucken wir, wie oft welche Keywords zusammen in denselben Artikel kommen. Und Keywords, die fast ausschließlich zusammen vorkommen, die sind sozusagen verheiratet. Die sieht man einfach als eins in der Auswertung und umgekehrt. Gibt es natürlich Keywords, die beide für sich genommen existieren, aber nie oder fast nie zusammen. Ja, die sind dann unverwandt. Und dann gibt es noch einen interessanten Mittelweg. Hier ist ein Artikel mit dem Keyword Angela Merkel. Und die haben meistens auch das Keyword Politik. Und umgekehrt ist das aber nicht so. Das Keyword Politik ist viel größer und es gibt extrem viele Politikartikel ohne Angela Merkel. Und diese Keywords sind nicht dieselben, aber es ist klar, die haben eine Verbindung. Und wir messen also für alle 65.000 Keywords paarweise, wie verwandt die so sind. Und dann verbinden wir Keywords, die stark verwandt sind mit so ganz strammendicken Federn. Ich meine jetzt wirklich Federn im physikalischen Sinne, die die Keywords zunahm dahin ziehen. Zwischen schwächer verwandte Keywords kommen schwächere Federn, die werden dann länger. So, und jetzt machen wir eine Physik-Simulation und schauen zu, wie sich diese aber tausenden Federn zurechtzurinnen. Verwandte Keywords werden jetzt tendenziell nah beieinander eroutet und weniger verwandte nicht so nah. Was hier entsteht, ist eine thematische Landkarte von allen Sachen über die Spiegel online in letzten zwei Jahren berichtet hat. So, jetzt gerade sieht es so aus, als passiert da fast nichts mehr, aber gerade passiert die Detailarbeit. Das sieht man nur von so weit oben nicht. Und deswegen zoomen wir jetzt mal ganz weit rein, damit wir lernen, was wir da erschaffen haben. Hier ist die Volkswagen-Abgas-Affäre. Wie ihr seht, haben die Keywords unterschiedliche Größen. Die Größe der einzelnen Keywords spiegelt die Anzahl der Artikel wieder, die das Keyword innehaben. Und das sind sozusagen die Artikel, die in dem Keyword drinstecken. Und die Farbe zeigt an, was die vorherrschende Rubrik ist über alle Artikel, die in einem Keyword drinstecken. Dieses Ocker Gelb heißt Wirtschaft, passt. Der Witz ist, diese Darstellungsweise ist extrem mächtig und vielseitig. Über die Farbe der Keywords, da können wir mit dieser Darstellungsweise noch viel mehr Infos rüberbringen, als nur welche Themen verwandt sind. Und mit der Farbe können wir beliebige Messwerte anzeigen. Und wenn ich danach so farbige Keyword-Landschaften habe, dann können wir sehen, ob es zwischen Thema und Messwert einen Zusammenhang gibt. Und das machen wir heute auch noch. Aber erst mal gucken wir ein bisschen weiter rum. Hier sind verschiedene Flugzeugunglücke. Der Themenkomplex befindet sich zwischen Pandorama, Grün und Politik Rot. Wobei die politischen Anteile von dem Flugzeug kommen, dass über der ukrainisch-russischen Grenze abgeschossen wurde. Jetzt versagt meine Singestimme. So, besser. Hier ist die Griechenland-Krise. Das offensichtlichen Thema zwischen Politik und Wirtschaft, Rot und wieder Ocker. Und Wolfgang Schäuble ist da direkt mal als Aufpasser dazu laertet worden. Interessanterweise hat er keine Farbe, der ist grau und das ist nicht altersbedingt, sondern es liegt daran, dass es im Keyword Wolfgang Schäuble kein dominierendes Ressort gab. Und jetzt machen wir mal was Top-aktuelles. Das ist die US-Wahl dieses Jahr. Wir sehen Hillary Clinton und Donald Trump und alles, was da so dumm rumwimmelt. Und das ist offensichtlich ein politisches Thema. Es ist Rot. Und man beachte, wie hier das Keyword-E-Mails dazu laertet wurde. Und von hier aus machen wir uns jetzt mal die Größe der gesamten Landschaft gleich. Weiß nicht, wie heute Morgen von euch in dem Vortrag über Mikroskop war. Da hat der Vortragende immer und immer mehr reingesumt, um klar zu machen, wie klein die Sachen sind. Und wir machen das jetzt umgekehrt. Wir wollen darstellen, wie riesig die Landkarte ist und wir summen immer und immer mehr raus. Wir haben rausgesumt. Der alte Bild aus Schnittistik eingerahmt, damit ihr seht, wo der ist und wir sehen, dass der US-Wahlkampf eingebettet ist in den größeren Landstrich der Auslandspolitik. Link sehen wir, den Bürgerkrieg in Syrien, darüber der islamische Staat und von da geht es über den islamistischen Terror weiter nach Frankreich. Die Mathematik ist gnadenlos. Oben sind die aktuellen Türkei Thematiken, also das ist deren Putschversuch und deren Demokratie. Und rechts von der Mitte ist Russland und der Ukraine-Konflikt und links unten ist Israel und der in der Ostkonflikt und wir summen noch weiter raus. Hier ist nun die gesamte politische Landschaft. Diesmal haben wir mit zwei Rechtecken markiert, wo wir herkommen, ursprünglich von der US-Wahl und dann von der Auslandspolitik. Also die Auslandspolitik ist oben rechts und unten rechts ist der Inlandsteil und seit Neuem gibt es einen riesigen Knubbeln der in der Mitte. Das ist die Pflichtlingsthematik. Die ist mittlerweile so groß wie eine eigene Unterrubrik und die ist als dritte Kraft genau zwischen Ausland und Inland etabliert. Was ja auch genau passt. Wir summen noch mal weiter raus. Jetzt kann man gar nichts mehr erkennen, außer verschiedenfarbigen Landschaften. Ich sorg also mal für eine grobe Orientierung. Hier kommen wir her. Das Rote ist der Politikteil. Rechts darüber in Giftgrün das Panorama. Das wird durchteilt von der Wirtschaft. Die Kette von Türkeisen klustern entlang der Unterseite des Hauptkontinentes ist die Netzwelt. Blau im Osten ist der Kulturteil und so weiter und sofort. Wir können jetzt nicht alle durchgehen. Ihr seht, die Gebiete gehen auch ineinander über und wir wissen jetzt fast, wie riesig diese Landkarte ist. Einmal rauszoomen, haben wir nämlich noch. Hier ist die große weite Welt. Den unteren Teil haben wir schon grob kennengelernt und hier sind wir eigentlich hergekommen. Und dem Rest der Welt etwas entdrückt ist die Wissenschaft. Ich sehe, ihr könnt das nachvollziehen und habt da auch mal gearbeitet. Und ganz weit weg vom Hauptkontinent ist der Sport. Und jetzt sehen wir halt erst mal, wie groß das ist und wie breit der Spiegel angelegt ist. Und diese riesige Landkarte gibt es übrigens bei mir auf der Webseite. Da könnt ihr auch selbst drin rumforschen wie in Google Maps, so drin rumscrollen. Das macht auch mehr Spaß, als wenn ich das hier nur vorkaue. Und darum geht es jetzt auch weiter. Wir wenden jetzt an. Spiegel Online bietet unter sehr vielen Artikeln an. Ist das Gelächter geht los, bevor ich etwas gesagt habe. Ihr wisst doch gar nicht, was ich sagen will. Dass man seine eigene Meinung dazu äußern darf. Und unter manchen Artikeln sperren Sie diese Funktionen aber. Und das untersuchen wir jetzt mal. Ich hatte euch am Anfang des Vortrags gesagt, dass Artikel direkt ein paar Minuten nach dem Erscheinen von mir abgerufen werden. Wenn ich sage, dass das, was nicht kommentiert werden darf, dann war das sehr wahrscheinlich direkt vom Start weg. So schnell randaliert kein Mensch. Bevor wir jetzt eine Themenlandkarte damit malen, schauen wir mal ganz kurz auf die zeitliche Entwickler der Kommentierbarkeit und zwar einfach damit wir eine Orientierung haben. In dem Plot sehen wir pro Kalenderwoche, wie viel Prozent der erschienenen Artikel kommentiert werden durften und wie viele nicht. In Rot sind die nicht kommentierbaren und blau die kommentierbaren. Und als ich 2014 angefangen habe, runterzuladen, waren erst mal eine ganze Zeit so 80 Prozent der Artikel kommentierbar. Und genau seit dem Zeitpunkt der großen Flüchtlingsberichterstattung im Sommer 2015 sinkt der Artikel der kommentierbaren Nachrichten kontinuierlich ab. Und jetzt seit kurzem ist wirklich die Mehrzahl der Artikel ohne Kommentarfunktion. Die rote Linie überholt die blaue. Und die Kommentierbarkeit wird übrigens nicht nur im Politikressort weniger. Das passiert übergreifend in fast allen Ressorts. Und ob seitdem der Hass im Netz irgendwie Themen übergreifend so viel schlimmer geworden ist oder Spiegel online jetzt einfach so viel Angst vor fiesen Kommentaren hat, das kann ich aus den Zahlen nicht ablesen. Das müsst er dann für euch selbst entscheiden. Interessant ist aber noch der kleine grüne Plot unten im Bild. Das sind auch auch nicht kommentierbare Artikel. Aber bei denen steht so ein kleiner Entschuldigungstext dran. Ja, dass hier die Kommentarfunktion wegen der Nettikett und so weiter gesperrt ist. Ihr braucht das nicht lesen. Ich bringe das nur zur Ansicht. Und diesen Entschuldigungstext haben sie zu Anfang der Flüchtlingsberichterstattung für Flüchtlings Artikel eingeführt. Und es scheint so, als war Spiegel online da selbst ein bisschen unwohl mit dem krassen Anstieg der Kommentarsperrung. Aber wie man am Plot sieht, haben sie den Hinweis ganz flotte wieder aufgegeben, obwohl die Kommentiermöglichkeiten immer und immer mehr gesperrt werden. So. Und jetzt geht es zur Landkarte. Wir färben ein Keyword röter, wenn unterdurchschnittlich viele Artikel darin kommentierbar sind. Und wir färben ein Keyword eher blau, wenn das Keyword überdurchschnittlich kommentierbar ist. Und graue Keywords repräsentieren so den Durchschnitt. Da sind dann so 70 Prozent kommentierbar. Und es gibt natürlich auch alle Farben dazwischen. Also wenn so ein Keyword wirklich aufleuchtet, dann ist das irgendwo am Ende der Scala oder am Anfang. Und die Landkarte stelle ich auch bald auf meine Webseite, die jetzt kommt. Da könnt ihr da auch selbst darin rumklicken. So. Und wir fangen mal mit ein paar einfache Sachen an. Ja, ihr ahnt es, Sport darf man quasi komplett kommentieren. Ja, knallblau. Und falls ihr euch fragt, was der knallrote Punkt da ist, das ist ein bestimmtes Artikelformat. Das ist halt technisch ohne Kommentarfunktion. So was kommt schon mal vor. Ich sage nur, weil ich sonst gleich 13 mal die Frage kriege. Und wo man in der Regel auch gut kommentieren darf, das sind Wissenschaftszemen und Wirtschaftszemen. Hier sind die Bahnstreiks. Da darf nach Kräften auf die Bahn eingekloppt werden. Und wo wir schon von Streik reden, ist bestimmt jeder hier im Raum sofort in Gedanken bei der Lufthansa. Die streiken ja als Hauptkonzernaktivität. Alles blau, alles blau, auch die dürfen fiese Kommentare abringen. Ich würde ja mitlachen, aber ich bin mit dem Flugzeug hier in Hamburg. So, nach dem ganzen Blau. Jetzt mal was Rotes. Knallrote Landschaft ergibt sich um die Justiz. Das sind Berichte über die Kriminalität, Mordattentate, ja, the full package. Und hier will man bitte eher weniger Leserkommentare. So, die Justiz hat so 30 Prozent Kommentierbarkeit von den üblichen 70 Prozent. Hier ist die ganze Geschichte rund um den NSU-Prozess. Der ist ja ja auch Thema. Tiefrot, generell darf übrigens auch alles, was irgendwie mit Rechtsradikalen und Nazis und so weiter zu tun hat, eher wenig kommentiert werden. Und der Kernknubbel hier, der hat so um die 18 Prozent Kommentierbarkeit. Ist also noch weniger als Justiz. Und die waren schon rot. Was auch tiefrot ist, ist alles um die Flüchtlingsthematik und zwar nicht nur das Konkrete, sondern auch der weitergefasste Rahmen, Asylrecht und so weiter. Seht ihr sogar im Bild. Und von außen sieht das aus, als Sperrt der Spiegel, seine Kommentarfunktion komplett systematisch und zwar nach Themen. Und dass wir sowas direkt visuell rausfinden können, das macht diese Landkarte so unheimlich mächtig. Allgemein ist es in der Data Science nicht nur wichtig auszuwerten, es ist genauso wichtig, die Informationen möglichst anschaulich visuell aufzubereiten. So können dann nämlich auch Leute, die keine Informatiker sind, sofort komplexe Zusammenhänge erkennen. Es gibt ja nur eine Breitbandverbindung ins Gehirn und das sind die Augen. Richtig interessant wird, wenn man mal guckt, wie Spiegel online die Kommentierbarkeit hart national ordnet. Das hier ist der ganze Nahost-Konflikt um Israel. Wie ihr an dem satten Rot seht, zum Nahost-Konflikt und Israel hat man bei fast allen Artikeln die Klappe zu erhalten. So und jetzt schwenken wir mal vom Nahost-Konflikt zum Ukraine-Konflikt. Also ihr könnt euch mit nach Hause nehmen, meine Damen und Herren, Russenbäschen ist okay. Was wir hier live und entfahrbesichtbar gemacht haben, ist nichts anderes als unsere westliche Filterbubble. Die kann man messen. Zum Iran darf man sein, Senf dazu geben, zu Großbritannien auch, zu Türkei, da ist Spiegel online sich noch nicht ganz sicher. Und Frankreich ist interessant. Diese Region der Landkarte, die möchte eigentlich blau sein, aber die ganzen Keywords rund um die Terraus-Serie dort, die sind knallrot und die strahlen in die Nachbarn aus. Und das schauen wir uns doch jetzt mal ein bisschen genauer an. Das sind alles Frankreich-Artikel, aber nach Zeit. Die blaue Linie ist das Aufkommen der kommentierbaren Artikel wieder. Und die rote Linie wieder das Aufkommen der nicht kommentierbaren. Und wir sehen, wie Frankreich von 2014 bis 2015 erst mal überwiegend kommentierbar ist und die blaue Linie ist über der Roten. Und hier ist die Terraus-Serie in Paris im November 2015 und das wird plötzlich enorm viel berichtet. Also sehen wir eine krasse Spitze an Frankreich-Artikel. Und davon sind die meisten nicht kommentierbar. Also Frankreich an sich dürft ihr gerne kommentieren, aber bezüglich der Anschläge dort bitte nicht. Und das Interessante ist, der Effekt wirkt fort. Seit der Terraus-Serie ist Frankreich generell nicht mehr so kommentierbar. Die rote Linie ist meist über der Blauen. Jetzt treten wir wieder einen Schritt zurück. Und natürlich sehe ich auch, dass der Spiegel-Themen-Bereiche einfach aufgrund von Erfahrungen der Vergangenheit sperren kann. Und generell müssen wir auch zugeben, es ist das gute Recht von Spiegel online zu entscheiden, wohnt in welcher Form sie anderen auf ihrer Seite eine Plattform geben und wo sie das eben nicht tun. Aber genauso ist es halt auch unser gutes Recht, diese Systematik hier mal sichtbar zu machen. Und ich denke, das sieht insgesamt so aus, als verböhte Spiegel online genau zu denjenigen Themen die Kommentierung, bei denen zu erwarten ist, dass die Meinungen der Leser politisch nicht opportun sind. Ob das jetzt was über Spiegel online aussagt oder über seine Leser oder irgendwie ein gesamtgesellschaftliches Problem ist, das müsst ihr dann wieder selbst entscheiden. Was die Auswertung angeht, haben wir der Vortrag bis jetzt im Grunde 2 geteilt. Am Anfang haben wir die Artikel-Sammlung in nur wenige Töpfe unterteilt und danach haben wir die Artikel-Sammlung in viel mehr Töpfe unterteilt. Das sind die wenigen. Jeder Artikel konnte sogar in mehreren Töpfen sein. Das war ja so, wenn ein Artikel mehrere Keywords hatte, dann war der auch in mehreren Töpfen. Und das war eine viel komplexere, aber auch viel mächtigere Art der Unterteilung. Und jetzt merkt ihr euch diese beiden Artenunterteilungen mal kurz und damit machen wir so was Politisches. Wir gehen über zum Thema Wahlkampf. Wahlkämpfe funktionieren grob so, dass man die Menge aller Wähler auseinanderschneidet, wie wir unsere Artikel auseinander gestitten haben. Das heißt dann Voter-Targeting. Und bei der US-Wahl konnte man zum Beispiel sagen, man schneidet die Menge der Wähler grob nach Geschlecht, Hautfarbe, Alter und Gehalt. Und das wird auch in der Tat so gemacht. Dann könnte man sozusagen allen Schwarzen Frauen in Kalifornien, die zwischen 30 und 40 sind und über 60.000 Dollar im Jahr verdienen, zugeschnittene Wahlwerbungen schicken. Und das ist eine relativ grobe Art der Unterteilung und dies sozusagen analog zu unseren groben Unterteilungen hier auf der linken Seite der Folie. Aber was wäre dann die rechte Seite? Vor einiger Zeit hat dieser Artikel des Schweizer Tagesanzeigers die Runde gemacht. Ich bin sicher, viele von euch kennen den, der ging ziemlich durchs Netz. Der wurde am Tag 13-mal als Lesebefehl geschickt und so weiter und so fort. Also ich glaube, ich habe den bestimmt 50 mal bekommen, weil ich mich halt auch mit dem Machine Learning auseinandersetze. Und dem Artikel steht im Grunde, dass eine Datenanalysefirma es geschafft habe, eine extrem feine Unterteilung von Wählern hinzukriegen. Das wäre sozusagen analog zu unserer sehr mächtigen Themenlandkarte. Und in dem Artikel steht weiter, das hätte diese Firma sowohl für die US-Präsidentschaftswahl als auch für das Brexit-Referendum gemacht. Und es wurde dann behauptet, deswegen wäre Trump gewählt worden und deswegen wäre der Brexit durchgekommen. Das ist natürlich spooky und das verkauft sich gut. Die selbe Firma hinter Trump und hinter dem Brexit. Da glüht der Allohut. Und die sagen, ihre Unterteilung der Wählerschaft sei so fein, dass man jedem Wähler seine genau passende Wahlwerbung schicken könnte. Und sie sagen nicht nur das, sie sagen, sie können das sogar noch genauer, sie können auch noch genau den Gesprächston treffen, sodass der Wähler wahrscheinlich drauf hört. Generell würde ich sagen, tiefer hängen. Es ist überhaupt nicht klar, was die Firma den beiden Wahlkämpfen überhaupt wirklich gebracht hat. Die Infos kommen nämlich im Wesentlichen von der Firma selbst. Und ich glaube ehrlich gesagt, da hat die Firma einen hervorragenden Vertriebler geschickt und der hat dann wirklich der Presse einen brillanten Vortrag gehalten und die Presse hat es dann einfach gekauft. Und die Kernaussage ist, doch nur ihr könnt jetzt Wahlwerbung bekommen, die oder Werbung im Allgemeinen, die extrem genau auf euch zugeschnitten ist und euch so effizienter zu Dingen verleitet. Mit anderen Worten, endlich kriegen nur noch diejenigen Viagrasbämmen, die das Produkt auch wirklich benötigen. Das ist jetzt zunächst mal nicht schlimm. Ja, aber kaufen und eben wählen, das müssen die Leute schon noch selbst. Es ist nicht so, dass Big Data die Leute fernsteuert. Das müssen wir schon festhalten. Also man könnte sagen, wer vor so zielgerichteter Werbung Angst hat, der sollte vielleicht einfach die eigene Urteilsfähigkeit hinterfragen. Und bestimmt, ja, ja, ja, bestimmt haben auch ein paar von euch diesen Gedankengang gehabt und an der Stelle hatte ich keinen Applaus erwartet, und sich selbst haben sich damit ein bisschen beruhigt mit diesem Gedankengang. Ja, und das Problem ist nur, ich glaube, die eigene Urteilsfähigkeit hinterfragen, das macht kaum einer. In der Realität wählen die Leute doch irgendwie denjenigen, der ihnen am meisten, am emotional passendsten kurz vor der Wahl was zu brüllt. Ja, und so laufen Wahlen. Das ist ja auch politisch so gewollt. Wo kommen wir auch hin, wenn Wahlen irgendwie langfristigen Erfolg belohnen würden. Und dieses emotionale Zurufen, das geht mit so höchst personalisierter Werbung, urplötzlich unglaublich effizient. Und das bedeutet, ja, Data-Science-Techniken können Wahlen beeinflussen. Ja, vorhin hatte ich die Vorrats-Zeiten-Speicherung angeprangert. Ja, ich bin ja auf dem CCC, also vermute ich, dass die meisten von euch da meiner Meinung waren, und damit kommen wir genau zum Punkt. Wisst ihr, was die Firma aus dem Artikel genommen hat, um die Wähler so ultra genau zu vermessen? Das waren überhaupt keine staatlichen Überwachungsdaten. Das waren Facebook-Likes, also Daten, die die Leute selbst über sich ins Netz gestellt hatten. Und es ist wichtig, mit staatlicher Überwachung kritisch zu sein, ja, das dürfen wir und das müssen wir auch, wenn wir kein Unrechtsstaat werden wollen. Aber wenn wir dann gleichzeitig völlig unkritisch sind mit uns selbst und wirklich jeden Mist ins Facebook oder ähnliche Plattformen pumpen, ja, dann haben wir nichts gewonnen. Mein Vortrag neigt sich dem Ende, es kommen jetzt noch zwei Sachen, eine kleine Überraschung und dann habe ich noch eine Bitte an euch alle. Und zuerst gibt es die Überraschung, ja, habe ich euch vorhin gesagt, ich hätte 100.000 Artikel von Spiegel Online geladen, ich meinte über 700.000. Ich lade jeden Artikel nicht nur einmal runter, wenn er erscheint, sondern mehrfach in wachsenden Zeitabständen. Und mit anderen Worten, wir können messen, was in Artikeln geändert wurde. So, und aus Zeitgründen gibt es damit keine riesen Auswertungen, erstens aus Zeitgründen hier im Vortrag, aber auch zweitens aus persönlichen Zeitgründen, ich muss irgendwann auch noch mal arbeiten. Aber wir haben eine kleine Demo. Ich habe zum Beispiel mal geguckt, ob Titel geändert werden und bei sowas findet man einfach lustige Sachen. Es gibt nicht nur den Titel, der hier offensichtlich ist, sondern es gibt auch zu jetzt den HTML-Titel, die Technik unter euch kennt, der wird oben im Browser angezeigt und auch die HTML-Titel erfasst sich natürlich. So, und am 21. Januar, also wobei der hiesichtbare Artikel ist am 20. Januar 2015 rausgekommen und am 21. Januar, und das war einen Tag nachdem der Artikel erschienen war, wurde mir angezeigt, der HTML-Titel hat sich geändert. Auf SAP wächst 2014 langsamer als geplant. Ich habe mich dann gefragt, warum wurde er denn geändert? Wie war der vorher? Ganz einfach. Als der Artikel rauskam, wuchs nämlich nicht SAP, sondern der SAP Chef wuchs langsamer als geplant. So was finde ich an sich ganz sympathisch, denn es zeigt, dass bei Spiegel Online noch Menschen an den Texten sitzen und keine Computer. Im Moment heißt der Artikel übrigens, SAP kann Wachstums- und Gewinnziele nicht erfüllen. Das hat noch mal irgendwem nicht gefallen. Irgendwann zwischendurch haben sie es noch mal geändert. Also, jetzt wisst ihr erst, wie mächtig der Datensatz wirklich ist. Ich habe von jedem Artikel diverse zeitlich versetzte Version und das erlaubt natürlich viel, viel klassere Auswertungen. Damit fange ich aber selbst erst an und deswegen ist heute noch so wenig davon im Vortrag. Aber das war meine Überraschung und jetzt kommt meine Bitte. Ihr habt jetzt alles Mögliche gesehen. Wir haben Artikel auf einfache und komplexerweise unterteilt. Wir haben gesehen, dass verschiedene Arten der Unterteilung und Darstellung verschieden mächtig sind und wir haben verschiedenste Features aus den Artikeln gelesen. Rubrikzeiten, Kommentierbarkeit, Autor. Jede Menge weiterer Features sind denkbar. Auch komplizitere Features. Man könnte zum Beispiel für jeden Artikel die darin enthaltenen Links rausziehen und dann gucken, ob bestimmte Autor und Kumpels haben, auf die sie oft verlinken. Der Fantasie sind wirklich keine Grenzen gesetzt und zum Schluss haben wir sogar gesehen, wir können für jeden Artikel messen, was verändert wurde. Wir können zum Beispiel gucken, wo die Lese am meisten randalieren. Da guckt man, indem man guckt, wo die Kommentarfunktion erst geöffnet und später dann geschlossen sind. Also meine Bitte an euch, jeder, der hier zuguckt, schickt mir bitte eine Mail mit seinen kreativsten Auswertungsideen für den Datensatz. Und in dem Zusammenhang habe ich noch eine Message, die ihr euch auch mitnehmen könnt, wenn ihr was im Bereich der Data Science macht. Rohdaten sind geil. Behaltet immer alle Rohdaten, wenn ihr es irgendwie vom Speicher bezahlen könnt. Dann könnt ihr nämlich im Nachhinein alles Mögliche tun. Ich habe alle Rohdaten komplett da, das sind über 60 Gigabyte pures HTML und neue Features im Nachhinein dazu auswerten, ist deswegen überhaupt kein Problem. Darum bitte, bitte lasst eurer fantasiefreien Lauf. Erfindet neue Features, erfindet, wonach die ausgewertet werden sollen. Schickt mir einfach, was ihr euch denkt. Vielleicht ist nicht alles, was ihr wollt, möglich. Vielleicht schaue ich auch nicht alles sofort. Ich bin ja auch berufstätig und zum Jahresanfang werde ich strammengespannend sein. Aber ich versuche, was möglich zu machen. Also einfach einschicken, seid kreativ. Und damit bleibt es mir nur noch ein dickes Dankeschön zu sagen dafür, dass ihr diese Stunde mit mir verbracht habt. Hier sind noch die Links. Und bis dann. Ganz so schnell bis zu natürlich noch nicht entlassen, weil wir haben noch unsere Fragerunde. Erstmal herzlichen Dank, immer schön zu sehen, eben wie die Mathematik dann doch sehr spannend sein kann, eben solche Daten zu analysieren. Und ja, wie immer, wenn ihr Fragen habt, trete vor zu den Mikrofonen und alle, die schnell wahrscheinlich los einum sich, ich glaube, drüben ist der Jahresrückblick mit Pfefe startet bald oder so, ich weiß es nicht. Der Pfefe sitzt da vorne im Publikum. Ach, der sitzt doch hier, ja, stimmt. So schnell wird er also noch nicht starten, aber vielleicht wollen ich mal einen Platz. Genau. Ich sehe schon, vielleicht rennt dir dich den Kamera-Leuten so ganz vor das Bild. Gut, wo haben wir Fragen? Ich sehe nicht viel. An Mikro 3 beginnen wir dort. Hi, super Vortrag, fand ich echt klasse. Was ich nicht mal interessieren würde, hast mal geguckt, ob die Split-Testen und die Artikelüberschriften ändern anhand von wie viele Leute draufklicken oder sowas? Ja, das würde man messen daran, wie viele verschiedene Titel man so findet und ob, wenn diese Zahl der durchschnittlichen Titel pro Artikel ansteigt, dann passiert das. Und wenn ich das richtig interpretiere, dann testen Sie das gerade. Also es ist noch nicht übergreifend, es ist nur so Stoßweise. Vielleicht will mich auch einer korrigieren von Spiegel Online, aber so wie meine Daten aussehen, ja, habe ich getestet, Sie versuchen es gerade. Also was ist Split-Testen, vielleicht mal fürs Publikum. Man veröffentlicht Artikel mit verschiedenen Titeln und dann guckt man, wo am meisten Leute klicken bei welchem Titel und der Titel darf dann weiterleben. Ihr verändert also durch euren Besuch direkt die Nachrichtenseite. Mikro 1. Ja, hi. Ich wollte fragen, ob du auch Spiegel Plus Artikel, die es ja seit Mitte diesen Jahres, glaube ich, gibt, mit Einbezogen hast. Und wenn ja, hast du einen Plus-Account? Ja, also ich habe die mit Einbezogen und natürlich habe ich auch einen Plus-Account, der das voll automatisch entschlüsselt und dazu. Also wenn einer näher ist, ich habe mich da wahnsinnig geärgert kurz, als die Plus-Artikel rauskam, weil ich die halt nicht auf Anieb dekripten konnte und dazu gibt es jetzt bei mir ein Blog-Artikel seitdem, wie man die dekriptet. Also ich muss übrigens mal was Positives sagen. Die Spiegel Plus Artikel sind im Medien 1.100 Worte lang. Also man muss schon sagen, da kriegt ihr auch was fürs Geld. Mikrosimum auf dem Rang. Hast du im Rahmen deiner Analysen auch auf die Inhalte geguckt, dass du vielleicht die Worthäufigkeit analysiert hast und die Zuordnung zur Ressource oder zu Schlagworten anhand der Inhalte abgeglichen hast, um vielleicht rauszufinden, ob die Verschlagwortung vollständig oder richtig ist. Das wäre ja, man kann ja die Schlagworte nehmen, da habe ich es mir bequem gemacht oder man versucht jetzt eine Analyse zu machen, was die relevanten Worte im Artikel sind und das habe ich noch nicht gemacht. Das wären dann sozusagen die schöneren Schlagworte. Aber nee, habe ich noch nicht gemacht. Oh, wir schieben mal eine kurze Frage aus dem Internet dazwischen. Ja, Aja, Sie möchte wissen, welche Software du benutzt hast, um die Daten zu sammeln, zu analysieren, zu analysieren und ob es die Daten irgendwo gibt außer bei dir. Okay, also nein gibt es noch nicht irgendwo außer bei mir, weil ich mir auch gar nicht sicher bin, ob ich die verteilen darf. Ich nutze den Python PyDataStack und die Software zum runterladen habe ich mir selbst geschrieben. Die läuft auf einem meiner Server und darüber hinaus nutze ich Pandas für die Analyse. Das ist auf Python aufbauend und dann diese ganzen Machine Learning Sachen darüber, Skykit Learn, also den ganzen PyDataStack Google danach einfach findet ihr viel und zum visualisieren habe ich hier Tablo genommen. Das ist eine Visualisierungssoftware, die halt schon voraggregierte und vorerrechnete Daten bis zu ein paar Gigabyte ganz gut verkraftet und da kann man sehr schnell schöne Visualisierungen daraus ziehen und zum Visualisieren der Grafen habe ich Mikrovier. Hast du Daten real-time analysiert oder hast du auch alles im Nachhinein gemacht? Ich verstehe die Frage nicht. Ob die Daten während du sie gesammelt hast analysiert hast? Ach so, nee, das wird alles roh datenmäßig gesammelt, dann wird das im weiteren Schritt erst mal werden die Ro-Features rausgepasst und das sind dann so wenige, dass sie in der Tat jetzt in den Rand passen und ich dann darauf weiterer Higher-Level-Features machen kann. Das passiert so in drei Layern. Also es ist nicht direkt dabei aber während wir hier vorgetragen, während wir gesprochen haben, ist schon wieder zehnmal runtergeladen worden. Also insofern ist das schon gleichzeitig zum runterladen. Das runterladen geht weiter. Mikro 3. Eine Idee für die Auswertung. Du könntest mal gucken, ob bestimmte Wortgruppen in älteren Artikel noch mal vorkamen und zu sehen, welche zusammenkopiert wurden. Du meinst, ja ja, also so eine Auswertung im Sinne von in jedem Artikel kriegt ihr durchschnittlich 73 Prozent neuen Content quasi, ja? Guter Punkt. Machen wir so. Hallo? Ja. Ich wollte eigentlich nur kurz einen Denkanstoß geben, aber ich formuliere das mal als Frage. Könnte es sein, dass diese Nichtkommentierbarkeit von Israel-Artikeln auch einfach ein Ressourcen- Problem ist, weil es da vielleicht dann mehr aus juristischen Gründen zu zensieren gibt für die Redaktion? Das kann selbstverständlich sein. Zum Beispiel gibt es ja durchaus Singularitäten im deutschen Strafrecht, dass man bestimmte Sachen nicht sagen darf. Also, das könnte halt auch sein. Hätte es jetzt nur Israel erwischt, hätte ich das auf jeden Fall sofort auch gedacht, aber ja, kann natürlich sein. Also das ist auch so ganz wichtig an der Data Science. Ich habe das jetzt teilweise ein bisschen kätzlerisch vorgetragen, aber natürlich müsst ihr schon selbst nochmal gucken, was ihr aus den Daten folge. Ja natürlich, das kann sein. Am besten wissen das natürlich nur die Spiegelleute. Aber Israel war ja nicht der einzige Punkt, der nicht kommentierbar war. Und zu reinen Justiz gibt es keine Singularität im deutschen Strafrecht. Mikrosex. Hallo David, vielen Dank für den Talk. Hast du überlegt die Software irgendwie oben SOS anzubieten, dass man es zum Beispiel für andere Quellen anpassen kann, Tagesschau etc. Hab ich nicht überlegt, aber ehrlich gesagt, so oft ist es auch nicht, ihr schreibt euch ein Skript, was halt alle paar Minuten mal losläuft und die Artikel runterlädt und das speichert Sunderdaten, man ist fertig. Also das Open Source ist das uninteressanteste, was es gibt. Das findet ihr in tausend Varianten sauberer als ich das gemacht habe nochmal, glaube ich. Aber ja, man könnte meine Vergleichsausweise mit anderen Medien starten. Eins. Wie hast du den Strain aus deiner Karte entfernt? Du hast da dann ganze Menge Dimensionen auf zwei Dimensionen runtergebrochen und den was aus meiner Karte entfernt? Die Spannung, weil es hat sehr viele Dimensionen auf zwei Dimensionen posiziert und wie hast du sichergestellt, dass da jetzt nicht Inseln beieinander sind, die gar nicht zusammengehören oder manche anderen nicht beieinander sind, die aufgrund von Inseln, die dazwischen liegen, eben nicht nah genug beieinander kamen? In der Theorie kann man das nie ganz ausschließen, aber an dem Graph steckt sehr viel Verfahren drin. Also ich habe zunächst mal zugesehen, dass ich überhaupt nur die wichtigen Kanten pro Knoten behalte, sonst hat man nämlich wirklich viel zu viele Kanten und dann gibt es da professionelle Graph-Flight-Outing-Verfahren. Also Geffi bietet was an, das heißt Force-Ablast 2 und das war das, was ihr in dem hübschen Video gesehen habt. Damit geht das sehr gut. Also du musst natürlich ein bisschen Schmackes da rein investieren, wie du die Kanten vorher ausfilterst. Aber dann bist du immer noch nicht sicher in der Theorie, aber dann siehst du ja, ob das Bild gut wird oder nicht. Mikro 2? Du meintest, du warst im Oktober beim Spiegel. Wie war denn deren Reaktion zu deinen Analysen? Positiv. Also ob das jetzt nur daran lag, dass wir sowieso nichts dagegen tun können, weiß ich nicht. Aber ehrlich gesagt, habe ich das als sehr positiv und interessiert wahrgenommen und auch ich habe was gelernt und das war eigentlich ein ziemlich cooler Termin. Also sportlicher als die Kollegen bei Xerox. Noch mal oben der Rang. Ist vielleicht auch wieder eine Suggestivfrage. Vielleicht geht es auch in Richtung einer, ja, Möglichkeit, wie man weiter forschen könnte. Das Verfahren mit dieser Physik, die du benutzt hast, um die thematische Nähe verschiedener Tags zueinander zu bestimmen, wäre es mathematisch nicht korrekt, wenn du einfach eine Singulärwärtserlebung der Adizenzmatrix dieser Schlagworte baust, ähnlich wie Google PageRank das gemacht hat. Ja, aber ob man das dann, dann kann man da nicht so einen schönen Grafen draus basteln. Und das Verfahren, was ich da genommen habe, es kommt wahrscheinlich was Ähnliches raus. Ehrlich, ich sehe ja die Werte der Kanten und wahrscheinlich ist es am Ende dasselbe. Ja, wenn du genug Dimensionen benutzt, ist es eigentlich equivalent. Ja. Alles ist still. Mensch. Drei, ja, du bist. Drei. Okay. Noch mal kurz zu den Landkarten. Das sind irgendwelche Monte Carlo-Methoden, die dieses Springs im Endeffekt positionieren. Wie stabil sind die? Ich denke nicht, dass man dafür, also ich habe mich da in die Theorie nicht eingearbeitet. Es würde mich wundern, wenn du da eine Stabilität drüber nachweisen könntest. Fest steht, sie sind etabliert für große Grafen, weil da ist sowieso nichts mehr zu planarisieren in der Größe. Und dann sieht man halt zu, zu itirieren, bis es stimmt. Und wenn es schlecht aussieht, dann drückt man nochmal auf den Startknopf. Hallo. Hast du mal Makov auf deine Daten geworfen, um Spiegelartikel zu generieren? Nein. Könntest du mir bitte damit eine E-Mail schicken? Sehr gerne. Oh, wir haben Spaß. Ich sehe das schon. Also, dann machen wir aber nicht nur, dann machen wir aber, aber nicht nur die Artikel-Generierung, sondern dann wird bitte auch direkt mal dazu generiert, zu welchem Thema kommentiert werden darf und welchen nicht. Autoren generieren das auch schön. So. Ich glaube, wir sind auch langsam am Ende unserer Zeit. Wer noch Fragen an David hat, du bist sicher gleich noch... Ich gehe jetzt daraus zur nächsten Bierbar, die da ist. Falls die nicht vor Saal 2 ist, ist die vor Saal 1, dann bin ich da. Gut, damit lässt sich's finden. Wir machen jetzt Detox auf die Bierbar. Ja, ist ja auch Zeit. Danke schön. Auch von mir noch mal einen herzlichen Dank, uns einfach mal die Mathematik so näher zu bringen und vor allem ein Bewusstsein für die Daten, die wir bald hinterlassen. Vielen Dank.