 Herzlich Willkommen zum dritten Coding Video in Python in der Vorlesung Data Science. In diesem Coding Video werden wir cheaten. Das klingt jetzt böse, wir beschäftigen uns hier mit dem KMEANS Algorithmus, allerdings werden wir generische Daten verwenden. Das bedeutet, ich fange erst einmal von vorne an, hier, wir importieren unsere Grafikpakete und wir importieren ein vorgefertigtes Datenset, und zwar dieses Make Blobs Datenset und den KMEANS Algorithmus und wir werden dieses Make Blobs Datenset einfach mal verwenden. Wir wollen 250 Sample haben, drei Features, vier Center, dann können wir hier noch einen Random State und eine Cluster Standard Abweichung abgeben und wir können uns das Ganze hier mal ansehen und eben einen Scatterplot hier von machen, das heißt wir können uns das Ganze hier mal angucken, wie unser Datenplop denn nun aussieht. In der Regel ist es so, dass der KMEANS Algorithmus keine Label besitzt, der gehört ins Anzug bei Meist Machine Learning und wir wissen diese Dinge hier vorher eigentlich nicht. Also wir können vorher normalerweise eigentlich nicht sagen, es gibt genau vier Center, die hier richtig wären, sondern diese Center und diese Klassifizierungen sollte der KMEANS Algorithmus für uns ja eigentlich selbst finden. Wir wissen das jetzt halt zufälligerweise vorher schon einmal, also entschuldigen Sie mir bitte diese Vorwegnahme der Ergebnisse, natürlich können Sie auch, wenn der Datensatz unbekannt ist, dieses Modell implementieren. Wir wissen es jetzt halt zufällig vorher schon, weil wir den Datensatz generisch erzeugen. Wenn Sie natürlich echt Daten haben, wissen Sie das vorher nicht, also sehen Sie es mir bitte nach. Also ich wiederhole es nochmal, wir binden hier unsere Pakete ein, wir erzeugen uns ein Datensatz mit vier Center, wir zeigen uns den Datensatz hier einfach mal an, wir gucken uns den an, wie es sieht ja dann aus und dann kennen Sie die Vorgehensweise schon und zwar wir bestimmen ein Modell, wir spezifizieren das Modell, das KMEANS Modell und hier können wir eingehen, wie viel Cluster dieses Modell denn bitte bilden soll. Wir nehmen jetzt zufälligerweise, weil wir wissen es sind vier, nehmen wir hier halt auch mal vier, normalerweise müssten Sie jetzt erst mal rausfinden, wie viel Cluster benötigen Sie denn auch maximal und das ist gar nicht so einfach hier rauszufinden, was hier richtig ist, wir wissen das jetzt gerade zufällig einmal und was machen wir hier, wir finden dieses Modell auf Basis der Daten, die wir eben hier haben, dann lassen wir uns das Ganze einfach mal ausgeben, wir gucken uns das tabellarisch einmal an und was wir danach machen können, wir geben uns das Ganze hier einfach mal grafisch aus, das heißt ich mache einen Subplot, indem wir die Original-Daten sehen und die Ergebnisse des KMEANS Algorithmus gegenüberstellen, die Hitze-Karten, die ich hier hinten eingefügt habe, spielen für den Algorithmus keine Rolle, diese Farben sind rein willkürlich, das ist dazu da, damit es für das Video hier ein bisschen ansehnlicher wirkt und ich wiederhole jetzt einfach nochmal, wir haben hier oben unsere Pakete, sie haben hier ihre Daten, die schauen wir uns an, wir initiieren das Modell, wir trainieren das Modell, wir fitten das Modell und sehen uns die Ergebnisse an, das ist die Standardvorgehensweise, welche wir auch in den weiteren Videos so verwenden werden, seien Sie sich, ich wiederhole es gerne noch einmal bitte bewusst, dass Sie normalerweise hier ein Ansupervised Maschinen-Learning-Modell benutzen und das hier oben in der Regel ja gar nicht wissen, Sie füttern diesem KMEANS Algorithmus in der Regel Daten in der Erwartung, dass dieser Algorithmus eben Ihnen diese Cluster zurückgibt und wir kennen die jetzt hier halt zufällig schon und ich hätte gesagt, wir schauen uns das doch bitte einfach mal an und bevor wir uns die Bildchen angucken, sehen wir hier so, das sind unsere Blobdaten, so sieht das aus, die sehen hier, das sind hier unsere Blobs und dann sehen wir okay, das ist einfach nur mal eine ganz große Liste von Zahlen 250 auf 3, hier sehen wir den Datensatz so wie er generisch erzeugt worden ist und dann schließen wir das Ganze hier einfach mal und bevor ich auf dieses Bild zu sprechen komme, sehen wir hier unten natürlich noch die Center, die Cluster-Centren, die dieser KMEANS Algorithmus uns ausgegeben hat und wir sehen hier die Label, die der Algorithmus den einzelnen Zahlen gibt und jetzt kümmern wir uns mal um unser Bildchen hier, ich mache das mal groß, hier sehen wir auf der rechten Seite die Original-Daten, die Farbgebung hier spielt absolut keine Rolle, die ist einfach nur dazu da, damit Sie sehen können, dass diese Originale-Datensatz eben 4 Label hat oder 4 verschiedene Schwerpunkte hat und wir sehen, was der KMEANS Algorithmus daraus gemacht hat und wir sehen, wie dieser Algorithmus die Daten klassifiziert hat und wir sehen, das sieht schon mal gar nicht schlecht aus und wenn Sie jetzt natürlich das hier nicht kennen, dass die Original-Daten diese vier Kategorien haben, dann haben Sie hier, ich sage mal schwarze Wiese und hier haben Sie eine Klassifikation, eine Gruppierung, die vorher nicht bekannt war. In diesem Sinne sind wir mit dem KMEANS Algorithmus fertig und ich sehe Sie im nächsten Video.