 Ja, ich freue mich ganz besonders, jetzt den nächsten Vortrag ankündigen zu können, der zwei Themen vereint, die ich beide interessant finde. Zwar geht es zum einen um Maschinen-Learning, um speziellen Deep-Learning, aber auch gleichzeitig um Nachhaltigkeit, wie das Ganze verbunden werden kann und ob vielleicht der Deep-Learning-Hype irgendwie doch zu groß ist. Erklären uns Nadja Geisler und Benjamin Hetters, die an der TU Darmstadt arbeiten und forschen oder irgendwo zwischen drin sind. Und deswegen will ich jetzt gar nicht weiter groß reden und freue mich auf den Talk. Herzlich willkommen Nadja und Benjamin. Ja, herzlichen Dank. Hallo erstmal und schön, dass wir hier sein können, schon dass ihr alle hier seid, wir freuen uns wirklich wahnsinnig. Das ist für uns beide auch der erste Congress und das ist was ganz Besonderes, dann auch gleich hier oben zu stehen. Genau, ich bin Nadja und wie ihr schon gesagt habt, ich bin mit meinem Masterstudium in der TU Darmstadt fertig und werde wahrscheinlich demnächst dort anfangen zu promovieren. Ich mache das schon. Benjamin, hallo, seit zwei Jahren und habe festgestellt, ich will mich nicht nur damit beschäftigen, irgendwie toll Deep-Learning anzuwenden, sondern auch ein bisschen darüber nachzudenken, was das alles so bedeutet. Und weil wir da einiges doch rausgefunden haben, sind wir heute hier, um euch das auch zu erzählen. Unser Talk ist so zustande gekommen, dass wir das 36 C3-Motto gesehen haben und uns dachten, Nachhaltigkeit vereint doch eigentlich mehrere Aspekte, die wir schon immer spannend fanden, dass das Thema Deep-Learning in maschinelles Lernen angeht, Aspekte, die sich unter dem Stichwort zusammenfassen lassen, obwohl sie an sich sehr unterschiedlich sind und mit dem wir uns in der Maschine schon beschäftigt hatten und zu den Aspekten wollen wir uns heute euch heute was erzählen, weil gerade das Thema Nachhaltigkeit momentan besonders aktuell, besonders wichtig und besonders relevant für unsere Zukunft ist. Bevor wir aber auf die drei verschiedenen Ebenen von Nachhaltigkeit über die wir reden wollen eingehen, das ist die wissenschaftliche Ebene, die gesellschaftliche Ebene und die Umweltebene, dann müssen wir ein bisschen zuerst mit euch klären, wovon reden wir eigentlich, wenn wir die Learning sagen, was sind so die absoluten Basics für das wir, was wir die nächsten 30, 45 Minuten reden werden. Was müsst ihr wissen, damit wir euch gut mitnehmen können. Und das wollen wir jetzt machen, das beinhaltet unter anderem, was meinen wir damit, wenn wir die Learning sagen, wie funktioniert das auf einer intuitiven Ebene, nicht so sehr auf einer detailreichen technischen Ebene und wozu wird das aktuell jetzt schon angewendet. Und wenn wir die Learning sagen, dann meinen wir vor allem dieses Konstrukt, das der Neuronalesnetz nennt, Artificial Neural Network of English. Das sind so Maschinenlearning-Konstrukte, die es schon sehr lange gibt, die dann zwischendurch mal eine starke Flaute in der Beliebtheit haben, weil sie eben doch nicht die Ergebnisse gebracht haben, die man sich erhofft hatte und inzwischen sind sie wieder extrem beliebt, um alle möglichen Probleme, Aufgaben mit maschinellen Lernen anzugehen. Dabei bezeichnet ein Neuronalesnetz wesentlichen eine Verknüpfung von Knoten. Diese Knoten können je nach Architektur verschieden miteinander vernetzt und durch verschiedene mathematische Funktionen verbunden sein und jede Knoten wiederum repräsentiert eigentlich nur eine nicht-in-jahre Berechnungsfunktion. Soweit so logisch, wir berechnen also sehr, sehr viel. Und wenn diese Gewichte zwischen den Berechnungen erstmal fertig bestimmt sind, sprich wenn das Neuronalesnetz trainiert ist, dann lässt sich für jede nummerische Eingabe, die man im Netz gibt, auch eine entsprechende Ausgabe bestimmen. Diese Ausgabe macht dann Aussagen über irgendwelche Größen, über irgendwelche Klassifizierungen oder irgendwelche Zuordnung. Die wichtigste Voraussetzung für viele, wenn auch nicht alle Arten von neuronalen Netzen, sind entsprechende Trainingsdaten und die auch noch in großer Menge. Ob diese Trainingsdaten gelabelt sein müssen, also sowas wie schon eine Bezeichnung der eigentlichen Zielgröße haben müssen vorher oder nicht, das kann unterschiedlich sein, ist aber an der Stelle auch gar nicht so relevant. Was wir brauchen sind wahrscheinlich sehr, sehr viele Daten, wenn wir mit neuronalen Netzwerken arbeiten wollen. Anhand dieser Daten, die möglichst vielfältig, möglichst repräsentativ sein sollten für die spätere Wirklichkeit oder das, was wir damit bearbeiten und einfangen wollen, daran handelsen wird das Modell gelernt. Um das Modell später einzusetzen und das sieht man hier ganz gut, wenn man einmal von links nach rechts schaut, braucht man zunächst Inputdaten, die muss in einem nummerischen Format sein, wie man dahin kommt, sind sehr viele verschiedene Methoden, aber an der Stelle auch gar nicht so relevant. Und diese Inputdaten gehen dann zu diesen Knoten, zu den Neuronen und jedes Neuron repräsentiert irgendwo ein bestimmter Eigenschaft, ein bestimmtes Feature. Bei einer Bilderkennung könnte das eine Kante sein oder eine Ecke oder ein Helligkeitsunterschied, ganz verschiedene Dinge. Je weiter wir in das neuronalen Netz reingehen, je tiefer die Ebenen werden, desto höher levelig sind die Eigenschaften, die wir repräsentieren. Das Problem bei der ganzen Sache ist normalerweise, dass wir gar nicht so genau wissen, was dieses Neuron repräsentiert. Bei einem Algorithmus, der Bilder klassifiziert, der zum Beispiel Hunde und Wölfe voneinander entscheiden kann, können wir nicht uns einen Neuron anschauen und können sagen, aha, das hier schaut, ob da eine Kante ist, die einen Schwanz repräsentieren könnte. Sondern es sind einfach für uns nur irgendwelche Zahlenwerte, die wir nicht weitere interpretieren können. Das bedeutet, wir haben Blackbox-Modeller. Wir verstehen also nicht im Detail, welches Gewicht, wofür steht, was wir eigentlich gelernt haben. Und im Endeffekt, wenn ein Input reingeht, warum der Output rauskommt, der am Ende tatsächlich rauskommt. Das bildet also im Prinzip die Basis für alle Systeme, die irgendwie als Teil von Deep Learning bezeichnet werden. Was wir da an der Stelle also haben, ist, wir nehmen Mathe, wir nehmen große Mengen von Daten und wenden einfach Tricks aus der Statistik an. Wir nutzen aus, dass bestimmte Dinge, wenn man das nur oft genug betrachtet, wenn man es nur oft genug anwendet, durchführt, dann eine gewisse Systematik ergeben, dass man Muster erkennen kann, wir generalisieren. Wie man hier also sieht, werden einfach Tricks übernommen, die es in der Statistik schon seit 400 Jahren gibt. Und dafür angewandt, um jetzt irgendwie zu versuchen, aus einem Haufen Daten, ohne ihn wirklich zu verstehen, ohne genau zu wissen, was da drinsteckt, einfach durch schiere Masse Muster zu erkennen und dann hoffentlich zu wissen, okay, wenn ich jetzt weit genug generalisiert habe, wird mein System schon irgendwie gut genug sein für mein Anwendungszweck. Das hat aber, obwohl der Name ja Deep Learning und künstliche Intelligenz alles das sagt, nicht so wahnsinnig viel damit zu tun, was wir als Intelligenz verstehen, was wir als lernen verstehen. Der Tweet hier fasst das ganz gut zusammen. Er sagt, okay, das menschliche Hirn funktioniert ganz anders. Wenn das menschliche Hirn so wie Deep Learning funktionieren will, dann müssten wir einfach 200-mal ins Gesicht geschlagen werden, bevor wir überhaupt raffen, dass wir das nicht mögen. So ist das tatsächlich, wenn ich bei Deep Learning, wenn ich im 50, 100, 200 Wölfe zeige und Hunde zeige, dann weiß das System noch gar nichts. Weil es nicht schnell genug interpretieren kann, nicht genug Kontextinformationen einbeziehen kann, nicht genug von all dem nutzen können, was das menschliche Hirn, was wir können, wenn wir irgendwas machen, um irgendwie Entscheidungen zu treffen. Und das ist ein großes Problem. Warum genau, werden wir gleich nochmal im Detail besprechen. Sorgt aber dafür, dass wir einfach nur auf Masse gehen und dadurch einfach eine bestimmte Genauigkeit so leicht nicht erreichen können, wie wir sie gerne hätten. Die intuitive Ursprungsidee hinter neuronalen Netzen war tatsächlich mal sozusagen die Funktionalität des Gehirns nachzubauen. Unsere Neuronenfeuern auch sind auch miteinander vernetzt, können irgendwelche Dinge auslösen. Das ist aber heutzutage nicht mehr, wie neuronale Netze funktionieren. Wir bilden damit nicht wirklich die Funktion organischer Gehirne nach, sondern das war zwar die Intuition dahinter, das funktioniert aber tatsächlich sehr anders. Der für uns interessante Teil ist aber inzwischen, wie wird das Ganze eigentlich angewendet? Wo begegnet uns das im Alltag nicht nur in Forschungslaboren, nicht nur an akademischen Institutionen, sondern auch tatsächlich in Systemen, die wir jeden Tag benutzen, die inzwischen weit verbreitet sind. Mit allen Nach- und Vorteilen, nach der großen Flaute, von der wir es eben schon kurz hatten, erlebt das Feld gerade wieder ein riesiges Hoch. Und sie sind in so vielen Bereichen im Einsatz, das einen kurzen Überweg davon zu verschaffen, quasi ein mögliches. Extrem weit verbreitet sind Sachen wie Sprachassistenten. In den letzten Jahren, Siri, Alexa, Echo, all das, die müssen sowas können wie Sprachverarbeitung, die müssen sowas können wie Textverarbeitung, die müssen Sprachsynthese beherrschen, die müssen auch irgendwo information retrieval beherrschen und tatsächlich auch die Informationen aus dem riesigen Informationscluster der das Internet nun mal ist, hervorzuholen. Aber auch weit verbreitet durch solche Unternehmen wie Tesla oder Uber sind inzwischen die Bereiche des autonomen Fahrens oder generell des autonomen Transports, die sich dann eher mit vielleicht Bilderkennung bearbeiten müssen, mit Navigation, mit Feinkontrolle an motorischen Bauteilen etc. Nicht ganz so offensichtlich, aber dennoch, wenn man drüber nachdenkt oder wenn man es gesagt bekommt, dann doch sehr gut sichtbar, auch für alle Menschen im Alltag sind Recommendationssystems, sowas wie Amazon Kundenkauften auch, sie könnte interessieren, alles, was uns irgendwie Vorschläge generiert, die Sortierung von Google-Ergebnissen oder generell von Suchmaschinen, wie mir den Ergebnissen angezeigt werden, was wie gerankt wird, aber auch sowas wie, was zeigt mir mein Facebook-Newsfeed überhaupt an? Wer bekommt was, wann und wie oft zu sehen? Das ist bei Weitem nicht so straightforward, nicht so offensichtlich, wie sich das viele Leute denken. Deutlich weniger bekannt sind dann schon Systeme, die sowas wie Rückfälligkeits-Einschätzungen für strahlfällig gewordener machen, die in Gerichtsverfahren dazu verwendet werden, um anhand von irgendwelchen Scores Strafmaße zu vergeben. Das geschieht in den USA schon seit Jahren. Aber auch Sachen, die anhand von Gesichtserkennung versuchen, verdächtige Personen zu identifizieren oder die Scoring-Algorithmen, die für irgendwelche sozialen Systeme verwendet werden oder die zur Einschätzung für Versicherungen verwendet werden, aber auch Einstellungsverfahren, die anhand von Stichwörtern von Lebensläufen und auch bevor jemals jemand auf die Unterlagen drauf geschaut hat, Kandidatinnen aussortieren. Und diese Systeme arbeiten auch da wieder so, dass wir häufig nicht verstehen, genau, was sie tun, teilweise so, dass man im Nachhinein denkt, um Gottes Willen, wie können die so funktionieren. Das heißt, sowohl diese Einstellungen bei Gesichtsinterpretationen oder für Bewerbungsverfahren, wo irgendwie ein 15-sekundiges Video analysiert wird, übernimmt regelmäßig solche Systeme, wie wir messen jetzt Abstand zwischen Augen, Nase, Mund, was weiß ich, was wir leider, wenn man ganz ehrlich ist, erkennen aus irgendwelcher Genetik, die die Nazis betrieben haben, um irgendwelche überlegenen Rassen zu identifizieren. Und solche Dinge werden in Systemen heutzutage eingesetzt, nicht unbedingt absichtlich, aber wenn man sich die Mühe macht, zu verstehen, was das System eigentlich tut, stellt man plötzlich mit großen Bedauern fest, dass es genau das tut. In all diesen Bereichen, in allen Unteraufgaben davon und noch viel mehr kommen diese Deep Learning-Systeme mit allen ihren Nachteilen und oftmals mit unbeabsichtigten Nebenwirkungen aktuell zum Einsatz. Und das werden immer mehr. Genug dazu, was die Grundlage ist, genug dazu, was wir unter Deep Learning verstehen und wo es angewendet wird, dass wir das nächste Mal mit wissenschaftlicher Nachhaltigkeit beschäftigen. Und die erste Frage, die sich die meisten Leute dazu stellen, ist, was bedeutet denn wissenschaftliche Nachhaltigkeit eigentlich? Wenn wir das sagen, meinen wir solche Fragen, wie relevant ist eigentlich das Thema, an dem wir forschen? Wie relevant sind meine Ergebnisse für die Zukunft, für die weitere Entwicklung des Feldes, für den Alltag der Menschen, um die es letztendlich geht? Wir fragen uns aber auch, können wir diese Ergebnisse überhaupt reproduzieren? Wie kann irgendjemand anderes, wenn er dieses Paper gelesen hat, zu den gleichen Zahlen, zu dem gleichen Ergebnis oder zumindest zu der gleichen Größenordnung kommen? Haben wir die dazu notwendigen Mittel, haben wir die Details publiziert und sind die Ergebnisse so verlechtlich, dass es möglich ist? Wir meinen auch, können wir Dinge, die in der Forschung entwickelt werden, wiederverwenden? Oder sind sie nur für diese eine sehr spezielle Aufgabe relevant? Wir meinen auch, sind wir konkurrenzfähig oder sind andere Systeme, die mit dem gleichen und weniger Aufwand entwickelbar einsetzbar sind, nicht vielleicht sogar besser? Wir meinen auch, mit welcher Systematik wurde dieses System gebaut? Nach welchem System wurde untersucht, was an dieser Stelle hilfreich ist und was nicht? Oder war das völlig willkürlich? Und schlussendlich meinen wir auch, was ist die Aussagekraft meiner Ergebnisse? Wie war die Evaluationsmethodik? Was ist dabei am Ende rausgekommen, was tatsächlich relevant, nennenswert, statistisch signifikant ist? Und an der Stelle überlegen wir uns kurz, ich weiß nicht, einige von euch kommen sicherlich aus dem Wissenschaftlinienbereich, andere aus der Industrie ist völlig egal, wie man sich eigentlich wünschen würde, dass Wissenschaft funktioniert. Nämlich irgendwie systematisch, Menschen denken sich Dinge aus, überprüfen sie, stellen fest, sie stimmen und alles ist gut. Tatsächlich haben wir in diesem Bereich häufig, sehr häufig ein völlig anderes Verfahren. Es gibt Publikationen zu irgendwelchen Arten, wie kann man diese Neuronen, die wir vorhin hatten, wie kann man diese Modelle aufbauen, was kann man da machen, dass die Daten dadurch fließen. Dazu denken sich Leute was aus, dann publizieren sie das, veröffentlichen das und andere Leute denken sich, okay, das klingt auch spannend, lasst das mal nehmen, um daraus jetzt irgendwie für meinen Anwendungsfall ein neues System zu bauen. Das heißt, sie nehmen dieses Modell, was man irgendwo gehört hat, Fachwelt geistert, dann überlegt man sich grob, wie baut man das auf, wie nehme ich das, ich kann also irgendwie sagen, okay, ich packe jetzt so und so viel Schichten von diesem Typ hintereinander, sagen wir mal so und so viele und die Schichten machen wir so groß, wir arbeiten jetzt mit so und so viel dimensionalen Vektoren, das denkt man sich einfach aus, was irgendwie plausibel klingt, dann guckt man, dass man die Daten noch irgendwie so lange schlägt, was man gerade haben will, macht da irgendwelche numerischen Werte daraus auf teilweise sehr fragwürdige Art und Weise und dann wird das Ganze in das Netzwerk gepackt und das ganze Ding nennt sich Deep Learning, das heißt jetzt kommt das Lernen, das basiert halt darauf, dass man die Daten reinschiebt, guckt, wie gut es passt, wie gut war die Vorhersage, dann anhand dessen das System anpasst, die Daten wieder durchfließen, dessen das Ganze immer und immer wiederholt, und dann Gewichte in diesen Funktionen, die man da eigentlich im Prinzip konstruiert geraten hat oder gelernt hat, die plausibel erscheinen für den Zweck, den man braucht und das ergibt dann das Modell. Wenn die Zahlen, die dann rauskommen auf den Daten, den man das testet, ganz gut aussehen, dann nehmen die Leute das und schreiben ihr Paper darüber und sagen okay, für Klassifikation von Wölfen gegen Hunde haben wir jetzt folgende Architektur folgendes Ding, wir sind doch diese Daten, das sind die Werte, die wir haben, bitte schön, das ist jetzt das tolle neue Forschungsergebnis. Wenn die Werte nicht so gut aussehen, dann hat man wohl vielleicht dieses falsche State-of-the-Art-System genommen, was gerade irgendwann veröffentlicht hat oder man hat eine Schicht zu wenig, eine Schicht zu viel, die Vektoren haben die falsche Dimensionierung. Na ja gut, dann rate ich eben neue Parameter, ist ja alles nur Strom und Zeit, lässt das Ganze weiter trainieren, wie es im EU heißt und dann fängt man von voneinander mit und guckt, ob jetzt gute Zahlen rauskommen und je nach dem sagt man dann okay, ich mache weiter oder ich fahre wieder durch. Dazu kommt dann noch das Ganze ist jetzt ja schon irgendwie ziemlich unwissenschaftlich, das ist eigentlich nicht mal mehr empirische Forschung, dass es wirklich ausprobieren und hoffen, dass was Gutes rauskommt. Aber danach werden jetzt ja noch die üblichen Schönungsmethoden anwenden, die es natürlich in der Wissenschaft gibt, die man auch so leicht gar nicht finden kann, leider. Man kann natürlich jetzt sagen, ich zeige nur die Ergebnisse auf den Datensets, bei denen die Zahlen gut aussehen und das auf dem zweiten Datensets mit den Fotos aus einer anderen Perspektive oder mit einem anderen Hintergrund jetzt leider nicht gut funktioniert hat. Das muss ich ja niemandem erzählen, das veröffentliche ich einfach nicht mit, das muss mir jetzt erstmal jemand nachmachen und zeigen, dass es mit was anderem nicht funktioniert und selbst wenn nicht, ich habe ja eine Publikation und das ist leider in vielen Feldern heutzutage was wichtig ist, irgendwo bei einer wichtigen Konferenz ein Paper veröffentlichen, mit dem man eine minimale Verbesserung gegenüber von dem bisherigen State auf die Art gezeigt hat. Natürlich kann ich außerdem eigentlich sollte ich solche Experimente vermutlich mehrfach wiederholen und einen besten Score veröffentlichen und weitere solche Tricks anwenden. Das heißt, wir haben sowieso schon einen schlechten Prozess, der dann auch noch teilweise missbraucht wird, um schneller bessere Ergebnisse zu kriegen und das dann zu publizieren und das ist das, was wir viel in diesen Feldern sehen. Definitiv nicht bei allen Papers, das ist gut beforst, aber die vielen Anwendungspapers können an der Stelle und allein schon in dem wie sie entstanden sind begründet keinen wirklichen Mehrwert liefern, was ihre Relevanz und ihren Vorteil daraus entsteht, ergibt. Das Ganze ist natürlich plakativ formuliert und natürlich bringen wir das Ganze ein bisschen auf den Punkt um zu überspitzen, aber Tatsache ist, wenn man sich in einem Feld bewegt, was so viele mögliche Gründe und so viele Dinge hat, die diese Fallstrecke begünstigen, dann werden sie auch immer mehr genutzt. Genau. Wir sehen natürlich besonders, es gibt gerade im Deep Learning diese Möglichkeiten, denn wir haben schon gesagt, wir verstehen nicht, was diese Modelle tun normalerweise. Es gibt ein Forschungsfeld, was daran arbeitet, aber normalerweise verstehen wir nicht, was diese Themen tun, das sind Blackbox-Modelle, die kriegen Daten damit irgendetwas damit gemacht, am Ende kommen Daten raus. Das Ganze geht noch über mehrere Schritte. Wir haben die Daten, die werden irgendwie vorverarbeitet, dann kommen die Daten rein, gehen durch dieses System, dann werden sie eventuell nachverarbeitet, am Ende müssen noch evaluiert werden, entschieden werden, was ist jetzt richtig, was ist exakt richtig, was ist gerade so richtig, reicht mir das vielleicht, um es als Stimmte schon so in meinem Paper zu publizieren. Was ich genau gemessen habe, wird häufig gar nicht erst angegeben, das heißt, dort ist es extrem leicht möglich, auf diese Art und Weise zu arbeiten und gerade dadurch, dass überall heutzutage eben ExpertInnen für dieses Feld gesucht werden, dass das überall jemand Anwendungen haben möchte für Deep Learning, kommt man damit eben ganz gut durch, deswegen passiert das dort besonders. Man muss auf der anderen Seite, wenn man eben die guten Jobs kriegen, will auch solche Publikationen beweisen, also wird es entsprechend gemacht und genauso es sind halt sehr viele Low-Hanging-Fruits dabei. Das heißt, Dinge, wo man weiß, okay, mit wenig eigenen großartigen Ideen und mehr Anwend- und Handwerkszeug kann ich irgendwo was bauen, was es noch nicht gibt und solange ich der erste dazu bin, kriege ich das leichter hin. Ich muss mich nicht mit irgendwem vergleichen, ich zeige, okay, mein System kann das mit einer akzeptablen Genauigkeit akzeptialen Ergebnissen, damit bin ich die erste Person, die das geschafft hat und kann das entsprechend veröffentlichen. Deswegen versuchen halt möglichst viele Leute, möglichst schnell solche Dinge rauszuhauen, neue Publikationen in diesen Bereichen zu veröffentlichen. Wenn wir jetzt wissen wollen, wie gut eigentlich ein System ist, was vorgestellt wird wäre es natürlich schön, wenn wir die Experimente einfach wiederholen könnten. Das ist allerdings leider gar nicht so trivial, denn auch wenn die Systeme, die eingesetzt werden, die Grundlagen-Systeme häufig ein gewisser Standard sind und irgendwie auch als Open Source existieren, gilt das eben nicht für die ganzen Anpassungen und die ganzen Details, die die Personen einbauen. Das gilt also nicht für den eigentlichen Caot, für die Pipeline, aber auch für die Pre-Processing, für die Evaluierung Das gilt nicht unbedingt für die Daten, häufig sind Daten nicht verfügbar. Wir wissen, Daten sind wertvoll, deswegen will man sie nicht aus der Hand geben, aber so funktioniert Wissenschaft nicht. Ich kann nicht auf meinen Daten, die ich für mich behalte, arbeiten. Sie niemals zeigen und sagen, aber mein System ist gut, ich habe es ja selbst getestet, dass ihr es jetzt nicht überprüfen könnt, per ich gehabt. Ich habe in diesen Systemen enorm viele Hyperparameter, die wir haben es ja gesagt, erst mal häufig geraten werden oder halt durch grobes ausprobieren, bestimmt werden. Wenn ich diese Hyperparameter nicht weiß, habe ich keine Chance, das System nachzubauen. Ich weiß auch nicht, mit welchen Installierungen die zufällig geschehen sind, mit welchen Reihenfolgen und Aufteilung der Daten das ganze geschehen ist. Das heißt, wenn ich diese ganzen Details nicht habe, habe ich erst mal keine Chance, genau ein System nachzubauen. Ich habe auch aber genau diese exakten Werte, weil diese Systeme enorm fragil sind. Das heißt, wenn ich Kleinigkeiten ändere, ein bisschen die Dimensionen verändere, die Größe der Schichten, gar sogar die Funktionen, die da aneinander gekettet werden, ein bisschen ändere, kriege ich völlig andere Ergebnisse. Und weiß nicht mehr, ob das andere System wirklich schlecht oder gut war, oder ob es eben nur daran liegt, dass ich es nicht genau nachbauen kann. Problem. Es gibt es zwar Bestrebungen, dass das so was besser wird, aber keine Zwang oder so dafür. Das heißt, wenn ich ein Paper publiziere auf einer der großen Konferenzen, in meinem Anwendungsgebiet, oder auch im Kern-Maschinenleinungen-Bereich, dann ist es gewünscht, dass sie reproduzierbar sind. Es ist aber nicht erzwungen. Das heißt, es gibt zusätzlich nochmal das, ich möchte, dass mein Paper so ein Siegel kriegt, das ist reproduzierbar. Dann muss ich im Prinzip diese Dinge hier bereitstellen, die wir ja aufgelistet haben. Und dann versuchen andere Leute eben nachzuvollziehen, ob das was ich mache, auch stimmt. Und dann kriege ich halt so ein Häkchen. Aber wenn ich das nicht tue, dann mache ich es eben nicht. Das ist sicherlich eine Stelle, die man hinterfragen muss, wo auch zum Glück schon Dinge geschehen. Also diese reproduzierbarkeit wird rückt mehr in den Fokus der Konferenzen. Der Effekt von dem Ganzen ist natürlich dadurch, wir haben ganz viel Forschung, die nicht genutzt werden kann von anderen Leuten. Das heißt, ich muss natürlich die Forschung an der Stelle wiederholen. Andere Leute müssen sie wiederholen. Und zusätzlich durch das sowohl durch diesen Effekt als auch durch den Drang möglichst viel und möglichst schnell zu publizieren, wird halt extrem viel Forschung auch so wiederholt und an ähnlichen Problemen immer wieder gearbeitet, um Minimale zur Verbesserung zu bekommen, das ist ja auch schon ein, mein System ist 0,5 Prozentpunkte besser als das bisherige State-of-die-Art-System wiederpublikieren kann. Das heißt, wünschenswert wäre es, wir hätten überall diese reproduzierbarkeit. Das heißt, das Wichtigste wäre natürlich, wie alle immer, wenn wir hier sitzen und wenn wir irgendwas erforschen, wir müssen unseren Sourcecode veröffentlichen. Guck mal da, ein Eichhörnchen. Das ist leider, was es viel zu häufig passiert, wenn es zu wissenschaftlichen Code geht. Das heißt, selbst die AutorInnen, die vorhatten, ein Code zu publizieren, das ganze öffentlich zu machen, wenn viel zu schnell vom nächsten Projekt von der größeren Deadline von den beschäftigten DoktorandInnen oder von der Tatsache, dass der Code immer noch nicht aufgeräumt ist, weil man einfach echt nicht dazu gekommen ist, vor der Deadline abgelenkt. Wir haben einen extrem hohen Publikationsdruck im Bereich die Learning, die Publikationen steigen effektiv exponentiell. Man muss immer schneller sein, um wirklich noch State-of-the-Art zu sein, um die Messerung noch an den Markt bringen zu können. Das sorgt dafür, dass irgendwo uns aber gearbeitet wird. Mein Code wird nicht dokumentiert. Er wird als SpaghettiCode geschrieben. Er wird irgendwie hingehängt. Hauptsache, es funktioniert bis zur Deadline. Danach müsste ich mich hinsetzen und das Ganze wieder aufarbeiten. Das ist ein Riesenstückarbeit. Eigentlich steht schon die nächste Publikation an. Alles ist plötzlich interessanter, als den Code zugänglich zu machen. Das gilt wieder nicht für alle Paper. Natürlich gibt es dort, wie wir es machen. Es gibt immer noch von einer großen Konferenz in dem Bereich die Reproducibility Challenge. Wo ein wesentlicher WissenschaftlerInnen aufgefordert werden, sich ein akzeptiertes Paper aus der Konferenz 2018 oder jetzt in der Konferenz 2019 rauszusuchen und mit allen Mitteln und Wegen zu versuchen, die Ergebnisse nachzuvollziehen. Teilweise oder im Detail komplett erst mal herausfinden, was kann ich überhaupt. Die Autoren sind angehalten, den Code zu publizieren und zu kooperieren und die Leute versuchen wirklich auch mit Zeitaufwand und mit dem entsprechenden Fachwissen die Ergebnisse nachvollziehbar und erklärbar und reproduzierbar zu machen. Die Erfolgsrate ja, ein Teil können wir nachvollziehen immerhin 50 Prozent. Immerhin ein Großteil des nachvollziehenden Konten 30 Prozent gar nicht reproduzieren, waren aber immer noch 10 Prozent. Jetzt ist das interessant, aber ja der Schwierigkeitsgrad. Dass man es irgendwie reproduzieren kann, ist an sich schon mal gut, aber noch nicht ausreichend. Wenn man sich die komplette Forschung dafür neu machen muss, dann lohnt es den Aufwand schlicht und einfach nicht. Reasonable difficulty ist in dem Fall, sagen wir, ein nicht sehr konkretes Wort. Aber Tatsache ist, dass es bei mindestens 20 Prozent der Papers sehr, sehr schwierig war und überhaupt keine Probleme aufgetreten sind bei einem absolut vernachlässigbaren Teil. Was sie dabei noch gemacht haben, ist, sie haben gefragt, diese Wissenschaftlerinnen, denen diese Challenge gestellt wurde, haben wir momentan eine Reproducibility Crisis von Machine Learning. Seht ihr ein Problem und die Anzahl der Leute, die ein Problem sehen, ist über diese Challenge um doch diverse Prozentpunkte gestiegen. Das heißt, einfach mal selbst zu versuchen hat nochmal 15 Prozentpunkte mehr der Befragten Wissenschaftlerinnen ungefähr davon überzeugt, dass da tatsächlich ein Problem existiert und dazu geführt, dass drei Viertel der Befragten Wissenschaftlerinnen tatsächlich inzwischen Paper, die sich damit beschäftigen, wie gut andere Paper reproduzierbar sind. In dem Fall aus dem Bereich von Recommendation, also es geht darum, aus einer Menge von Dokumenten, bestimmte Dokumente für eine Anfrage oder Frage, was ist ich vorzuschlagen. Da gab es in den letzten Jahren 18 Publikationen, die alle auf Deep Learning gesetzen bei großen Konferenzen und dann haben sich die Leute mal hingesetzt und geguckt, wie viel können wir davon reproduzieren. Inklusive, wir schicken erstmal den Autor in eine E-Mail, ob sie uns vielleicht ihren Code geben können, bitten nochmal nach und versuchen, die Sachen zu laufen zu bringen, versuchen irgendwie teilweise sogar ähnliche Hardware zu beschaffen, wie die verwendet haben und bauen das nach. Und insgesamt haben sie für dieses Beispiel von diesen 18 Paper, ganze sieben Paper wirklich reproduzieren können. Das heißt, bei denen können sie die ganzen Sachen nachbauen, können es laufen lassen und kommen dann auf ähnliche Ergebnisse. Aber wichtig, erst nachdem sie die Arbeit investiert haben, erst nachdem sie nachgefragt haben, erst nachdem sie versucht haben, die Dinge aufzutreiben, die nicht von sich aus rausgegeben wurden. Das ist nicht der Standardprozess. Also normalerweise wenn ich irgendwo auf einer Konferenz einen Paper schicke und sage, okay, das möchte ich veröffentlichen, dann lesen Leute nur dieses Paper. Gucken Sie sich eventuell noch ein Video an oder vielleicht sogar ganz, ich finde mal mal zusätzliche Datensätze, die hochgeladen werden, aber normalerweise lesen sie nur dieses Paper, diese 6, 8, 10, manchmal 12 Seiten mit eng geschriebenen Ergebnissen und entscheiden nur anhand des Textes, der dort dann steht und anhand der Zahlen, die die Autorinnen selbst rausgegeben haben, ob diese Arbeit relevant, richtig und irgendwie nutzbar erscheint. Und dann wird entschieden, ob sie veröffentlicht wird oder nicht. Aber sie können normalerweise nicht in irgendeiner Form überprüfen, ob das wirklich so ist. Sie müssen komplett auf den Text vertrauen. Ohne, also das ist der Standardfall, wenn wir nicht explizit Zierbarkeit fordern für irgendwelche Konferenzen und wie gesagt, die bisherigen Großkonferenzen, es gibt keine, die von den angewandten Konferenzen, die Reproduzierbarkeit explizit fordert. Es ist immer nur ein zusätzliches, eine challenge oder ein zusätzliches Problem. Aber bisher basiert die Annahme und die Veröffentlichung von irgendwelchen Papern komplett nur auf dem Review von den eingeweiften Sachen, ohne den Versuch, es auch zu reproduzieren. Noch zu dem Beispiel, um es noch dem motivierender zu machen von diesen sieben Ergebnissen, die sie reproduzieren konnten, haben sie dann außerdem noch mal nicht die Learning basierte Ansätze genommen, die damit erinnert haben, dass sie von diesen sieben Papern noch bessere Ergebnisse kriegen. Das heißt, von diesen 18 Publikationen hat eine für externe Leute messbaren wissenschaftlichen Fortschritt gebracht. Und genau diese anderen Ansätze sind nämlich leider etwas, was sehr stark durch diesen Hype, der ja offensichtlich funktioniert, so voll wie es hier heute ist, das Wort Deep Learning zieht, werden die verdrängt. Der Rest sind häufig nur Baselands. Ich muss ja nur im Paper irgendwas angeben, dass es ein anderes System ist, mit dem ich es vergleiche, damit ich zeige, dass mein neues System besser ist, als das, was bisher da ist. Dann gebe ich mir natürlich auch keine Mühe, dass ich diesen Anteil, dieses andere System besonders gut dastehen lasse, denn dann wird es wirklich eben an diesem Deep Learning Krams geforscht. Und alles andere wird vernachlässigt, obwohl man da noch sehr viel rausholen könnte, weil man es denn wollte und irgendeinen Vorteil davon hätte. Und es wird wirklich alles andere nur als Baseline betrachtet. Ganz kurz noch exkurs, das ist ein Foundation Talk, Baseline. Ich brauche irgendeinen System, mit dem ich zeige, dass meine Saaten valide sind. Das ist irgendwie plausibles, was ich rauskriege. Das ist ein Baseline-Einsatz für eine binäre Entscheidung, einfach ein Münzwurf. Wenn ich ein System baue, was zwischen Hund oder Wolf entscheiden muss und es hat nur 5% Genauigkeit, dann hätte ich mal lieber eine Münze geworfen, dann würde ich nämlich nur die 50% Genauigkeit kriegen, dann ist mein System also außerordentlich schlecht. Sobald ich über diese 50% rüberkomme, über diese Baseline, kann ich in diesem Paper inhaltlich begründen, warum mein neues System besser ist, als diese Baseline. Wenn ich das so halte, habe ich es an der einer Stelle leichter. Dazu ganz kurz um das in zahlen zu fassen, Kegel ist eine Plattform, in die datenwissenschaftliche Challenges stellt, an der jeder dann mitarbeiten kann und einen Versuch einreißen kann, diese Challenge zu schlagen, zum Beispiel im Bereich Bilderkennung, aber eigentlich alles, was da ein wissenschaftlicher und ein maschinelles Lernen in Worte fasst. Das ist der Unterschied zur akademischen Forschung, dass wir uns nicht so sehr am State of the Art orientieren, sondern die Leute haben das auch viel Deep Learning dabei, weil Deep Learning hat immer Sachen, an denen viel entwickelt wird, wo es viele fertige Frameworks gibt und was verrufen ist, als das, was irgendwie mit allem funktioniert unter gewissen Voraussetzungen. Aber trotzdem sehen wir, dass auch klassischere Ansätze hier einen sehr, sehr hohen Anteil einnehmen, einen höheren Anteil, als manchmal bei entsprechenden Konferenzen zu finden ist. Das heißt, wenn es mir nur darum geht, dass jetzt etwas funktioniert und ich nicht maximal einen Aufwand reinstecken will, dann ist die Deep Learning plötzlich nicht mehr ganz so beliebt und dafür gibt es mit Sicherheit einen Grund. Wir wollen aber noch zu zwei weiteren Aspekten kommen und der Nächstes, der der gesellschaftlichen Auswirkungen, weil auch was unsere Gesamtgesellschaft betrifft, müssen wir in der Forschung, was das Maschine Lernen und das Deep Learning angeht, ein bisschen auf Nachhaltigkeit achten. Gerade das Thema Erklärbarkeit und Transparenz. Das Thema kann nicht das System, was vielleicht sogar lebenswichtige Entscheidungen trifft, irgendwie verstehen. Das ist das System, das wir hier haben, aus der Software Compass. Ich habe es vorhin schon erwähnt, die wird verwendet, um bei straffällig gewonnen Menschen in Gerichtsverfahren einen Score zu ermitteln, mit welcher Wahrscheinlichkeit sie rückfällig werden im weiteren Verlauf ihres Lebens. Und dieser Score wird von RichterInnen dann verwendet, um das Strafmaß zu bestimmen. Wenn wir uns jetzt den Hintergrund der Hautfarbe, dieser Menschen anschauen, für die diese Scores bestimmt wurden, erkennen wir nicht mit anderer Hautfarbe. Das heißt, um links sehen wir, dass hohe und niedrige Scores annähernd gleichmäßig verteilt werden. Während wir eben bei Menschen mit eindeutig weißer Hautfarbe oder die so wahrgenommen werden, eine sehr starke Häufung bei niedrigen Scores haben. Das hat sich aber in vielen Einzelbeispielen inzwischen gezeigt, dass das schlicht und einfach falsch ist. Dass für ähnliche Verbrechen sehr unterschiedliche Strafen vergeben wurden. Und das nicht der Fall ist, dass die Personen mit einer Hautfarbe, die in den Bereich tätig sind, drauf geschaut und haben gesagt, eigentlich hätte ich an Hand der Vorstreifen das gerade andersrum verteilt. Und das ist ein riesen Problem, weil das Systeme sind hier aktuell zum Einsatz kommen und die für Menschen lebenswichtige Entscheidungen treffen müssen. Für niemand ist ersichtlich, warum dieser Score so gegeben wird. Die Firma sagt von sich, und das ist insofern auch korrekt, wenn man das wörtlich nimmt, dass der Hintergrund oder die Hautfarbe dieser Menschen in den USA mit dem Einkommen, mit dem Wohnort etc., dass das gar nicht der entscheidende Faktor ist. Als weiteres Beispiel können wir mal darüber nachdenken, was wir denn mit dem Begriff eindeutig Handlungsvorschrift meinen. Viele Menschen bezeichnen damit Algorithmen. Was sie damit nicht bezeichnen wollen, ist, dass wir alles, was algorithmische Systeme uns vorschlagen, auch als Handlungsvorschrift zu behandeln haben. Das ist nicht, wie wir das gemeint haben, sondern wir müssen mit diesem System immer reflektiert und kritisierend bezeichnen, ob jetzt die Learning überhaupt noch auf diesen Begriff passt, auf dieser eindeutigen Handlungsvorschrift ist schon wieder extrem fragwürdig, denn wir reden hier von sehr stark statistisch geprägten Systemen, wo sehr viel Zufall mitspielt. Und man könnte sie, wie es in diesem Tweet gestehen, das vielleicht eher als maschinelles Bauchgefühl bezeichnen, als das eindeutige Handlungsvorschrift. Das heißt, was wir hier eigentlich erleben, ist eine wahnsinnige Generalisierung nur. Wir nehmen Datenpunkte aus der Vergangenheit, die wir schon haben. Wir wenden sie an, wir trainieren darauf und danach versuchen wir einfach und hoffen, dass wenn wir diese Sachen, die wir haben, wenn wir die nur weit genug generalisieren und wenn wir irgendwo versuchen auf Teufel kommen raus und das System muss immer was liefern. Normalerweise liefern die Systeme immer einfach ein Ergebnis, egal, ob sie einen guten Grund dafür sehen oder nicht. Sie versuchen einfach ein Muster zu finden und dann liefern sie ein Ergebnis. Und das bedeutet, dass das, was immer landläufig als die KI sagt etwas vorher oder denkt sich etwas aus oder was ist ich, im Prinzip nur ein Auswendig lernen und generalisieren und das Ergebnis irgendwie wieder raushauen ist. Bei gelernten Systemen reden wir oft von Prediction oder Vorhersage. Was wir aber eigentlich getan haben, ist nicht über die Zukunft nachzudenken, sondern ausschließlich über die Vergangenheit. Und dann ist es die interessante Frage, ob wir wirklich Dinge vorhersagen oder eigentlich nur reproduzieren. Das Problem ist aber auch, dass die Menschen den Computern vertrauen. Das trifft vermutlich jetzt nicht auf alle Leute hier im Raum zu. Das ist sehr angenehm. Aber in der Gesellschaft ist das enorm verbreitet zwischen KI ist irgendwas tolles, KI ist super, KI wird uns retten. KI kann das, was wir nicht können. Beispiele, wir haben diese große Forschungsinitiative überall, muss KI gemacht werden. Wenn ich KI in meiner Arbeit bekomme, bekomme ich Geld. Wenn ich auf meine Hautcreme draufschreibe, dass sie mit KI optimiert wurde, kann ich sie besser verkaufen. Und wenn ich will, dass mein System und ich als Firma gut dastehe, dann kann es sich sogar lohnen, was geschieht, was Google aber auch viele andere machen, kann es sich lohnen, Leute einzustellen, die so tun, als wären sie Computer zum Beispiel, die irgendwo anrufen, weil der Computer dazu eigentlich noch nicht in der Lage ist. Und dann die Servierungen oder was sie sich durchführen, nur damit man dann am Ende rausschreiben kann, dass die eigenen KI-Systeme ja so wahnsinnig toll sind und weil es ja kein Mensch ist, sondern der Computer, der ja bestimmt viel weiser sein muss, kann man dadurch sich Geschäftsvorteile verschaffen. Ein ganz besonders bonerendes Beispiel haben wir uns außerdem noch mitgebracht. Ich frage direkt vor weg zu nehmen, ja, das gibt es wirklich. Und ich hoffe ehrlich gesagt, ich muss gar nicht erklären, warum das so unglaublich kritisch ist, aber ich frage einfach mal, was passiert mit unten Menschen, so rein soziologisch, so rein psychologisch, wenn wir mit Maschinen interagieren, als wären sie Menschen, als hätten sie Gefühle, wenn sie Muster imitieren, wie sie in der Beziehung und inzwischen menschlicher Kommunikation stattfinden. Was passiert da, was passiert da, was passiert da, was passiert da, was passiert da, was passiert da, was passiert da, was passiert, worauf lassen wir uns ein, wie viel bei ist, den wir nicht haben sollten, akzeptieren wir. Um noch zu einem ganz anderen Thema zu kommen, und ich hoffe, das müssen wir nur ganz kurz anschneiden, denn ich habe keine Antwort auf die Frage, die ich gerade gestellt habe, Daten. Und ich glaube, dass hier sein Rahmen, in dem ich wenig erklären muss, warum Datensparsamkeit wichtig ist. Wir haben aber mit Deep Learning ein fundamentales Problem, wir brauchen nämlich extrem viele Daten. Und das beißt sich ganz, ganz stark mit einem anderen Thema, über das könnte man mindestens einen eigenen Talker hatten. Außerdem Beispiele wie das, viele werden das auch schon gesehen haben, eine KI, die sich gefühlte 15 Minuten im Netz bewegt hat und plötzlich überaus rassistisch und anderweitig inakzeptable Äußerungen gebracht hat, weil sie nun mal aus dem Internet gelernt hat. Und die interessante Frage stellt sich an der Stelle ganz krass, sollten wir wirklich versuchen mit maschinellen Systemen Menschen nachzubilden oder ist das vielleicht eine sehr schlechte Idee? Wir müssen uns stellen, der für uns alle relevant ist, denn wir arbeiten in irgendeiner Form an Systemen, die irgendwie was in der Welt bewegen sollen. Wer ist für all das verantwortlich? Ganz typisches Beispiel haben wir bei den autonomen Fahrzeugen, da wird es schon x-mal diskutiert. Wer ist dafür verantwortlich, wenn ein Unfall passiert? Aber bei jedem weiteren System gilt das auch. Es gibt so viele Stellen, die daran beteiligt sind. Wir haben die Personen, die das Ganze programmieren, die Personen, die es in Auftrag gegeben haben, die Firma, die das Ganze kauft, vermarktet, vielleicht öffentliche Stellen, die entsprechend Regularien dafür veröffentlichen. Wir haben Versicherungskonzerne, wir haben Privatpersonen, die ein autonomus Fahrzeug oder irgendein anderes Intelligenzsystem besitzen. Wer ist schuld? Wer kann belangt werden, wenn irgendwas passiert und welche Auswirkungen hat das? Denn je nachdem wer dafür belangt kann, ergeben sich völlig unterschiedliche Entscheidungen von den Beteiligten Personen, wogegen sie ihre Systeme absichern? Wie sie ihre Systeme designen? Und diesen Punkt dazu gibt es keine befriedigende Antwort. Eine Umfrage unter den AmerikanerInnen sagt, dass die Mehrheit das inakzeptale findet, dass ein Computersystem oder algorithmische Systeme genutzt werden, um in bestimmten Bereichen zum Beispiel bei der Einschätzung von Strafmaßen oder für den Bewerbungsprozess von Menschen, dass der Computer wesentliche Entscheidungen dafür trifft. Blöd nur, all das wird heutzutage schon gemacht. Und zwar mit immer stärker werdenden Ausmaß. Und als drittes kommen wir jetzt zu einem Punkt, der oft vernachlässig wird, wenn es in die Pläne geht. Ja, das werden die alle, die wir heute gesagt haben, aber der ganz besonders und wir glauben, dass der trotzdem relevant ist. Nämlich gerade zu Zeiten, wo das Thema Klimawandel wieder mehr in den Medien kommt, wo sowohl die Gegner als auch die Befürworte von irgendwelchen Maßnahmen stärker werden, ist das ein Thema, bei das wir auch nachdenken müssen. Auch wenn es auf den ersten Blick nicht mit unserer Arbeit zu tun hat. Wir haben natürlich bekannt, ist es im Bereich zum Beispiel von den Kryptocurrencies, dass sie enormen Stromverbrauch haben. Zum Beispiel eben ein Bitcoin Transaktion verbraucht ungefähr so viel Strom wie 500.000 Visa Transaktionen. Eine einzige. Und das entspricht ungefähr dem Stromverbrauch eines Kühlschranks für acht Jahre. Für eine Transaktion. Aber Bitcoins ist nicht der einzige Bereich, wo wir Probleme kriegen. In der Hinsicht, wir haben auch das generell in allen Formen, wo wir große Daten haben. Deep Learning braucht große Datenmengen. Datenmengen müssen wir in der Hinsicht arbeiten, transportieren. Und dafür haben wir weltweit inzwischen eine relativ großsteigende Anzahl an Rechenzentren, die zwischen 200 und 500 Milliarden Kilowattstunden pro Jahr gerade verbrauchen. Ganz genau kann man das natürlich nicht sagen, weil die Firmen auch diese Daten als Geheimnis betrachten. Wenn man alle Rechenzentren zusammen als Land betrachten würde, hätten wir fünf Länder auf der Erde die Rechenzentren. Und auch das wird weiterhin steigen. Wir haben, wenn man jetzt noch kleiner guckt auf das, was wir jetzt beschrieben haben, den Trainingsprozess von einzelnen Modellen. Auch da schon einen erschreckend hohen Stromverbrauch, der auch dort leider nicht linear, sondern deutlich darüber ansteigt. Wenn wir jetzt noch ein bisschen einzelne Modelle trainieren wollen, sehen wir, dass die großen State-of-the-Arts-Systeme, die dann natürlich von Firmen wie Google und Facebook, AI und anderen Forschungs- Einrichtungen von großen Firmen vorgeschlagen werden, dass dort Strom verbraucht wird für 100.000, teilweise Millionen an Euro, dass dort auch inzwischen natürlich zusätzlich noch GPUs, TPUs eingesetzt werden, die schwer zu bekommen sind, die teuer anzuschaffen sind, so dass wir natürlich sowohl durch den Stromverbrauch als auch durch die Infrastruktur erstens, also erstens haben wir diesen Umwelteffekt, zweitens haben wir den Effekt, dass immer weniger Firmen, immer weniger große Einrichtungen in der Lage sind, Deep Learning auf dem State-of-the-Art durchzuführen, das heißt, auch da gesellschaftliche Auswirkungen problematisch, Umweltauswirkungen problematisch und leider ein Trend, der offensichtlich genau in die falsche Richtung geht. Wenn man sich das nochmal hier anguckt, was das auch für den CO2-Ausstoß bedeutet, sehen wir, dass das Training von einem einzigen Modell, wie es dann veröffentlicht wird am Ende von so einem großen Modell, ungefähr so viel CO2-Ausstoß wie fünf Autos in ihrer ganzen Lebensdauer, inklusive Produktion und inklusive sämtlichen Sprit, der dann in der drin verbrannt wird. Und solche Forschung findet ständig weiterhin statt, weil man ja weiter publizieren wollte, wie wir am Anfang schon erzählt haben. Das heißt, dauerhaft werden solche Modelle gerade auf der Welt trainiert, um dann irgendwo in irgendeinem kleinen Teilbereich eine neue Publikation machen zu können. Und jetzt komme ich und bringe die frohe Botschaft. Nein, im Ernst, es ist nicht alles ganz so schlimm, wie es jetzt gerade scheint, wenn wir die Nachteile auflisten. Tatsächlich kann der ganze Bereich des Maschinenlernen auch Vorteile mit sich bringen und hier in diesem Beispiel sogar auch tatsächlich das Deep Learning. Es geht darum, dass Google über Jahre hinweg versucht hatte, mit Hilfe von Maschinenlernen die Betriebe ihrer Datenzentren zu optimieren. Da auch eine Einsparung und Stromverbrauch zu erreichen. Wir reden hier von Reinforcement Learning, für die von denen das sagt, was eben die Kühlungssteuerung, die Abschaltung von Servern etc. beeinflussen konnte und damit den Stromverbrauch bis zu 40% gesenkt hat. Das ist auf jeden Fall eine gute Nachricht. Natürlich ist auch mir die Ironie klar, dass wir hier von einem Stromvertrag von Datenzentren sprechen, die vielleicht ohne das Feld auch einfach gar nicht so sehr nötig wären. Trotzdem, man kann diese Wissenschaft, man kann diese Bereiche auch durchaus für gute und für nützliche Sachen nutzen, die uns allen was helfen können. Das lässt sich natürlich nicht auf alle großen Strom- und CO2- Produzenten übertragen, die wir in unserer Industrie so haben. In der Autoindustrie zum Beispiel wird das schon sehr viel schwieriger, wenn wir von Montageprozessen reden, wenn wir von Produktionsprozessen reden, da kann man nicht einfach wild durch die Gegend tauschen, welcher Task man ausgeführt wird, die ihn sammeln und nach zum 3 machen, wenn die Server vielleicht nicht ausgelastet sind oder sie nicht direkt ausführen, damit der Server nochmal abgeschaltet bleiben kann. Aber trotzdem ist das was mit was wir uns auf jeden Fall beschäftigen sollten. Mit Strom- und CO2 ist das Lied um die Umweltauswirkung aber noch nicht zu Ende. Es geht auch darum, wie wir unsere Infrastruktur belasten, und so weiter beanspruchen für den Bau, für den Betrieb, für den Transport, für die Vernetzung von den ganzen Systemen, die wir für diesen Forschungsfeld brauchen. Es geht darum, was wir für Platz beanspruchen, mit Forschungszentren, mit Datenzentren, mit Supercomputern und GPU Produktionen. Es geht darum, wie viel Arbeitskraft und wie viel Zeitaufwand gebunden ist, nur um am neuesten neuronalen Netz zu forschen. Es geht darum, wie viel Forschungsgelder da rein investiert werden, mit denen man auch andere Dinge tun könnte. Und es geht um endliche Ressourcen unserer Erde, wie Metalle, wie die sogenannten seltenen Erden oder wie Erdöl, die dafür gebraucht werden. Und es gibt noch so viel mehr. Das waren nur ein ganz kleiner Einblick in das Thema und es ist ganz wichtig, es geht nicht nur um den Stromverbrauch. Und die Awareness an der Stelle ist einfach noch viel zu nierig, um darüber quantitativ Aussagen treffen zu können. Aber es ist auf jeden Fall ein Faktor. So viel wissen wir. Und wir kommen damit auch schon zur Frage, wie kann es denn eigentlich weitergehen? Wichtig ist, dass wir alle uns bewusst sind, dass wir die Verantwortung tragen, wie es in dem Bereich weitergeht. Denn sowohl die Leute, die in diesem Learning-Arbeiten, aber auch in allen Bereichen, die damit verbunden sind, wir forschen, wir bauen Systeme. Wir sorgen dafür, dass solche Systeme weiter entstehen, dass sie wichtiger werden. Dass sie, obwohl wir wissen, dass zum Beispiel das Autos auf Generalisierung auf Vereinfachungen besteht, dass sie trotzdem für Dinge eingesetzt werden. Wir sorgen dafür, dass unsere Sensorik, die wir in Autos verbauen, irgendwelche 25 GB pro Stunde an Daten produzieren, die man dann wieder auswerten, um daraus was machen kann. Wir sorgen dafür, dass Systeme optimiert werden. Wir sorgen auch dafür, dass das gebaut werden für die Industrie, damit das komische Hautpflegeprodukt plötzlich KI optimiert ist. Das kann man natürlich alles einfach so machen, weil man dann in dem Bereich gut Geld verdienen kann. Es ist aber vermutlich keine gute Idee, sondern man sollte sich wirklich überlegen, was sind die Konsequenzen von dem Ganzen und was müssten wir eigentlich alle ändern, um die ganze Feld weiterzutreiben, denn das ist das Schöne, zumindest im Forschungssektor. Es ist alles von der Community angetrieben. Es ist immer eine Entscheidung von allen Forscher in den ganzen Bereichen, ob sie genauso weitermachen oder ob sie eben ihre Arten schieben, ob sie anders agieren, ob sie mehr solche Dinge achten oder eben nicht. Grundsätzlich, um weiterzumachen, gerade um die gesellschaftlichen Auswirkungen des Themas zu beeinflussen, was müssen wir anstreben? Wir müssen das Kurs anstreben, wir müssen mit der gesamten Gesellschaft, mit einer riesigen Breite an Menschen darüber reden, was wollen wir von diesen Systemen, unter welchen Umstellen wollen wir das von den Systemen, was sind die Auflagen, die wir stellen, was finden wir akzeptabel und was nicht. Es funktioniert nicht, wenn diese Entscheidungen getroffen werden von fünf Leuten, die irgendwie ihre eigenen Interessen vertreten müssen. Das ist ein Diskurs, der auf jeden Fall in die gesellschaftliche Breite gehen muss, das ist einfach keine eine klare Antwort. Und die Antworten, die wir brauchen, die müssen wir zusammenfinden. Wir müssen aber auch Bildung auf allen Ebenen vorantreiben, weil ich muss als Informatikerin auch die ethischen Auswirkungen meines Handelns bedenken. Ich muss auch dem End-User sagen können, was das jetzt bedeutet, wenn er dieses System für was einsetzt. Auch wenn er die technischen Details nicht versteht, muss er in der Lage sein, einzuschätzen, ob der Einsatz in der Stelle sinnvoll ist. Und gerade auch die Menschen, die die Legislatur vorantreiben und diese Menschen sollte es auf jeden Fall in irgendeiner Form geben, müssen genug davon verstehen und einschätzen zu können, was sie da gerade erlauben oder nicht erlauben, damit wir auch die positiven Aspekte solcher Felder mitnehmen können. Awareness ist ganz besonders wichtig, damit wir diesen Diskurs führen können, damit wir diese Bildung vorantreiben können, müssen wir darüber reden, wie funktioniert unsere Daten und unter welchen Umständen verwenden wir sie, wo kommen die Modelle her, wie funktionieren, Erklärbarkeiten, Reproduziierbarkeit, aber auch, wer trägt die Verantwortung, was sind die Konsequenzen und wie fühlen wir diesen Diskurs. Am Ende gilt wir müssen umdenken, statt nur zu folgen. Es funktioniert nicht, wenn wir einfach so weitermachen wie bisher, sondern wir müssen in manchen Dingen einfach grundlegend auch nochmal nachdenken. Viele dieser Maßnahmen sind tatsächlich doppelt hilfreich, begünstigen sich gegenseitig. Wir stecken dann nicht unbedingt in einem Teufelskreis drin. Wenn wir systematisch arbeiten, dann tun wir der Reproduzierbarkeiten gefallen, aber auch unserem Ressourcenverbrauch, weil wir viel weniger nochmal machen müssen. Wenn wir die Alternativen zu deep learning auch nutzen, tun wir der Erklärbarkeiten gefallen, aber auch der Datensparsamkeit wahrscheinlich. Und wenn wir den Publicationsdruck senken und in die Höhe schreiben, dann fördern wir den wissenschaftlichen Anspruch und wir helfen unserem Ressourcenverbrauch. Aber insgesamt ist unsere große Herausforderung momentan in der Gesellschaft verbreitete Unwissenheit und das nicht richtig reflektiert wird, was das aber für Auswirkungen hat, was wir machen und in welchen Skalen wir uns da bewegen. Damit sagen wir fürs Erste auch schon Danke. Schön, dass Sie hier waren. Wir haben uns wirklich auch gefreut, hier sein zu dürfen. Wir hoffen, wir geben ein paar Denkanstöße mit, weil wir können in dieses Thema nur sehr, sehr oberflächlich einsteigen in 50 Minuten. Aber auch über den Vortrag hinaus sind wir da froh, wenn Leute sich informieren, wenn Leute recherchieren, selbst kritisieren und reflektieren oder auf uns zukommen, wenn es irgendwelche Fragen gibt. Danke schön. Okay, alles klar. Ja, wie erwähnt, wir haben noch ein paar Minuten Zeit für Fragen, damit wir auch möglichst viele und zügig durchkommen. Bewickle ich doch bitte direkt zu den Saalmikrofonen. Und wir fangen direkt hier mit Mikrofon 4 an. Kurz. Ich versuche mich kurz zu halten. KI für Autos ist ziemlich faszinierend. Die unterscheidet zuverlässig zwischen einem Baum und einem Verkehrsschild. Ich bin immer wieder enttäuscht, wenn ich KI sehe für Suchmaschinen, Optimierung, was ich da angeboten bekomme. Ich glaube, das Problem ist die Datengrundlage. Also einem Baum, da gibt es kein Diskussion, das ist ein Baum. Was jetzt die schönste Webseite ist oder das nächste beste Video, das ist eine Geschmacksfrage. Worauf ich hinaus möchte, wäre es nicht sinnvoll oder dringend notwendig, darüber nachzudenken, wie die Trainingsdaten qualifiziert sind, ob man die qualitativ einsortieren sollte. Ich stimme so weit absolut zu. Trainingsdaten-Diskussion steht an, müssen wir führen. Qualität ist extrem wichtig. Das Problem geht aber, glaube ich, noch darüber hinaus. Zum einen die Frage mit dem Auto und dem Fußgänger ist es gar nicht so trivial. Die Annahme haben festgestellt, dass Fußgänger nur auf dem Fußgänger überweg zu finden ist. Das ist vielleicht gar nicht so realistisch. Trivial ist es also nicht. Natürlich sind Suchmaschinen auch eine subjektivere Entscheidung, weil was ich suche, weiß am Ende nur ich. Und jemand mit der gleichen Suchanfrage sucht vielleicht was anderes. Und natürlich ist das Internet einfach eine extrem riesige Datenbasis mit sehr unsauberen Daten. Das ist eine völlig andere Herausforderung als Bildklassifikation von einem autonomen Fahrzeug. Und wenn es eben wie Google gerade was Suchmaschinen angeht, müssen wir definitiv reden. Alles klar, dann machen wir doch direkt weiter mit einer Frage vom Signal Angel aus dem Internet. Das Internet fragt, sollen wir das mit dem Deep Learning dann eigentlich lieber lassen? Oder seht ihr auch sinnvolle Anwendungen zum Beispiel, um irgendeinen hohen Datenaufwand für freigiebige Nutzerinnen irgendwie zu reduzieren zum Beispiel? Also es sein zu lassen ist sicherlich nicht der richtige Ansatz. Es zeigt sicher, dass Deep Learning für bestimmte Dinge sehr wertvoll ist. Wir haben jetzt Beispiele gezeigt, wo es gut funktioniert, was vielleicht auch funktioniert. Gerade bei außerordentlich komplexen Dingen haben wir wenig Ansätze, die anders gut funktionieren. Also was ist ich? Die Verarbeitung menschlicher Sprache zum Beispiel hat einen riesen Schritt nach vorne gemacht durch Deep Learning. Weil menschliche Sprache so unglaublich komplex ist, dass ich mit allen bisherigen Ansatz, bei denen ich irgendwie Silbenzähle und Buchstaben vergleiche oder sowas, nicht so wirklich weiterkomme. Da brauche ich ganz viel Wissen rein. Das heißt, man muss sich eben überlegen, ist es für diesen Zweck der richtige Ansatz? Also ich will das jetzt nicht persönlich für ein Beispiel oder sowas beantworten. Das muss man sich gründlich überlegen. Auch das sollte sicherlich an die wichtigen Messages hier sein. Genau, wir stellen im Prinzip nicht die Frage, sollten wir Deep Learning verwenden, sondern wofür sollten wir es verwenden und was müssen wir vorher bedenken? Alles klar, ich versuche mit den Fragen hier im Raum so halbwegs chronologisch zu machen, eine Frage zur Reproduzierbarkeit. Ich saß gerade in einem Lightning Talk, da hatte jemand genau das Problem, das was nicht reproduzieren konnte. Eine seiner Hauptforderungen, um das zu beheben, war, dass alles, was man braucht zum Reproduzieren, zur Verfügung gestellt wird und dass das auch von Journals Enforced wird über Reviews oder über ansonstige Sachen. Seht ihr, dass es da irgendwelche Bestrebungen in die Richtung gibt oder ist es ein zu großer Hype, als dass man da irgendwie eingreifen könnte, sinnvoll? Es gibt, wie gesagt, diese Siegel bei vielen Konferenzen, sicherlich auch bei Journals, bei Journals, je nach Feld. Also in dem Bereich, hier wird gar nicht so viel in Journals publiziert, weil man Konferenzen leichter hinkriegt und alles geht schneller. Journals dauert alles irgendwie immer zu lang. Es wäre wünschenswert, dass da mehr passiert, dafür müssen sich aber quasi diese, ich denne sie mal ältesten Rate, die da sich zusammensetzen und diese Konferenzenplanen organisieren, dafür entscheiden, dass ihnen bei Ihnen, für Sie das auf der Pirateliste auch so weit oben ist, dass Sie das erzwingen. Bisher ist es eben alles optional. Wünschenswert wäre es definitiv. Und sicherlich reden wir da auch in irgendeiner Form über Regularien und dabei müssen wir dann immer noch unterscheiden zwischen öffentlich geförderten Forschungseinrichtungen und privater Forschung. Das ist da nämlich sehr unterschiedlich heran, Herausforderungen. Okay, dann gehen wir gerade mal kurz zu Mikro Nummer 7, da ganz am Rand. Hallo, danke für den Vortrag. Haltet ihr AGI für möglich und wann könnte es so weit sein? AGI, Omnipotent Intelligenz oder? Artificial General Intelligence. Okay. Momentan auf Forschungsstand Hell No. Okay, das war eine relativ unprofessionelle Antwort. Aber momentan haben wir hauptsächlich sehr spezialisierte Expertsysteme, die genau einen detailreichen Task machen können. Selbst bei Sprachassistenzsystemen, die irgendwie ein paar Tasks, aber immer noch eine sehr eingeschränkte Menge machen, haben wir aktuell im Forschungsstand zwei große Fortschritte, aber man kann sehr, sehr einfach die Schwächen ausnutzen. Es gibt eine total spannende Professorin in den USA, die immer sagt, gibt mir irgendein Sprachverarbeitungssystem in drei Fragen, mache ich es spätestens kaputt und sie hat das bisher noch immer geschafft. Ich glaube, wir das auch. Also wir haben da momentan mit dem aktuellen Stadt der Technik ziemlich krasse Limitationen in den nächsten Jahren. Ich persönlich, sie ist nicht kommen. Grundsätzlich ist künstliche Intelligenz aber auf allen Ebenen etwas, was sie im Auge behalten sollen. Also ich würde auch wiederum nicht behaupten, dass davon keinerlei Gefahr ausgeht. Es ist aber auch nicht der zentrale Punkt zur Zeit. Also das meiste, was woran die Leute forschen, sind spezialisierte Systeme und vielleicht noch zusätzliche Systeme, die vorne dran gestellt werden, die dann entscheiden, an welches Teilsystem das Ganze weiter gereicht wird. Aber daran zu forschen, ein weltverstehendes System, was irgendwie auch noch beliebige Formate von Antworten geben kann oder sowas zu bauen, gibt es sicherlich die Forschung, aber es ist nicht das, was irgendwie auch in den Publikationen groß Platz findet, dass man dort eben überhaupt nicht so weit wäre. Und das andere einfach viel einfacher ist, wenn man da viel leichter was veröffentlichen kann. Mir das fachlich interessiert, ist vielleicht ein schöner Einstiegspunkt, semantische Modellierung, weil wir bei vielen künstlichen Intelligenzsystemen noch darüber sprechen, dass allgemein Wissen hintergrundwissen, diese ganzen Sachen fehlen und die Darstellung dafür auch. Das ist noch eine der großen Herausforderungen seit Stichwort. Okay, dann nehmen wir noch eine Frage aus dem Internet. Ich soll erst mal liebe Grüße aus dem D120 ausrichten. Das wisst ihr jetzt besser als ich, was das ist. Die Frage ist, ist die Reproduzierbarkeit nur oder gerade im Deep-Learning-Problem oder betrifft das nicht sogar große Teile der Maschinen-Learning-Forschung? Definitiv große Teile der Maschinen-Learning-Forschung, würde ich sagen. Ehrlich gesagt, auch darüber hinaus, Reproduzierbarkeit ist bei fast allen wissenschaftlichen Publikationen ein Faktor. Es gibt natürlich Sachen, die dafür anfälliger und weniger anfällig sind, gerade wenn wir über digitale Themen reden. Aber in sich Reproduzierbarkeit ist immer in der Forschung gewünscht und leider definitiv noch nicht weit genug verbreitet. Also definitiv die gesamte Informatik, ehrlich gesagt. Das, was wir hier gesagt haben, trifft auf vieler Form auf Maschinen-Learning im Allgemeinen zu. Aber dass Deep-Learning gerade durch diese riesen Datenmengen und so weiter, da treten die Effekte halt eben verstärkt. Besonders auf deswegen haben wir uns hier darauf konzentriert, aber man kann es immer beliebig... Und gerade, dass das so ein Basword ist, macht es auch nochmal anfälliger einfach dafür. Okay, dann Mikrofon Nr. 8. Ja, daran. Anschließend, ich habe irgendwie das Gefühl, dass ein großer Teil auch publikationsbar ist, wo so lange einfach rumgespielt wird an den Daten, bis irgendwie ein Ergebnis rauskommt. Und ich habe... Also es ist so ein Trend in der Psychologie, wo die das Problem ganz massiv hatten und die haben das dadurch gelöst, dass die sagen, hey, ich muss die Studien bei manchen Journals vorregistrieren. So, das möchte ich machen. Und dann kommt am Ende vielleicht ein negativer Ergebnis raus. Gibt es da Bemühungen im Maschinen-Learning, dass man sagt, ich publiziere den Korpus vorher, den ich auf dem nicht lernen will. Und wenn dann nichts funktioniert, dann ist das halt so. Ich würde sagen, das ist relativ schwer zu beantworten für den Bereich, weil es vielleicht nicht ganz so funktioniert. Also einen Datenkorpus zu publizieren an sich. Es gibt zum Beispiel Datenkonferenzen, die sich einfach auf sowas konzentrieren. Aber auf einem Korpus kann ich sehr viele Dinge tun. Und dadurch hilft mir das noch nicht unbedingt. Ich glaube, dass da die Fragestellung einfach komplexer ist. Ich kenne keine konkreten Bemühungen, die jetzt in so eine Richtung gehen. Ich fände sie aber wünschenswert. Es wäre definitiv wünschenswert, aber es wird in der Form kaum gemacht. Es sind eben keine... Also ich bin bisher fast nirgends wo, oder bei den großen Konferenzen bin ich niemals gezwungen, vorher zu sagen, was ich glaube, wie es ausgeht. Sondern ich liefere erst, erst wenn ich mein Ergebnis vorstelle, sage ich, was da rauskommt und welche Fehlschläge ich hatte und ob ich die überhaupt flachklauseliert ins Paper reinschreibe oder ob ich es komplett sein lasse, da zwingt mich niemand zu. Es gibt ein paar Bestrebungen, diese auch Publikationen von Fehlschlägen oder Missergebnissen zu machen, aber auch das wird immer noch von zu vielen Leuten belächelt, so als Unterhaltungsmedium mehr als ernst zu nehmen. Wissenschaft, das glaube ich auch ein Problem. Weil dadurch die gleichen Fehler, zum Beispiel gerade im Machine Learning, wo wir eben viel nicht systematsch arbeiten, sondern auch einfach ein bisschen nach Bauchgefühl gehen müssen, wiederholt werden, was eigentlich unnötig ist. Das weiß man doch, dass der Ansatz da nicht funktioniert. Ja, woher soll man das denn wissen, wenn man noch studiert? Okay, wir haben noch Zeit für eine kurze Frage und gehen zu Mikrofon Nummer fünf. Ich will ein paar Details zu dieser Beschreibung vom Black Box wissen. Ich weiß, dass man durch Feature Maps schon das Netzwerk untersuchen kann und wollte wissen, detaillierter was hier mal im Black Box, aber es ist nicht so black anscheinend. Das kommt darauf an, wie die Systeme gebaut sind. Also es gibt zum Beispiel den Ansatz von explainable neural nets, xnn, das ist durchaus valides Konzept und es wird auch eingesetzt. Es gibt aber auch Architekturen, die per se erstmal völlig unlesbar sind und die Ansätze, die darauf existieren, der Erklärbarkeit reinzubringen, sind noch sehr beschränkt. Es gibt sie, sie tun auch sinnvolle Dinge und das ist definitiv auch ein Bereich. Aber zum Beispiel beschränken sie sich oft, das ist nur auf den Bereich des eigentlichen Modells, was trainiert wurde. Die Pipeline der Machine Learning ist aber viel länger. Die beginnt ja schon bei der Datenerhebung, bei der Datenauswahl, bei der Vorverarbeitung, bei der Auswahl der Feature, aber auch beim Post Processing, beim Evaluationsmetricen usw. Und das sind alles irgendwo Stellschrauben, auch für Erklärbarkeit. Also wir haben da auf jeden Fall noch einen weiten Weg vor uns. Aber klar, es gibt Bestrebungen in die Richtung, die auch durchaus funktionieren für das, für was sie gedacht sind. Okay, dann sind wir jetzt am Ende der Zeit angekommen. Vielen Dank nochmal Nadja und Benjamin.