 Hey, willkommen zu diesem Talk auf KarstenTV. Dieser Talk, der Aufstieg und Fall der Forschung an Social Bots, wird präsentiert von Florian Galvitz. So ihr hört also die deutsche Übersetzung von Franz Theog Uesegum. Und jetzt geht es im Channel mit ihr englisch weiter. Dieser Vortrag wird von Florian Galvitz präsentiert, das Nürnberg Institute of Technology. Und er wird über etwas über Social Bots sagen. Im letzten Jahren haben wir viel gehört über dieses angebliche Phänomen von Social Bots. In diversen Medien wurde viel darüber geschrieben und präsentiert über entsprechende Wortaktivitäten in sozialen Medien. Und bereits vor vier Jahren hat Michael Kreil herausgefunden, dass die Forschung darüber einige signifiante Defiziter hat. Und Florian wird jetzt ein bisschen tiefer da reinschauen, warum die aktuelle Forschung da einige sehr schwere Fehler hat. Viel Spaß beim Talk, Aufstieg und Fall der Forschung über Social Bots. Vielen Dank für die Einführung. Und wenn er nicht gerade unter einem Stein hinter dem Mund gelebt hat, dann habt ihr viele Überschriften, wie die, die ihr gesehen. Ich habe jetzt dann zufällig ein paar ausgewählt über Google News. Und uns wurde gesagt, dass Bots auf Twitter die Verschwörungstheorien massiv verstärken oder falsche Informationen verbreiten über die Wahlen oder vielleicht sind sogar die Hälfte aller Twitter-Accounts, die etwas über Coronavirus tweeten, möglicherweise Bots. Und Bots sind auch eine verbreitete Quelle über Klimadisinfektion. Und es gibt hunderttausende davon. Und in der britischen Politik, Donald Trump hat Millionen davon, die ihn unterstützen. Und sie sind eine Gefahr für die Demokratie. Sie vergiften Demokratie. Sie beschädigen Demokratie. Und sie haben Johnson unterstützt. Sie haben falsche Informationen über die Waldbrände in Australien verbreitet durch und haben versucht, die Wahlen in USA und in Deutschland zu beeinflussen. Und also werdet da hunderte Überschriften dieser Art finden, wenn er bloß nach den Keywords Bots und Social Media sucht. Und hinter vielen dieser Überschriften gibt es tatsächlich, steckt tatsächlich etwas, also tatsächlich akademische Forschung. Meisten fällen ein Paper von Nevarra. Und die Forscher, die diese Paper behaupten jetzt, dass sie beweisen können, dass Bots tatsächlich Einfluss auf die US-Wahlen hatten oder falsche Informationen verbreiten, falsche Nachricht verbreiten. Und das Paper hier sagt, dass Bots eine wichtige Rolle bei dem Zumwallergebnis bezüglich des Brechts jetzt beteilgetragen haben. Und so wir haben ähnliches gesehen, ähnliche Paper gesehen über die Impfdebatte. Das ist ein Paper aus 2018. Das ist ein neues Paper und beide behaupten, dass Bots die Impfdiskussion massiv beeinflussen. Aber wir sehen das gleiche über die Klima-Debatte und und und und auch die Behauptung, dass das jede Menge Inhalte mit niedriger Glaubwürdigkeit auf Twitter von Bots verbreiten werden. Und ihr habt also also was wir jetzt feststellen müssen, dass die, dass diese Informationen, diese falsche Emotionen haben sich in den Paper stecken. Also was sind jetzt Social Bots? Es gibt viele verschiedene, leicht verschiedene Definitionen davon. Und die hier ist ein wie von Ferrar selbst, der praktisch den Begriff, den Hype Social Bots quasi gestartet hat. Social Bots sind automatisierte Accounts, die künstliche Intelligenz nutzen, um Diskussionen zu steuern und spezifische Ideen oder Produkte auf Social Media wie Twitter und Facebook fördern. Für typische Nutzer im Social Amesien sind die Bots nur schwer von menschlichen, tatsächlichen menschlichen Nutzern zu unterscheiden. Das heißt, sie zeigen also Foto oder Namen an Ort und benehmen sich halt so, wie man von einem menschlichen Nutzer erwarten würden. Und wenn man, wenn man sich alle diese Definitionen anguckt, bekommt man hier ein recht, recht brauchbares Bild, was jetzt der Konsens ist, was ein politischer Bots ist. Also es sind politische, also es sind politische Accounts, die politische Siskonen beeinflussen. Es sind automatisierte Accounts und es sind Accounts mit einem falschen menschlichen Profil. Also die überhaupt, die Fälschchen, die ihr ja vorgegeben, dahinter würde ein Mensch stecken. Und es gibt also, es gibt also Übereinschnittungen, also es gibt eine Schnittmenge zum Beispiel, zwischen politischen Accounts und diesen Fake Accounts, das wären zum Beispiel bezahlte Trolle. Und man findet sicherlich auch eine Schnittmenge zwischen politischen Accounts und automatisierten Accounts, wie zum Beispiel Fox News. Also das würde in beiden Kalorien fallen. Und also es gibt also automatisierte politische Accounts und natürlich gibt es auch Accounts mit gefälschten menschlichen Profilen und die automatisiert sind. Zum Beispiel Porn-Accounts, Kryptowährungs-Scams und dergleichen, bei Twitter zum Beispiel. Und Social Bots haben also alle diese drei Eigenschaften. Und von Social Bots wird zumindest gesagt, dass sie, dass sie in gewisser Weise, also dass Leute glauben, also es wird von ihnen, es wird ihnen nachgesagt, dass sie von sich aus sich selbst heraus automatisiert Content generieren können, Inhalte generieren können. Und also die Textgenerierung ist, wird also ihnen zugeschrieben. Also wenn Twitter also praktisch überfüllt ist mit diesen Social Bots, wo zur Hölle sind die? Also ich habe mich hinter das Licht gefühlt. Also wenn da also Millionen davon sind und ich habe aber bisher noch keinen einzigen gesehen. Also das hat mich jetzt etwas verwirrt, etwas verblüfft. Also ich habe einen Hintergrund in künstlicher Intelligenz, in Mustererkennung und Konversationssystem, Dialogsysteme, also Chatbots, wie man sie heute nennt. Und ich habe noch nie geglaubt, dass mit da, wo mir momentan mit der Forschung im Bereich Automatische Intelligenz sind, dass wir überhaupt in der Lage sind, diese solche politischen Bots zu bauen, die in der Lage wären, die politische Diskussion auch nur zu beeinflussen. Also wenn sie existieren, wie funktionieren sie denn? Also habe ich mal angefangen danach zu suchen. Und das ganz, die Sura hat angefangen im zweiten Hälfte von 2018, also vor drei Jahren. Also seit, seit 2018 habe ich also dritzende wissenschaftliche Paper gelesen und und berichte in den Medien. Ich habe so ziemlich alle, alle Zeitungsartikel über Social Bots gelesen, also die ich, die ich da gefunden habe in verschiedenen Ländern und ich habe hunderte Twitter-Accounts analysiert, ob sie, ob da, ob das tatsächlich irgendwie in irgendeiner Form Social Bots-Accounts sein könnten. Ich habe jede Menge Social Bots-Forscher gefragt, ob sie irgendwelche Beispiele dafür haben und ich habe auch Experimente mit der Twitter-Api durchgeführt, zum Beispiel mit Michael Keil zusammen, wo ich hunderttausende Accounts automatisch analysiert habe. Michael Keil ist da jetzt schon ein paar Jahre länger dran. Also die Gesamtanzahl an Bots, die ich gefunden habe mit diesen ganzen Methoden ist Null. Und ich habe also keine einzigen Social Bots gefunden, der diese Diskussion erfüllt, also vollständig erfüllt. Das kam mir ein bisschen komisch vor. Also woher kommt dieser offensichtliche Missmatch zwischen dem, was ich gefunden habe und zwischen dem, was behauptet wird. Und ich habe also auf die logische Hintergrund dahinter, hinter all diesen Papers und im Grunde genommen und gibt es praktisch zwei Methoden, die sie sich angeguckt haben. Das eine ist der Oxford-Kriterien. Die Oxford hat Universität von Oxford hat Definitionen erstellt, was schwere Definitionen ist. Das bedeutet, dass sind Accounts, die mindestens 50 mal am Tag was posten. Das heißt, der hat sich angeschaut, wie häufig Accounts auf Twitter was tweeten und alle, die mehr als 50 mal am Tag tweeten, waren stark automatisiert und damit definiert ein Brot. Und das ist ein bisschen komisch. Und der übliche, ja, ist, dass man ein automatisiertes Werkzeug hat. Das nennt sich Botometer. Man kann es einfach benutzen. Es gibt eine öffentliche Webseite dazu, wo man seinen Twitter-Account angeben kann und einen Knopf drückt und dann bekommt man ein Ergebnis, irgendwo zwischen 0 und 5 oder 0 und 1, die nach Skala, die benutzt wird. Und im Endeffekt sagt es einem, die Forscher nutzen in der Regel die API. Sie nehmen eine lange Liste von Twitter-Accounts und bei jedem Account bekommen sie einen Ergebnis und dann haben sie einen Grenzwert in der Regel 50 Prozent, 0,5. Und wenn die Score größer ist, dann behaupten sie, dass es ein Bot ist. Es gibt noch andere Werkzeuge, die eigentlich funktionieren, aber Botometer ist das beliebteste Werkzeug dieser Art. In beiden Fällen gibt es überhaupt keine manuellen Checks, wenn diese sehr groben Methoden definieren, was ein Bot ist. Und die Namen oder die Benutzer, die es werden auch nicht veröffentlicht, weil dann wird nie in diesen ganzen dutzenden Veröffentlichungen keinen einzigen Bot-Namen finden. Und wenn man die Autoren nach den Namen dieser Bots fragt, dann werden sie die nicht weitergeben. Sie werden irgendeine Ausrede geben, z.B. über Datenschutzrechte und Privatsphärenrechte oder sie haben die Daten noch zu sehen gelöscht oder der Pilat nicht gespeichert. Es ist quasi die Ausrede, wie der Hund hat meine Hausaufgaben getroffen. Und dann habe ich mir näher angeschaut, wie Forscher Überschriften generieren. Das ist z.B. ein super Beispiel, um eine Überschrift in der New York Zeit zu erstellen. Also man entscheidet, welches politische Interesse man hat und man kann einfach irgendeine politische Diskussion auswählen, z.B. Gaming. Das heißt, wenn man eine Überschrift über Gaming haben möchte und über Bots beim Gaming, dann schaut man sich Schlüsselwörter auf Twitter an, die dazugehören. Dann schaut man sich Accounts an, die über Gaming twittern und dann nimmt man eine lange Liste von Twittercouts. Dann nimmt man Botometer, macht einen Grenzwert und dann bekommt man eine Liste von Bots und Menschen und dann kann die New York Times sagen, dass ungefähr die Hälfte der Accounts, die über Gaming twittern, Bots sind. Und jetzt gibt es Leute, die sich vielleicht anschauen wollen, ob das wirklich Bots sind. Dann ist es aber einfacher, die Daten zu verstecken. Und weil Journalisten wollen, wie die Bots sich anschauen. Da haben sich die Gültigkeit noch nie angeschaut, auch ohne Bots zu sehen. Darum werden sie die einfach glauben und die rüber in den New York Times eine Veröffentlichung machen. Das erste Kriterium, das hilfreich ist in Zeraten von 15 Werten, ist das Oxford-Kriterium mit 50 Tweets pro Tag. Es ist ziemlich einfach zu zeigen, dass es einfach nicht benutzbar ist. Wir haben eine Reihe von großen Twitter-Accounts, von bekannten Leuten, die über 50 Tweets pro Tag bekommen, z.B. Glenn Greenwald oder Cory Doctoroff, der 142 Tweets bekommt. Das ist ein Autor mit sehr vielen Leuten, die ihm folgen oder Johnny Carrs, das ist ein deutscher Parlamentarier, der bis zu 300 Tweets pro Tag erstellt und selbst Donald Trump hat über 50 Tweets pro Tag gemacht, an sechs Tagen im Oktober und November. Oder zumindest in einer sehr kurzen Zeit. Und politische Aktivisten haben heute häufig mehr Zeit und die tweeten noch mehr. Mein Lieblings-Account ist ein Typ, der Erik Luxack ist. Er ist ein kanadischer Ingenieur und ein Lehrer, der tweetet über 300 Tweets pro Tag für mehrere Monate und er hat Justin Pardo und Merkheit über Liberalen. Und ein anderes ist der K-Pop-Band BTS, die mit ein deutsches Radio-Ersteller hat etwas Negatives über die Band getwittert und die BTS-Fans haben angefangen und veräckert darüber und haben mehr als zwei Millionen Tweets innerhalb von vier Tagen erstellt mit dem Hashtag Bayern 3. Das war das Programm, was da involviert war. Und 500 von denen. Wir haben 500 unterschiedliche Accounts und jede davon hat dieses Kriterium, dieses Oxford-Kriterium erfüllt. Maximum war 344 Tweets pro Tag und ich habe mir die größten Accounts in dieser Liste angeschaut und keiner zeigt, dass es irgendwo Automatisierung existiert. Es waren echte Menschen, die Twitter von sich selber getweetet hat und die aus unterschiedlichen Ländern kommen. Das heißt, das waren echte Menschen und keine Bots. Noch eine andere Art und Weise, das zweite Kriterium, das häufig benutzt wird, ist dieser Botometer. Und den Link dazu runden auf der Seite und ihr könnt einfach den Namen eines Twitter-Counts angeben und der Botometer wird ein Wert zurückgeben. Dies hier sind alles Bots. Wenn man das Botometer fragt, zum Beispiel Tim Cook oder der Papst oder der deutsche Kanzler Olaf Scholz, zum Beispiel, der ehemalige Auschwitzmuseum ist ein Bot. Joe Biden ist ein Bot. Der brasilische Präsident ist auch ein Bot und der sehr vertrau- und Christian Drosten ist auch ein Bot, der Virologe. Und der Economist, der nicht an Coronavirus glaubt, ist auch ein Bot. Und wenn man einfach Accounts einspielstreut oder nachschaut, dann sind das ganz viele Bots, wenn man das Botometer fragt. Eine ähnliche, ähnliche Ergebnis wurde von Jonathan Crile gefunden. Er hat alle Personen aus dem US-Kongress mal als über den Bot generatorisch getan und der hat herausgefunden, dass es einen zuverzahlen Generator ist, der eine Normalgeneration über den Threshold und um den Grenzwert erstellt. Und wenn wir jetzt denselbe herangehensweise benutzen wollen, um wie den sozialen Bot Generatoren haben, dann können wir auch Ufos finden oder wir können jedes mögliche Tier finden, was wir haben wollen. Und hier können wir uns mal anschauen, wie wir Einhörner finden. Stellt euch vor, wir wollten Einhörner finden in Afrika. Also würden wir eine Foto-Crab erstellen für Einhörner und wir wollen das im Sarangeto erstellen, um das zu trainieren. Dann haben wir das selbe Problem, wie die Bot-Rechercher haben. Wir haben keine echten Einhörner, um uns unserem Klassifizierer zu trainieren. Also benutzen wir einhornähnliche Tiere, z.B. ein weißes Pferd oder wir benutzen Spielzeug, Einhörner und als Trainingsatz für Einhörner. Und wir haben 100 Spiele, einen Kuh, einen Schwein, einen Katz und einen Hund. Und wir trainieren unseren Klassifizierer, unsere künstliche Intelligenz daran. Und dann setzen wir den in der Wildnis oder benutzen wir den in der Wildnis und dann finden wir ganz viele Einhörner. Z.B. in diesem Fall ist das Zebra eine 75-prozentige Wahrscheinlichkeit, dass es ein Einhorn ist, weil es ziemlich ähnlich zu dem weißen Pferd erst sieht. Und dieser weiße Ibrid hat auch einen sehr hohen Hohen, sehr hohe Wahrscheinlichkeit als Einhorn abgetan. Und wenn wir jetzt zeigen wollen, dass wir viele Einhörner in Afrika gesehen haben, dann wollen Leute vielleicht die Bilder anschauen. Aber das wäre natürlich schlecht für unsere Ergebnis. Und darum wollen wir diese Daten irgendwie verstecken, die echten Daten. Und dann haben wir einfach nur das Ergebnis des Klassifizierer und Reute, die das nicht wollen. Warum haben wir, erkennen wir, 100 Prozent der, wir finden 100 Prozent der Einhörner in unserer Trainingsdata. Und das ist was, Leute, überhaupt. Wenn wir uns jetzt genauer anschauen, wie diese Klassifizierer funktionieren, dann es ist eine statistische Klassifikation, z.B. bei Botometer ist das eine zufällige Faltklassifizierer. Jeder dieser Klassifizierer nimmt jeden der Eigenschaften in einem Feature-Bereich. Und jedes Einhorn und jedes Nicht-Einhorn hat eine Cluster in dem Featurespace. Und der Klassifizierer wird diese Grenze einzeichnen, die zwischen Einhörnern und Nicht-Einhörnern verteilen, wir unterscheiden können in echten, ähnlichen Daten. Und in den tatsächlichen Daten sieht es dann aber so aus, wenn ihr also die echten Tiere aus Afrika oder der ganzen Welt da einführt, werdet ja so viele, viele Einhörner und viele Nicht-Einhörner finden. Je nachdem, wo der Klassifizierer, die diese klassengrenzenden Klassware nur rein gelegt hat in den Feature-Raum. Und das hängt also sehr von euren Trainingsdaten ab, wie das Ganze aussieht. Aber es heißt, es mag also in euren Trainingsdaten so aussehen, aber in der Praxis könnte daraus jetzt nicht wirklich schließen, dass hier alles Einhörnern und Nicht-Einhörnern sind. Also, wenn ihr tatsächlich die schlechten Trainingsdaten rausnimmt, die automatischen, seht ihr vielleicht ein paar Einhörner und Nicht-Einhörner. Es mag also tatsächlich so existieren, aber es wäre gerade zum Lächerlicht daraus zu schließen, dass alle Tiere, die als Unicorn bezeichnet wurden von euren Klassifier, tatsächlich Unicaya sind und dass der relative Anteil von Einhörnern, die aus diesem Ansatz rauskommt, tatsächlich dem relativen Anteil in der Realität entspricht. Also, wir sehen also, dass diese BOT-Klassifizierer sind, also, sie sind nicht nur schlecht für die Forschung dabei, sie ist alles über noch viel schlimmer. Also, zunächst mal eine der fundamentalen Ideen hinter der Mustererkennung. Also, schauen wir uns mal den Ansatz an. Also, die Idee, die da genommen wird, also die hinter diesen Angaben wie 50 Prozent aller Accounts in BOTS ist, sie schicken also eine Liste in diesen Klassifizierer oder kommen da zum Beispiel fünf BOTS und acht Nicht-BOTS raus und jetzt kriegen sie da ein relative Anteil von BOTS, fünf von 13, also 38,5 Prozent sind sein BOTS. Das bekommen sie da raus mit diesem Ansatz. Und das ist die sogenannte, das wäre dann die Privallenz oder die a priori Wahrscheinlichkeit an BOTS oder das Pire, wie wir sagen. Und das Spaß hier ist, dass diese Wahrscheinlichkeit ist allerdings bereits Teil des Entscheidungsprozesses, das Klassifizierers hier. Also, ein Random Forest Klassifier hier wie BOTOMETER wird also diese Wahrscheinlichkeit bereits im Ergebnis, also bei dem Training in Mitzug genommen haben und wird sie diese Wahrscheinlichkeit von der aus den Trainingsdaten gelernt haben. Wenn ihr also 50 Prozent BOTS und 50 Prozent Nicht-BOTS in euren Trainingsdaten haben, wird der Klassifier annehmen, wird also Klassifier annehmen, dass tatsächlich 50 Prozent aller Eingaben Klassifier sind. Das heißt, der optimale BOT, der am besten, der optimal trainierte BOT wird also diese ganzen Schwellen so in der Form setzen, dass tatsächlich 50 Prozent aller Daten als BOT klassifiziert werden. Aber das ist jetzt ein Kreisschluss. Also, um die Anzahl an BOTS zu schätzen, muss man sich tatsächlich im Vorfeld schätzen. Das macht also keinen Sinn. Es ist praktisch nicht möglich, also es ist also nicht möglich, einen statistischen Klassifizierer zu nutzen, um die Prävalenz von BOTS in der tatsächlichen Welt zu schätzen. Und typischerweise, wenn ihr aus einem Festfire wie ein BOTOMETER anguckt, seht ihr übtigerweise eine Kurve wie diese. Also, auf der einen Achse habt ihr die Anzahl der Accounts, die als BOT klassifiziert wurden und auf der anderen Achse die Schwelle, die Threshold dafür. Und wenn man die jetzt hier zum Beispiel bei 0,5 ansetzt, dann wäre der Anzahl, der klassifiziert als BOTS, zu hoch. Und das könnt ihr also praktisch diese Schwelle frei wählen. Wenn ihr mehr BOTS haben wollt, dann nimmt ihr eine niedrigere Schwäche. Wenn ihr weniger BOTS haben wollt, dann nimmt ihr eine höhere Schwelle hier. Und das heißt, die ganzen Ergebnisse der Forschung basieren jetzt allein auf der Annahme der jeweiligen Forscher, was dann eine sinnvolle Schwelle ist. Es macht also alles überhaupt keinen Sinn. Und bisher haben wir also die Methode, Methodologie falsifiziert, die die Social BOTS Forscher gebraucht haben, um ihre Beispiele zu finden. Und wir haben also sogar gezeigt, dass sie selbst in der Theorie nicht funktionieren kann. Ein Geheimnis bleibt jetzt allerdings noch. Wie sehen denn jetzt tatsächlich diese BOTS aus, die diese Forscher behauptet haben, in ihren Studien gefunden zu haben? Und also wir hatten sie also nach dieser Liste gefragt und wir haben also sehr viel Zeit darin investiert, eine Antwort auf diese Frage zu finden und wie also diese BOTS tatsächlich aussehen, die sie in ihren Studien gefunden haben, in ihren Arbeiten gefunden haben und die erste Arbeiten, die wir was tiefer reingeschaut haben, war also die, also die hier, die Autororen behaupten, dass der Anzahl der der BOTS unter den Followern von sieben deutschen Parteien bei irgendwo zwischen 7,1 und 9,9 Prozent während des Wahlkampfes, also in der Wahlkampfzeit lag. Also sie schätzen etwa 10 Prozent von etwa. Das heißt also es wären also in dem Fall so knapp 38.000 Accounts, die seien also angeblich alle BOTS dieser Partei. Also es ist also interessant. Also habe ich den ersten Autor gefragt, ob er irgendwelche Beispiele dafür hätte für diese, für das. Er hat mir dann also vier Accounts gesagt, die aber noch nicht, weil aus großer Entfernung aussahen, wie so Social BOTS. Also es hat also noch nicht mal in seinem Beispiel welche gefunden. Also wir haben also versucht, diese Arbeit zu reproduzieren. Wir haben also die ein paar Monate später die Liste aller Follower dieser Parteien runtergeladen. Wir haben sie durch Motometer geschickt und wir hatten die Liste bekommen. Und wir haben also tatsächlich das erste Mal überhaupt so eine Liste von angeblichen BOTS gehabt, die in dieser Arbeit verwendet wurde. Also wir haben also 260.000 BOTS genommen. Wir haben ein zufälliges Sample davon gemacht, zufällige BOTS davon ausgewählt, die dann wiederum sehr genau angeguckt. Also wir haben 109 der Sprint angeguckt. Wir haben sie dann nach BOTS Coa sortiert. Und wir sehen also das Praktisch ganz dicht am theoretischen Maximum, was BOTS mit überhaupt bauen kann. Und wir haben also die angeguckt und ihr könnt das auch machen. Hier sind die ganzen Namen. Wir haben also überhaupt kein Beispiel für ein BOT gefunden. Zum Beispiel hier haben wir ein Tanzclub in Erfurt gefunden. Der hier ist aus Bayern. Der hier beschwert sich sehr über Motorräder in Gelsenkirchen. Und wir haben also nachgeguckt. Und um die Zeit fand tatsächlich ein Motorrad-Event in einem Theater in Gelsenkirchen statt. Der hat also tatsächlich einen Lärm beschwert. Und wir haben jetzt gesehen, dass viele dieser Accounts noch nicht mal besonders aktiv war. Also wir haben also kein einziges Beispiel für einen Social BOT in diesem Sample gefunden. Und wir haben also hier ein anderes Beispiel. Wir haben also Kaya Müller gefunden. Sie fragt also hier, also diese, die hat zum Beispiel einen einzigen, also diese Account hat einen einzigen Tweet abgesetzt. Da fragt sie Microsoft im Hilfe bezüglich ihres Microsoft-Kontos. Das ist also der einzige Tweet. Und damit hat sie es geschafft, einen Botometer-Score von Beinah 5 zu bekommen. Also keine BOTs hier gefunden. Und in einem zweiten Arbeit, die wir uns was genauer angeguckt haben, die Arbeit behauptet, dass sie eine sehr große Anzahl an Social BOTs gefunden haben, die kritische Information, problematische Information, also die Impfkritische Informationen verbreitet haben. Und wir haben also eine Liste, wir haben also den Auto nach einer Liste dieser BOTs gefragt. Und zum ersten Mal haben wir überhaupt eine sinnvolle Antwort bekommen. Wir haben also eine Liste von BOTs bekommen, die von diesem Forscher als BOT betrachtet wurden. Wir haben also ein weiteres zufälliges Sample, zufälliges Ziel gemacht von etwa aus diesen 200.000. Wir haben 121 von denen zufällig ausgewählt. Und schon wieder haben wir nicht einen einzigen echten Social BOT gefunden unter diesen 121. Und ihr seht jetzt also, dass sehr viele davon tatsächlich Ärzte sind oder hochrangige Mediziner in Gesundheitsorganisationen. Wir haben hier ein Professor aus Texas. Er ist erarbeitet an einer Medizinfirma in in Saudi Arabia. Wir haben einen Praktikanten aus Saudi Arabien. Wir haben einen Postdocs hier. Wir haben Forscher hier und Operator und Datenoperatoren und aus Indien. Also Menschen aus der ganzen Welt. Viele davon tweeten unter ihrem tatsächlich Namen. Viele davon haben haben ziemlich haben sehr glaubwürdige Beschreibung. Also das Ganze ist also wieder sehr komisch hier. Wir haben also diese diese Liste, was genauer angeguckt und ihr könnt sie ja auch prüfen. Sie sind auch in dem Paper erwähnt. So zum Beispiel die Weltorganisation für Medizinrecht war da gelistet oder der aber keiner davon bei keinem davon sah es auch nur so halblich so aus, als sei da irgendetwas automatisiert worden und und es gibt beispielsweise wir haben also wir haben also Tweets gefunden von einem von einem von der Dame, die verliebt sie sehr verliebt war in ihrem Verlobten und sehr viel dazu dazu getweetet hat. Wir haben einen anderen gefunden von jemanden, die sehr viele Bilder von sich selbst gepostet hat und alle die wurden offiziell als bot klassifiziert. Also in diesem Jahr gab es zwei weitere Paper die rausgekommen sind. Also es gibt ein paar Probleme, aber die scheinen gelöst zu sein. In 2021 gab es zwei Veröffentlichungen, die auch diesen Botometer versucht haben und die haben die Liste der Bots die sie bekommen haben, ziemlich ähnlich zu dem was wir gemacht haben und in diesem Fall haben sie sich 500 Accounts angeschaut, sie haben sie in Botometer gesetzt und sie haben sie dann manuell überprüft, ob sie automatisiert sein würden und 6 Prozent der Bots wurden durch Botometer als soziale Bots gelabelt, aber die waren größtens jetzt nicht automatisiert. Das heißt, sie haben das Botometer in Zukunft ignoriert und als Müll abgetan und ein sehr ähnliches Paper, die Vorveröffentlichung vor ein paar Wochen und die haben auch Botometer ausprobiert, sie haben den Standard Threshold von 0,5 ausgewählt, jetzt 15 Prozent oder 68 Accounts waren als Bot definiert und keiner einziger vor Datewind sozialer Bot, nur einer war automatisiert und der hat einfach die Inhalte eines Blocks getweetet und es kam raus, dass die Ergebnisse des Botometers komplett unglaubwürdig sind und nichts mit der wirklichen Welt zu tun haben. Jetzt haben wir jetzt alle existierende Forschungsergebnisse aufgrund des Oxford Kriteriums ignorieren, wir können die Forschung basierend auf diesen Botometer ignorieren und es gibt noch ein paar andere Methoden, die benutzt werden und Leute behaupten, dass sie soziale Bots gefunden haben. Also, dies ist eine Überschrift von der Times of London, wo sie eine große Menge an Bots haben, die ein Politiker folgen und wenn man dort nachfragt, dann sie nachfragt, warum, woher wisst ihr, dass sie Bots sind? Es ist ein Typ, der sagt, es gibt noch ein paar Probleme mit den Folien, aber jetzt werde ich auch nichts ändern. Hier ist ein, der über Twitter redet, wir haben die, wir haben nach Personen gesucht, die mindestens genau 8 Zahlen im Username haben. Das heißt, wenn wir Mike26481564 haben, dann ist es offiziell ein Bot, aber diese IDs werden automatisch erstellten Accounts zugeordnet und das heißt, wenn man einen neuen Account erstellt und mit dem üblichen Namen, dann bekommt man einen solchen Namen mit diesen 8, mit so 8 Zahlen am Ende. Das heißt, wenn ihr Twitter kennt, dann wisst ihr, dass man den Twitter-Countnamen ändern kann, aber viele wissen dieses nicht und darum benutzen sie einfach den, da sind sie für die Rest ihrer Tage auf Twitter aus wie ein Bot. Wenn es Personen gibt, die so aussehen, wo viele Accounts mehr, wenn sie selber Nachricht senden, dann sind das in der Regel Copy-Pastas. Das heißt, ironische, sie machen einen Tweet, die sie nicht mögen und dann re-tweeten sie den einfach aus ironischen Runden. Teilweise gibt es auch Accounts, die es nicht ironisch machen und es ist ziemlich schwierig, herauszufinden oder das zu verstehen, wenn man nicht bei diesen Meme-Kultur, bei Twitter involviert ist. Alle diese Accounts sind auf der selben Seite der Diskussion, aber er versteht den Witz nicht und der vermutet, dass es Bots sind oder die Wirklichkeit sind, das sind seine Freunde in die politischen Diskussion. Und dann gibt es noch Ergebnisse wie das hier, was jedes Jahr von der Propaganda-Forschungsgruppe von Oxford veröffentlicht wird und sie haben eine Liste mit Ländern, wo Bots erkannt wurden auf des letzten Jahres und wenn man sich die ganze Liste näher anschaut, dann sieht das nicht wirklich Bots, sondern wo Menschen Bots gefunden haben. Und das heißt, das ist ein Prozess, der weiterlaufen wird für ewig, weil Nachrichten werden über dieses Ergebnis reden und das führt dazu, dass Leute weitere Bots finden. Das führt dazu, dass wieder neue Bots-Bahauptungen in den Nachrichten sind. Und hier hat eine erklärt, was sie ist, wenn ich ein Institut gefunden hätte über Public Health, über E-Gel, Bisse, wenn ich den Geld gebe und jedes Jahr eine Forschung darüber machen, wie Bisse von E-Gel gibt, dann werden sie natürlich Angriffe von E-Gel finden, sonst wären sie einfach blöd. Und daher gibt es so viele, die soziale Bots finden. Also soziale Bots-Forschung ist grundlegend, ist grundlegend basierend auf der Missklassifikation von Menschen. Interaktive soziale Bots scheiden nicht zu existieren, obwohl wir seit Jahren darauf nach forschen, haben wir noch kein einziges glaubwürdiges Beispiel gefunden. Denn ein paar der Forscher in diesen Forschungsergebnissen sind folgend nicht den grundlegenden wissenschaftlichen Kanälen und sie behalten Daten ein. Man kann deswegen ihre Ergebnisse nicht reproduzieren und die Öffentlichkeit hat schon seit Jahren über diese sozialen Bots ihre geführt. Wir haben das Ganze veröffentlicht. Über soziale Bots-Research, ihr könnt es hier auch finden und herunterladen. Und wir haben auch die ganze Information über Bots im Appendix und ihr könnt auch versuchen, soziale Bots zu finden, wenn ihr euch das anschauen wollt. Also vielen Dank für eure Aufmerksamkeit. Danke Florian und vielen Dank für euren Vortrag und ich glaube, dass die Forschungsfeld für soziale Bots in einem sehr problematischen Staat das ist. Ich vermute auch, dass es nur um Diskussion und Realistische Denken, das was ihr und Christian Keil macht, ist ein sehr wichtige Forschungsziel für uns alle. Das heißt, ihr und alle Forscher haben solche vielleicht eine grundlegende Basis für Diskussionen und Medien, Informationen, Talk geben. Das heißt, dass die Sachen sinnvoll diskutiert werden. Also wir haben ein paar Fragen von unserer Zürcherin gesammelt und ich werde jetzt da doch mal durchgehen. Ja, du hast über die sozialen Bots geredet und was ein Bots ist und was kein Bots ist, aber sollte die Frage nicht eher sein über den Ergebnis von solchen Accounts, mehr als ob es ist, Klickarbeiter sind oder Leute mit so viel bezahlt, Leute, die bezahlt dafür werden und automatisierte Accounts. Was heißt, in Bots sein und in solchen politischen Sachen arbeiten ist das nicht das ziemlich, nicht das Ergebnis des relevantes, das ist ein bisschen ein Verstanden. Ja, wir sind jetzt nicht diejenigen, die behauptet gemacht haben, dass diese automatisierten Bots existieren. Also bevor wir also über den Effekt die Auswirkungen davon reden, sollten wir vielleicht mal klären, ob die überhaupt existieren. Es gibt viele, es gibt viele Dinge, wo diese Forscher sagen können, wir sollen über die Effekte reden. Aber zunächst einmal sollten wir tatsächlich über die Grundlagen sprechen, weil das Ganze dann doch sehr nach einer Verschwörungstheorie oder nach einer, nach einem Märchen klingt, dass diese Social-Social-Bots existieren und wo man viele Menschen allerdings glauben. Und typischerweise, wenn Menschen behaupten, du bist ein Bots, nein, du bist ein Bots, nein, du ist ein Bots, das ist, das ist dein Score und so weiter, dann, dann, also es gibt diese, es gibt diese Diskussionen auf Twitter immer und immer wieder hier basiert auf diesen, diesen, diesen, diesen Glauben, diesen geradezu lächerlichen Verschwörungstherien. Und also zunächst einmal wollten Michael und ich eine, wollten wir, dass die Leute eine, eine, ein realist, etwas realistische Vorstellung davon haben, wie die Bots-Situation auf Twitter tatsächlich aussieht. Und die Frage, ob die, ob die, ob jetzt Counts tatsächlich, tatsächlich von irgendwelchen bösartigen Akteuren bezahlt werden, das ist, ist eine, eine voll, eine komplett andere Frage hier. Also ich bin, also ich bin nicht die richtige Person, um das zu analysieren, um die, um zu analysieren, was die Motivationen bei Leuten sind, bei tatsächlichen Menschen sind, warum sie was tweeten. Aber meine, mein Eindruck bisher ist wie, wie Böschler ist der Kanadier hier, der, ich glaube nicht, dass er ein bezahlter Akteur ist, sondern, aber er ist tatsächlich ein emiratierter Professor. Er hat, er hat ziemlich viel Geld. Er ist wirklich nicht dafür bezahlt für, aber es heißt, er hat eine intrinsische Motivation hier für das, für das, was er macht. Und es ist gleiche durfte gelten für all diese 500 Accounts, die hunderte Male über, über die K-Bot-Banche da getweetet haben. Das sind mit Sicherheit keine bezahlten Akteure. Leute, das sind einfach nur Leute, die sehr, sehr sauer über eine bestimmte Sachen sind oder die versuchen, die, die, die versuchen, Dinge zu ändern, indem sie auf Twitter sehr aktiv sind. Und wir, wir, es gibt, wir sehen also auch, dass Leute, die, die das Problem überschätzen, das bösartige Accounts tatsächlich stellen. Und also in meisten Fällen gehe ich davon aus, dass es tatsächlich um Leute mit, um echte Leute mit echten intrinsischen Motivationen haben. Eine andere Frage, die wir haben, ist in, in deinen Folien hast du von diesem, von diesem Kreisschluss, von einem Zirkulärschluss erwähnt. Die Frage, die wir haben also ist, ist, ist in Kreisschluss nicht eher so eine Art Resonanz, was eine, eine valide Methode sein zu bekommen. Also, wenn wir also diese Resonanz sehen, würden wir dann, würden wir dann, also würde diese Resonanz nicht zeigen, dass das tatsächlich die, die tatsächliche Daten ist. Ich habe etwas Schwierigkeiten, die Frage zu, zu, zu stellen, aber vielleicht verstehe sie. Also ich verstehe, wo die Frage, wohin die Frage hinzielt, um, um diese, um das Ganze zu benutzen, müsste, müsste man, müsste erst mal eine Vorstellung davon haben, wie diese, wie der Anteil an Bots tatsächlich aussieht, in Realität aus. Und ihr macht das ganz iterativ und kommt dann hoffentlich irgendwann beim, beim tatsächlichen Wert an. Aber, aber in meiner, meiner Einschätzung, dem wird das eher, würde das mit der Methode eher nach 100% oder nach 0% iterieren. Und ich glaube nicht, dass dieser Ansatz eben im Entferntesten dazu geeignet wäre, die tatsächliche, die tatsächliche Realität zu schätzen. Und ich glaube, ich glaube also nicht, dass es arbeiten könnte. Die interessante Frage hier ist, jede Art, also praktisch jeder Klassifier nutzt diese Methode, sogar Menschen nutzen diesen, diesen Ansatz hier. Und wenn ich den Job, wenn mein Job wäre, wenn, wenn, wenn, wenn, wenn, also ich den, die, die, den Job bekäme, die Aufgabe bekäme, Leute, Leute, Analyste von Accounts zu Glasfisianer Bots oder nicht Bots. Und ich hätte so eine gewisse Vorstellung, Erwartungshalt davon, wie viel davon, wie viel Prozent davon jetzt tatsächlich Bots sind, dann würde ich, würde mein Ergebnis dann wahrscheinlich auch zu meiner Vorabschätzung hintendieren. Und die Frage ist, also die Frage ist also, welche Feature gehen, gehen also im Endeffekt ein? Wie, wie, wie, wie, wie, wie groß ist die Wichtigkeit der Anteil von, von diesen Features hier? Und wenn, wenn die, wie, wenn also diese Distributs, diese Verteilung von der beiden Klassen sehr, sehr unterschiedlich sind in einem Feature, dann können wir tatsächlich die beiden Klassen anhand dieses Features auseinanderhalten. Aber diese, diese Wahrscheinlichkeit, also wenn das der Fall wäre, dann wäre diese A priori Wahrscheinlichkeit nicht, würde keine große Rolle spielen unserem Ergebnis vom Klassifizierer. Aber, aber wenn wir jetzt zum Beispiel dann schätzen, ob es ein Mann oder ein Frau ist, einfach nur anhand der Höhe, dann, also als Beispiel für ein Klassifizierer, dann wären zum Beispiel Leute, die so bei einer Höhe wie 1,75 sind, dann wären anhand dieses Klassifiern schwer zu, schwer einzuschätzen. Also, also wenn wir also im Vorfeld nicht wissen, wie groß, was die Distribute, die A priori Wahrscheinlichkeit der beiden Klassen ist, dann können wir da auf die Anweise nicht vorgehen. Und es gibt also praktisch keine, es gibt also keinen, keinen Weg, dass diese, da hier iterativ vorzugehen, sei denn wir haben einen ganz klaren Klassifier, sei denn wir haben wirklich, wirklich Gold standard Training Daten hier. Eine weitere Frage, die ähnlich zu der Effektfrage ist, die wir ganz zu Beginn haben, bist du nicht, bist du, hast du keine Sorgen, dass deine Forschung genutzt würde von den, von möglicherweise problematischen Akteuren zu behaupten, dass diese, dass dieses Problem gar nicht gibt, dass also diese Akteure diese Forschung nutzen können, um zu behaupten, dass auf Twitter alles, alles Töfte ist, alles in Ordnung. Also, zunächst einmal bin ich, bin ich ein Forscher. Ich bin also jetzt nicht so, also es ist jetzt nicht so meine Sorge, wofür Leute meine Ergebnisse benutzen könnten, möglicherweise mit schlechten Intentionen. Und also, das ist ja als, als, als Beispiel als kleine Kampagne für bestimmte Parteien oder wie auch immer. Aber Forschung an Bots, ich meine, da übt hierweise hat man, wenn man in die Wortforschung reingeguckt hat, man sehr oft mit, mit sehr heißen, sehr polarisierten politischen Diskussionen zu tun. Das heißt, es passiert also ganz gerne, dass da die extremeren Seiten solche Forschung heranziehen, umgekehrt. Also ist der Effekt jetzt könnte sein, dass bestimmte Akteure diese Forschung, meine die Erforschungsergebnisse sehr mögen oder nicht sehr mögen. Aber, aber offensichtlich reden wir hier nicht über, darüber, ob Leute dafür bezahlt werden, dass sie tweeten, sondern offensichtlich sind wir lediglich interessiert über diese tatsächlichen automatisierten Accounts, Social Bots, die, die in politische Informationen eingrafen auch und dabei fällst du dir was brauchen, human zu sein. Also ich behaupte jetzt, und ich behaupte jetzt, dass die valid, sehr credible, also es ist, also ich behaupte jetzt nicht, dass es hier gar nicht gibt, aber in vielen verschiedenen Ländern, also ich werde mit ganz definitiv nicht behaupten, dass es keine bezahlten Menschen gibt, die versuchen, Diskussion zu beeinflussen in, in verschiedenen Ländern. Es gibt genug laufwürdige Beispiele, aber es gibt mehr optimisierten Accounts. Also wie können, eine anweite Frage, wie können wir jetzt incentivieren, innerhalb der wissenschaftlichen, wissenschaftlichen Gemeintat für das field? Wie können wir erreichen, dass, dass die Forscher in diese Bereich die Reproduzierbarkeit erhöhen und die Daten entsprechend veröffentlichen? Weil offensichtlich fehlt es an dieser Replizierbarkeit. Also Replizierbarkeit ist eine, ist ein großes Problem in vielen verschiedenen wissenschaftlichen Bereichen, sogar in der Informatik gibt es genug Beispiele von Forschung, wo in Topologien und Entwurf von neuronalen Netzwerken und ähnlichen, ähnlichen Situationen. Da ist Reproduzierbarkeit ein ziemlich, ziemlich großes Problem, aber es ist ein besonders großes Problem in Sozialwissenschaften. Also ich komme aus dem, aus dem Bereich der Informatik, ich komme aus einem sehr technischen Field, die, die da sehr strenge Standards haben und, und niemand würde es wagend, würde es wagen, Daten da zu produzieren, aber die Rohdaten zurückhalten zu wollen. Also wir sind, wie in unserem Feld sind wir gewöhnt, Rohdaten, Rohdaten raus zu rücken. Aber in Sozialwissenschaften scheint die Leute darüber das ganze Thema etwas entspannter zu sehen. Und, und ich habe so das Gefühl, dass es ein gewisser kultureller, kultureller Missmatch zwischen den, zwischen den diesen beiden Felten, also es, wie gesagt, die Sozialwissenschaften, die in den Sozialwissenschaften kommt es wesentlich häufiger vor, dass Forschung nicht reproduzierbar ist. Letzte Frage. In Europe haben, viele Leute haben die Varianten, Varianten der gleichen Frage gestellt. Deine Meinung, also deiner Meinung nach, also wir haben, du hast jetzt also, du hast also keine Evidenz, keine Anzeichen dafür gefunden, dass Worts existieren. Ist das ein Anzeichen dafür, dass keine Worts existieren? Maybe they don't exist at all or not exist in a large quantity. Oder zumindest sehr selten sind. Also die interessante Frage hier, also es gibt da die Frage von, es gibt da die Geschichte über um was als T-Kanne. Die Idee dahinter ist, also das geht da um einen T-Kanne, also praktisch, der, der jetzt plötzlich in einem, in einer Umlaufbahn um den Mars, Mars fliegt. Also also die Frage ist, also kann nicht beweisen, dass es keine, keine T-Kanne gibt, die um die, auf einer Umlaufbahn um den Mars kreist. Und offensichtlich haben wir jetzt, also wir hätten jetzt beispielsweise, wir hätten ja die Technologie eine T-Kanne in einem Umlaufbahn, in einem einem Mars-Umlaufbahn zu schicken. Also wenn Leute also jetzt, wenn jetzt also Leute behaupten, es gibt T-Kannen, die um den Mars umkreisen, sagen sie ja, es wäre natürlich möglich. Wir haben die, wir haben die, wir haben die Technologie dafür, das zu machen, dass es also praktisch nicht möglich zu beweisen, dass das nicht der Fall ist. Aber es ist aber in der Gesamtheit doch eher unwahrscheinlich, dass irgendjemand sich die Mühe gemacht hat, eine Rakete zu starten, bloß um eine T-Kanne, um den in den Mars Umlaufbahn zu befördern. Also hier auf unser Beispiel zu übertragen, es einen Chatbot also tatsächlich zu bauen. Der tatsächlich funktioniert in unserem Fall, ist eine ganze Menge Aufwand, braucht sehr, sehr viel Aufwand, sehr viel Trainingsdaten und Arbeit und es ist sehr schwer, das richtig hinzukriegen. Also alle, die wir bisher alle, die wir bisher haben, sind sehr, sehr beschränkt in ihren Fähigkeiten. Also die meisten Bots sind, die wir jetzt momentan haben, es sind noch nicht mehr in der Lage, Negationen, also Verneinungen korrekt zu behandeln. Also das ist jetzt so der momentanen Stand der Forschung im Bereich dieser Bots. Also wenn jetzt also behauptet wird, dass das ist also jemand ganz plötzlich mit einem System hinter der Tür hervorkommt, das in der Lage ist, tatsächlich komplexe politische Texte zu schreiben und politische Diskussionen mit tatsächlichem Text zu zu einflussend. Das klingt für mich noch sehr fern von dem, was jetzt tatsächlich momentan möglich ist. Also daraus bin ich davon bin ich mir jetzt ziemlich sicher, dass diese Bots nicht existieren, aber beweisen kann ich das natürlich nicht. Also wir haben jetzt noch ein paar Fragen mehr, aber ich fürchte, die passen jetzt nicht in diesen Zeitstat rein. Vielen Dank Florian. Arbeit weiter an die Sachen und nach der Pause machen wir jetzt hier weiter in einem Talk über Software Engineering weiter. So, das war die Übersetzung des Talks Aufstieg und Fall der Forschung über Social Bots von Florian Galvitz. Ihr hört die Übersetzung von Franz T. und Isegramm.