 Ich möchte mich ganz kurz vorstellen. Mein Name ist Christopher Georgi. Ich habe bis vor kurzem noch an der TU Dresden studiert, Lehramt für deutsche Geschichte. Und ja, habe da meine Masserarbeit jetzt vor kurzem abgegeben. Und da das Thema eigentlich ganz gut herpasst, möchte ich ja meine Masserarbeit heute im kurzen Mal vorstellen. Ich habe mich näher mit Buchstaben in Kramm beschäftigt. Das klingt jetzt erstmal vielleicht ein bisschen eigenartig. Ich werde das dann auch nochmal genauer erläutern. Aber ja, ich möchte erstmal schrittweise vorgehen und zunächst erstmal einführen, da es eben um Buchstaben in Kramm in der Autorenattribution geht. Zunächst erstmal erläutern, was es überhaupt unter Autorenattribution zu verstehen. Danach möchte ich dann einen Überblick über die Buchstaben in Kramm geben. Was versteht man unter Buchstaben in Kramm? Und welche Vor- und Nachteile haben Sie bei der Autorenattribution? Und dann schließlich möchte ich auf den Untersuchungsablauf und die Ergebnisse meiner Masserarbeit eingehen. Und dann damit einen kurzen Fazit meiner Arbeit abschließen, meinen Vortrag abschließen. Ja, zunächst, was ist unter Autorenattribution zu verstehen? Ja, wir haben folgende Situationen vorherrschen. Wir haben dann in der Regel einen anonymen Text vorliegen. Also wie man jetzt hier auf der linken Seite sieht, das heißt, eine bestimmte Botschaft. Hier sind jetzt eben Buchstaben ausgeschnitten worden und zusammengeklebt worden, sodass der Autor anonym ist. Also wir können den Autor nicht über die Schrift fassen. Es ist ja auch kein Name unter dem Text vermerkt. Das heißt, ein anonymer Text. Und der Text ist dann in der Regel Teil einer kriminellen Handlung. Oder wie an diesem Beispiel zu erkennen ist, der Text ist ja selbst eine kriminelle Handlung. Da es sich in dem Fall zum Beispiel um mal in der Presse schreiben handelt. Und das Ziel innerhalb der Autorenattribution besteht darin, den Autor des Textes zu ermitteln. Mit den Merkmalen oder den Eigenschaften, die wir da vorliegen haben in dem Text. Wie funktioniert das? Wir bestimmen den Autor eines Textes. In der Regel ist es so, dass wir dann zu einem Text einen oder meistens mehrere Verdächtige haben. Es ist auch teilweise so, dass wir nur den Text vorliegen haben und es soll dann sozusagen ein Profil erstellt werden. Also wer könnte den Text geschrieben haben? War es eher eine Frau, eher ein Mann, welches Alter und so weiter? Das ist auch eine Möglichkeit. Damit habe ich mich aber nicht in meiner Arbeit beschäftigt, sondern mit dem Fall, dass wir eben schon verdächtige Personen vorliegen haben. Das ist dann hier mal auf der rechten Seite, habe ich das gekennzeichnet. Das heißt, wir haben sozusagen den Text. Wir haben mehrere verdächtige Personen. Ja, und wie gehe ich jetzt vor? Wie überprüfe ich jetzt, ob die Personen dieses Erpresserschreiben verfasst haben? Ich lasse mir von den Personen Textbeispiele geben, Textausschnitte geben. Am besten mehrere Textausschnitte natürlich, dass wir eine gute Vergleichsbasis haben. Und dann, also zum Beispiel, ich kann mir jetzt von einer Person also einen Text verfassen lassen, oder ich lasse mir eine E-Mail von diesem Verdächtigen geben beispielsweise. Und dann vergleiche ich eben bestimmte sprachliche Muster, die in dem anonymen Text auftauchen mit den sprachlichen Muster, die wir halt bei den Vergleichstexten haben. Und wenn man dann Glück hat, sozusagen einen Volltreffer landet, dann hat man halt bestimmte Strukturen, die zwischen dem Tatschreiben und den Texten, die ich von einem Verdächtigen habe, gleich sind. Und dann können wir halt mit hoher Wahrscheinlichkeit, das ist halt wichtig, also wir können keine klaren Aussagen treffen, ob jetzt der anonyme Text tatsächlich von der Person verfasst wurde, sondern es sind eben lediglich Wahrscheinlichkeitsaussagen, die wir treffen können. Das heißt, wir können dann sagen, der Text ist mit hoher Wahrscheinlichkeit von dieser Person verfasst worden. Ja, die Autorenattribution kann qualitativ oder maschinell erfolgen. Das heißt, also sie kann auf der einen Seite von Experten durchgeführt werden. Das habe ich eben auf der linken Seite mal dargestellt. Und bevor es Beschwerden gibt, dann auch Sicherheitshabe mal gesendert. Und genau, also es kann von Experten durchgeführt werden. Hier ist dann der Vorteil, dass wir eben ja sehr genau analysieren können. Auch für den Fall, dass wir eben zum Beispiel nur einen sehr kurzen Text vorliegen haben, kann eben da der Text sehr genau durchgegangen werden und überprüft werden. Die Experten haben natürlich dann entsprechend das linguistisches Hintergrundwissen. Wir können dann sagen, welche Strukturen ähnlich sind. Auf der anderen Seite ist die Autorenattribution natürlich auch maschinell möglich. Hier besteht der Vorteil darin, dass wir eben viel größere Textmenge untersuchen können. Also wir können mit viel größeren Textmenge arbeiten. Der Computer kann natürlich damit gut umgehen. Das Problem ist auf der Seite eher, dass sehr kurze Texte noch nicht maschinell untersucht werden können. Aber im Moment wird da intensiv daran geforscht und es gibt schon einige Fortschritte. Aber es ist immer noch schwierig, kurze Texte zu untersuchen. In meinem Vortrag möchte ich mich auch speziell dieser rechten Seite, also der maschinellen Autorenattribution zuwenden. Und da möchte ich jetzt erstmal zu dem Punkt kommen, was soll denn überhaupt im Rahmen der Autorenattribution untersucht werden? Ich habe schon gesagt, es geht eben darum, den Autor von einem anonymen Text zu bestimmen. Und jetzt geht es sozusagen um den Untersuchungsgegenstand innerhalb des Textes. Also was hilft mir denn dabei, den Autor zu bestimmen? Und zwar ist der Stil eines Textes hierfür entscheidend. Das ist ganz wichtig, es ist nicht der Inhalt entscheidend, sondern der Stil eines Textes, um eben den Autor eines Textes zu überführen. Was bedeutet Stil? Der Stilbegriff ist sehr vielschichtig, deshalb ist es zunächst schwierig, eine Definition zu finden, was wir schon mal festhalten können. Stil ist natürlich nicht das Ende vom Wesen. Aber Stil gibt es natürlich zum Beispiel in der Mode, kann man sagen, eine Person hat Stil, wenn sie eine bestimmte Kleidung trägt. Es gibt zum Beispiel auch bestimmte Fahrstile. Und so gibt es natürlich auch bestimmte Schreibstile. Also der Begriff ist schon an sich sehr vielschichtig angelegt. Und selbst innerhalb der Linguistik, also wenn wir uns auf den Schreibstil beziehen, ist es schwierig, eine feste Definition zu finden. Also es herrschen dann verschiedene Stilkonzeptionen vor, oder verschiedene Auffassungen von Stil. Also zum einen geht man beispielsweise davon aus, dass Stil die Abweichung von einer sprachlichen Norm ist. Also Stil wird dann über z.B. orthografische oder grammatische Fehler aufgefasst, die an sichsweise schon etwas veraltet ist, aber wird aber teilweise noch von Vorschauen vertreten. Die zweite Möglichkeit, den Stil fassbar zu machen innerhalb des Textes, ist, dass man den Stil als Auswahl aus bestimmten Wortformen versteht. Das heißt, man geht davon aus, dass jeder Mensch bestimmte Wortform bevorzugt. Also man kann ja Dinge auch immer verschiedene ausdrücken. Ich kann sagen, ich habe es deshalb gemacht, ich habe es daher gemacht und so weiter. Es gibt verschiedene Ausdrucksweisen. Man geht davon aus, dass jeder Mensch individuell für sich bestimmte Wörter bevorzugt. Oder die dritte Möglichkeit, das ist besonders innerhalb der maschinellen Autorenattribution entscheidend oder wird häufig genutzt, dass man Stil über die Häufigkeit auf Frequenz genannt, der Funktionswörter erfasst. Bei Funktionswörtern handelt es sich um Wörter, die vorrangig eine grammatische Bedeutung haben. Das heißt, die sich nicht auf den Inhalt beziehen, sondern eher, wenn ich jetzt ein Satzbilder konzentriere ich mich auf den Inhalt. Die Funktionswörter werden dann sozusagen schon mehr oder weniger unbewusst nebenbei mitgebildet. Deshalb habe ich auch noch mal notiert, unbewusste Kategorien. Uns ist eigentlich nicht bewusst, in welcher Weise wir jetzt Funktionswörter gebrauchen. Wir können das nur begrenzt steuern. Funktionswörter eben beispielsweise und oder das ein, in, nicht, bitte, zu. Das sind dann so Beispiele für Funktionswörter. Und auch die Buchstaben in Kramitz, zu denen ich jetzt kommen möchte, sind solche unbewusste Kategorien. Das heißt, wenn ich jetzt als, sagen wir mal, krimineller ein Tatschreiben verfasse, dann möchte ich mich ja wie möglich verstellen, damit eben Sachverständige oder Experten da mich nicht als Auto überführen. Und innerhalb der Autorenattribution ist es eben das Ziel, dass man solche Merkmale nutzt, die unbewusst gebraucht werden von den Autoren, also die man auch nicht steuern kann. Und zum Beispiel auch diese Buchstaben in Kramme. Das heißt, ich werde es gleich nochmal näher erläutern. Die Häufigkeit bestimmter Buchstabenkombination lässt sich natürlich eher nicht bewusst beeinflussen. Und das macht die Buchstaben in Kramme für die Autorenattributionen insgesamt sehr interessant. Ja, erst mal zu Buchstaben in Kramm. Wenn man den Begriff so das erste Mal hört, denkt man vielleicht zuerst an Buchstaben-Suppe. Ist auch gar nicht so weit hergeholt, nur wenn ich jetzt einen Löffel aus einer Buchstaben-Suppe nehme, habe ich natürlich zufällige Buchstaben da in meinem Löffel. Die Buchstaben-Enkramme sind da schon etwas systematischer angelegt. Aber wir nähern uns den Begriff mal schrittweise an. Und zunächst muss eben geklärt werden, was unter einem Enkramm zu verstehen ist. Also bei einem Enkramm geht man davon aus, dass es sich um eine Abfolge aus N aufeinander folgen, den Einheiten handelt. Und bei den Einheiten kann es sich eben beispielsweise um Zeichen, Wortform, Wortarten, vielleicht auch ganzen Setzen handeln als kleines Beispiel, damit man sich das vorstellen kann. Also wir haben Enkramme verschiedener Länge, Monogramme, Bikramme, bestehen dann beispielsweise aus zwei Einheiten. Wenn wir jetzt Würter nehmen, dann beispielsweise Sergiate, Tetra-Kramme, da haben wir schon vier Einheiten. Also Sergiate-Damen und das Penta-Kramme, dann zum Beispiel fünf Einheiten, Sergiate-Damen und Herren und so weiter. Bei den Buchstaben-Enkrammen sind die Einheiten, wie der Name schon sagt, ja dabei handelt es sich um Buchstaben. Und ich habe jetzt mal einen Textausschnitt vorbereitet, um das zu verdeutlichen. Das Arbeiten am Computer ist gefährlich, denn und so weiter. Wir könnten jetzt den Textausschnitt in Bikramme unterteilen und das System funktioniert quasi so, dass wir an der ersten Position des Satzes starten. Bikramme heißt ja in gleich zwei, das heißt zwei Einheiten. Wir gehen zwei Einheiten nach vorne, extrahieren die erste Form, das ist dann DA und dann gehen wir sozusagen eine Einheit nach rechts weiter, extrahieren wieder zwei Einheiten, AS, dann gehen wir wieder eins nach rechts weiter, wieder zwei Einheiten und so wird dann sozusagen dieser Satz in Bikrammen aufgefast. Einige werden sich jetzt vielleicht wundern, dass wir hier so ein Unterstrich vorliegen haben. Das sind dann die Lehrzeichen, die auch mit in die Enkramme eingehen. Die Lehrzeichen sind Bestandteile in den Buchstaben-Enkrammen, weil sie eben wichtige Informationsträger sind, denn die Lehrzeichen verraten uns dann, ob sich der Buchstabe am Beginn eines Wortes befindet oder am Ende eines Wortes. Das ist nochmal ja eine wichtige Information. Teilweise werden auch Satzzeichen in die Buchstaben-Enkrammen mit einbezogen oder andere Sonderzeichen. Das habe ich jetzt in meiner Arbeit nicht mit berücksichtigt, wäre aber auch eine Möglichkeit und wird teilweise auch in der Forschung so gemacht. Im Englischen spricht man auch von Character-Engramms. Da ist der Begriff mit Character sowieso schon etwas weitergefasst und das sagt eben schon aus, dass wir da sämtliche Zeichen haben, die in diese Buchstaben-Enkramme einfließen. So, wir könnten jetzt auch Tetra-Kramme bilden. Das heißt, vier Einheiten jeweils extrahieren oder auch zum Beispiel Hexagramme, sechs Einheiten. Und hier sieht man dann auch schon, dass wir teilweise auch ganze Bedeutungseinheiten, also mit Arbeit, in den Enkrammen haben. Also das ist schon ein bisschen fassbarer, was das jeweilige Enkrammen überhaupt darstellt. Buchstaben-Enkramme werden bei der maschinellen Autorenattribution sehr gerne genutzt und erzielen auch sehr erfolgsversprechende Ergebnisse, also sehr hohe Genauigkeiten in der Attribution. Und wenn man sich die Studien mal so anschaut, werden eben verschiedene Vorteile hervorgehoben, die die Buchstaben-Enkramme besitzen. So wird eben gesagt, dass die Buchstaben-Enkramme sehr vielfältige Stilmerkmale erfassen. Also zum einen lexikalische Information, ich habe es ja erst schon mal kurz gezeigt, also zum Beispiel Arbeit oder weiteres Beispiel Autor oder Text. Das sind dann gerade die umfangreicheren Buchstaben-Enkramme, die eben eine größere Länge aufweisen, erfassen dann teilweise ganze Wörter. Hier müssen wir aber auch ein bisschen vorsichtig sein. Ich habe es ja erst schon mal angedeutet. Bei der Autoren- oder Autorschaftsattribution ist der Stil eines Textes entscheidend und nicht der Inhalt. Das heißt, wir müssen stets Inhalt und Stil voneinander trennen und möglichst auch den Inhalt bei der Autorschaftsattribution ausschließen. Und wenn wir jetzt solche lexikalischen Informationen einbeziehen, ist das natürlich ein bisschen kritisch zu sehen. Es sei denn, ich habe jetzt Texte, die wirklich zu dem selben Themengebiet oder zu dem selben Inhalt verfasst wurden. Dann kann ich sagen, wenn der Autor für diesen Text da bestimmte andere Wörter verwendet, ist das auch kennzeichnen für seinen Stil. Aber das haben wir eigentlich selten vorliegenden Fall, dass wir eben wirklich Texte haben, die zum identischen Inhalt verfasst wurden. Häufig haben wir eben dann ein Tatschreiben vorliegen, und gleichzeitig dann eben als Vergleichsmaterial, zum Beispiel eine E-Mail oder ein Brief oder was auch immer, also Texte, die dann auch zu völlig verschiedenen Inhalten geschrieben wurden. Zusätzlich erfassen Buchstaben, Engramme so laut Auffassung der Forscher kontextuelle Informationen. Das heißt, Informationen zu Wortübergängen. Also hier zum Beispiel, das Pentagramm EN, Leerzeichen DA, könnte man sich jetzt vorstellen, dass es zum Beispiel in Wortform vorkommt, wie sagen das oder gibt verschiedene Beispiele, wo dieses Engramm vorkommen kann. Und dadurch halten wir eben Informationen, welche Wörter miteinander in Beziehung stehen oder miteinander gebraucht werden in dem Text. Die Zeichensetzung habe ich ja schon mal angesprochen. Das heißt, man kann auch die Zeichen in die Buchstaben in Engramme einbeziehen. Wie gesagt, in meiner Arbeit habe ich das jetzt erstmal nicht mit berücksichtigt. Wir haben eine Möglichkeit. Und wir haben natürlich auch Informationen zur Groß- und Kleinschreibung, die durch die Buchstaben in Engramme mit erfasst werden. Also, ja, ist eigentlich ganz klar soweit. Weitere Vorteile sind insbesondere die Fehlertoleranz. Denn bei der maschinellen Autorenattribution werden ja teilweise auch z.B. Vor- und Beiträge untersucht. Texte, die eben auch sehr fehleranfällig sind, weil man eben schnell tippt und sich dann auch mal verschreibt. Und als kleines Beispiel, wenn ich jetzt das Wort Semirah, statt Seminar habe, so ein kleiner Tippfehler vielleicht, der da entstanden ist, das würde jetzt schon ein Fehler auf Wortebene darstellen. Das heißt, wenn ich jetzt mit einem Programm arbeite, was die Wörter erfasst, würde das eben fehlerhaft erfasst werden bei den Engrammen. Also, unterteilen wir das Wort jetzt in Bikramme. Dann sind eben lediglich zwei Bikramme falsch, drei Bikramme immerhin richtig. Das heißt, der Fehler hat nicht so einen starken Einfluss auf die Ergebnisse. Und man kann natürlich auch argumentieren, ich habe es ja erst schon mal angesprochen, dass Fehler eben auch Stilmerkmale darstellen und die werden natürlich durch die Buchstaben in Engramme dann auch mit erfasst. Weiterhin sind minimale maschinelle Voraussetzungen nötig, um mit Buchstaben-Engrammen zu arbeiten. Also, ich brauche jetzt kein Hochleistungs-Server von Google, um da ein Text in Buchstaben-Engramme zu unterteilen und das weiterzuverarbeiten. Das reicht ja schon ein einfacher Laptop eigentlich aus. Weiterhin kann ich sprachunabhängig arbeiten. Das heißt, ich kann auch andere Sprachen in Buchstaben-Engramme unterteilen. Es gibt da auch Studien, die eine und die selbe Methode in verschiedenen Sprachen angewandt haben und insgesamt dann zu guten Ergebnissen gelangt sind. Und ein Faktor, der ganz kritisch zu sehen ist, zumindest auch von Lingoisten, ist das eben von den Informatikern ganz oft gesagt wird, dass kein linguistisches Hintergrundwissen nötig ist, um mit Buchstaben-Engrammen zu arbeiten. Das heißt, meistens haben die dann gewisse Genauigkeitsmessungen um zu überprüfen, ob die Methoden zuverlässig arbeiten. Sie schließen eine Genauigkeitsmessung an, stellen fest, dass eben zu 99 Prozent die Texte richtig den Autoren zugeordnet werden und gehen dann halt davon aus, dass man eigentlich kein linguistisches Hintergrundwissen benötigt, um mit diesen Buchstaben-Engrammen zu arbeiten. Was aber eben schwierig ist, ist, dass überhaupt nicht feststeht, was überhaupt mit den Buchstaben-Engrammen gemessen wird. Also auf welche Textmerkmale sich diese Engramme überhaupt beziehen und das war sozusagen auch die Forschungsfrage meiner Arbeit. Ich wollte eben insgesamt diese Buchstaben-Engramme etwas fassbarer machen und habe deshalb untersucht, welche Textmerkmale durch die Buchstaben-Engramme überhaupt gemessen werden. Ich habe dazu mit einem Perlskript gearbeitet, also meine Untersuchung basiert auf einem Perlskript und ich bin folgendermaßen vorgegangen. Zunächst habe ich die wichtigsten oder informativsten Buchstaben-Engramme ermittelt für die Autorenattribution. Also welche Buchstaben-Kombinationen sind da am entscheidendsten? Und anschließend, ausgehend von diesem Buchstaben-Engramm, habe ich mir dann mal alle Wörter aus dem Untersuchungskorpus ausgeben lassen, die diese Buchstabenabfolgen enthalten und habe dann mal die Wörter genauer untersucht, also hinsichtlich, also dahingehend, ob die Wörter sich eher dem Inhalt oder dem Stil zuordnen lassen. Ja, meine Untersuchungsgrundlage waren Forenbeiträge von insgesamt 38 verschiedenen Autoren. Die Beiträge haben so zwischen 32.000 und 93.000 Wortformen umfasst und stammten aus drei verschiedenen Online-Foren, also zum einen dem Zweckeforum, das sich an Jugendliche richtet, in und um Zwickau, wo Freizeitaktivitäten besprochen werden, Partyböder geteilt werden und alles Mögliche. Dann habe ich den Seniorentreff, also einige Autoren aus dem Seniorentreff mit einbezogen. Wie der Name schon sagt, eher ältere Personen, die sich da austauschen über verschiedene Dinge. Und zu guter Letzt habe ich das Tiaziforum, also verschiedene Autoren aus dem Tiaziforum mit einbezogen. Hier auf der rechten Seite ist auch ein Screenshot zu sehen. Neonaziforum oder ein rechtsorientiertes Forum, was auch so im Internet gar nicht mehr verfügbar ist, was schon vom Netz gegangen ist. Ja, aber so insgesamt, sozusagen, sehr heterogene Autorschafft, also Autoren verschiedensten Alters und auch der Inhalt ist eben sehr verschieden, zudem die Beiträge verfasst worden. Also da wurde Musik diskutiert. Natürlich Politik, also alles Mögliche. Das war sehr breit angelegte Inhalt. Auf der linken Seite sieht man mal, wie die Untersuchungstexte ausgesehen haben. Und zwar ist da schon ein Part of Speech-Taking erfolgt. Das heißt, zu den einzelnen Wortformen wurde dann jeweils noch die Grundform und die Wortart zugeordnet. Das heißt, man muss den Text sozusagen von oben nach unten lesen. Die jeweilige Wortform findet sich immer ganz am Ende der Zeile. Und wir haben dann eben noch zusätzliche Informationen zu dem Autor, wann der Text verfasst wurde, um welches Forum es sich handelt und so weiter. Aber ich gehe dann auch nochmal später genauer auf diese Struktur ein. Ausgehend von diesen Texten habe ich dann Buchstaben in Kramme extrahiert, das ist so üblich in der Forschung. Also Buchstaben in Kramme der Länge endgleich 2 bis endgleich 6, also Bikramme bis Hexagramme. Und die Buchstaben in Kramme treten natürlich mehrmals auf. Also ganz einfaches Beispiel, die Kombination des Bikrammei treten natürlich auch jetzt hier, wenn man sich mal den Text anschaut, gleich an erster Stelle bei bei auf oder bei einem, haben wir die Kombination eiv vorherrschend. Das heißt, ich habe die Endkramme in der Häufigkeit beziehungsweise in ihrer Frequenz erfasst. Also wie häufig treten die Buchstabenendkramme in dem Text auf? Dann habe ich die 5000 häufigsten Buchstabenendkramme ja mit ihrer Häufigkeit, mit ihrer Frequenz in einer Matrix gespeichert. Das heißt, wir haben jetzt ganz links die verschiedenen Buchstabenendkramme, das ist jetzt nur ein Ausschnitt aus der Matrix, oben dann jeweils der Autor, der jetzt geschwärzt wurde aus Gründen der Privatsphäre und dann jeweils zu den Buchstabenendkrammen wird dann die Frequenz zugeordnet, die relative Frequenz. Das heißt, wie häufig tritt das Buchstabenendkrammen bei dem jeweiligen Autor auf? Relative Frequenz heißt eben, dass wir den absoluten Wert durch die Gesamtwurzahl des jeweiligen Beitrages oder der jeweiligen Beiträge teilt, damit eben insgesamt die Werte vergleichbar sind. Das heißt, wir haben einzelne Autoren, die sehr, sehr viel geschrieben haben und damit diese Häufigkeitswerte vergleichbar sind, werden eben die Häufigkeiten durch die Gesamtwurzahl des jeweiligen Autors geteilt. Ja, es ging ja jetzt darum, also ich habe jetzt sozusagen 5000 verschiedene Buchstabenendkramme mit ihren Frequenzen vorliegend und es geht jetzt darum, die informativsten Buchstabenendkramme zu erfassen, also oder welche Buchstabenendkramme eignen sich am besten für die Autorenattribution. Da habe ich zunächst über die Entropieberechnung, über eine Entropieberechnung schon mal die 300 informativsten Buchstabenendkramme ermittelt. Das heißt, im Prinzip ganz einfach mal erklärt, wenn wir jetzt einen Buchstabenendkramm hat, was sich bei verschiedenen Autoren in seiner Frequenz stark unterscheidet, also unterschiedliche Frequenzen bei verschiedenen Autoren aufweist, dann nimmt das Buchstabenendkramm einen hohen Entropiewert ein und man kann auch sagen, dass es sehr informativ ist, weil es ermöglicht mehr zwischen den verschiedenen Autoren zu unterscheiden, weil ich kann sagen, bei dem Autor tritt das Entkramm sehr häufig auf, bei dem anderen Autor tritt es eher selten auf, also kann ich schon zwischen verschiedenen Autoren unterscheiden. Wenn ich jetzt einen Buchstabenendkramm habe, was überall über verschiedene Autoren hinweg gleiche Frequenzen aufweist, oder sagen wir mal sehr ähnliche Frequenzen, dann ist das ja nicht sehr hilfreich, um zwischen den Autoren zu unterscheiden. Demzufolge innerhalb der Entropieberechnung haben dann solche Entkramme auch sehr niedrige Werte eingenommen. Insofern konnte ich die Entropieberechnung durchführen und habe dann die 300 Buchstabenendkramme mit den höchsten Entropiewerten sozusagen ausgewählt und dann hat sich ja ein weiterer Auswahlschritt sozusagen angeschlossen, und zwar über einen maschinellen Lernprozess mithilfe des Programms R, ganz links sieht man das auch nochmal, das ist ein netzfrei verfügbares Programm für statistische Berechnungen und ich habe dann ein spezielles Package ausgeführt, Random Forest nennt sich das, deshalb habe ich hier auch noch mal ein schönes Bild mit ganz vielen verschiedenen Bäumen ja mit auf die Folie genommen, das heißt eben mithilfe dieses Packages ich speise eben die 300 informativsten Buchstabenendkramme mit ihren dazugehörigen Frequenzen in dieses Programm ein und auf dieser Basis werden dann ja viele verschiedene Entscheidungsbäume gebildet, insgesamt 500 verschiedene und jeder Entscheidungsbaum trägt dann bei der zu der Autoranklassifikation oder Autorenattribution bei, man kann sich das mal ein bisschen genauer vorstellen kann, habe ich mal einen Ausschnitt von einem Entscheidungsbaum ausgewählt, man muss sich das sozusagen so vorstellen, kurze Erklärung noch, das X, was hier jeweils zu sehen ist, dabei handelt es sich um die Lehrzeichen, die ja auch mit in ihren Krammen mit eingeflossen sind, so wie funktioniert jetzt die Autorenattribution, ich habe jetzt sozusagen die Buchstabenendkramme mit ihren Frequenzen jetzt eine Autor zuordnen möchte, dann sage ich eben, ok, ich gehe von dem ersten Engramm Lehrzeichen, das Lehrzeichen aus und sage, ok, wenn das Engramm eine Frequenzaufweis, die kleiner ist als 0,446 und wenn gleichzeitig das Engramm ich eine Frequenzaufweis, die kleiner ist als 0,6 und zusätzlich noch das Engramm, was Lehrzeichen weh, eine Frequenzaufweis, die größer gleich 0,357 ist, dann kann es sich eben nur um den Autor handeln, der sich jetzt eben unter dieser Terminalnote verbirgt. Also ich gehe den Baum schrittweise sozusagen ab, treffe dann an jedem Knoten eine Entscheidung und gelange dann am Ende zu dem Autor. Das heißt, wenn ich jetzt einen anonymen Text habe, muss ich eben zunächst aus diesem Text die Engramme auszählen und dann ist es natürlich auch wichtig, dass ich dann dieselben Buchstaben Engramme vorliegen habe, die auch in dem Baum dargestellt werden. Dann nehme ich mir sozusagen die Engramme von diesem anonymen Text und gehe den Baum dann eben schrittweise ab, je nachdem welche Frequenzen die Engramme aufweisen und kann dann eben so theoretisch eine Klassifikation vornehmen. Also wenn es gut läuft, dann komme ich ja halt am Ende irgendwo an einem Blatt raus und habe dann sozusagen einen Autor bestimmt, also den wahrscheinlichsten Autor dann des Textes bestimmt. Ja, in meiner Untersuchung ging es ja nicht direkt um eine Autorenbestimmung, sondern es sollte, ich wollte ja lediglich die Buchstaben Engramme erhalten, die eben am entscheidendsten sind für die Klassifikation. Und das Praktisches bei diesem random forest Algorithmus, kann man sich die Wichtigkeit der Variablen ausgeben lassen. Das heißt, ich habe dann eine Liste mit Werten erhalten und bei diesen Buchstaben Engrammen, die eben die höchsten Werte aufwiesen, handelt es sich dann um die Buchstaben Engramme, die bei der Autorenattribution am entscheidendsten sind, genau die wichtigsten Buchstaben Engramme. Und mit dieser Grundlage dann konnte ich eben den zweiten Schritt anschließen und habe dann eben alle Wortformen aus demselben Personenkorpus extrahiert, die eben das sehweilig Buchstabenengramm enthalten haben. Also für jedes Buchstabenengramm habe ich alle Wortformen extrahiert. Und ich habe ja das Beispiel erst schon mal gezeigt, also der Text liegt in geteckter Form vor. Das heißt praktischerweise konnte ich dann zu der Wortform noch die Wortart ermitteln und auch die Grundform und dann eben diese zusätzlichen Informationen noch mit nutzen für die Auswertung. Ja, jetzt komme ich zum interessanten Teil zu meinen Untersuchungsergebnissen. Ich habe mir zunächst mal die 100 aussagekräftigsten Buchstabenengramme genauer angeschaut und mal geschaut, was sind das überhaupt jetzt für Buchstabenengramme, die wir jetzt noch vorliegen haben. Da wir es rausgekommen, dass am häufigsten Bier- und Trigramm vertreten waren und unterstützt auch die gängige Auffassung innerhalb der Forschung, dass insbesondere kürzere Buchstabenengramme für die Autorenattribution geeignet sind. Lediglich vier der 100 aussagekräftigsten Buchstabenengramme enthalten Großbuchstaben. Das heißt diese Informationen können eigentlich nicht so wichtig oder nicht so kennzeichnen sein. Über die Hälfte der Engramme setzt sich aus mindestens einem Leerzeichen zusammen. Das städigt sich auch die These, dass Leerzeichen ja wichtige Informationsträger sind. Also wie schon gesagt, dann eben darstellen, ob ein Buchstabe sich am Ende eines Wortes oder am Anfang eines Wortes befindet und lediglich einkrammbahnt halten, was aus einem Wortübergang besteht. Das heißt auch diese Informationen, welche Reihenfolge die einzelnen Wörter in dem Text aufweisen oder in welchem Kontakt die Wörter zueinander stehen, scheint zunächst erst einmal nicht so entscheidend zu sein, zumindest wenn man sich eben die ersten 100 Buchstabenengramme anschaut. Da muss man auch so ein bisschen vorsichtig sein, also nur so als erste Orientierungswerte, weil ja eventuell, wenn ich mir jetzt die ersten 200 aussagekräftigsten Buchstabenengramme angeschaut hätte, wäre das vielleicht auch nochmal ein bisschen, hätte sich das vielleicht nochmal ein bisschen verändert, aber so als Tendenz kann man das schon erst mal stehen lassen. Wie bin ich dann weiter vorgegangen? Ich habe eben dadurch, dass ich für jedes Entgramm die Wortform habe und zusätzlich auch die Wortarten ermittelt habe, habe ich ja zunächst den Anteil aller Wortarten ermittelt für das entsprechende Buchstabenentgramm, also und zu welchen oder unter welchen Wortarten ist das Buchstabenentgramm das jeweilige Buchstabenentgramm zu finden. Dann habe ich zusätzlich mit Hilfe der Wortform die Wortfeldanalyse durchgeführt, das heißt, ich habe versucht, die Wörter in bestimmte semantische Felder oder in bestimmte inhaltliche Kategorien einzuordnen. Das ist natürlich sehr schwierig und auch ein bisschen, oder auf jeden Fall ein subjektiver Vorgang, weil man hat ja keine festen Kategorien, um diese Wörter in bestimmte Kategorien einzuordnen. Von daher hätte das jetzt sicherlich jemand anders, die Untersuchendurchgeführt hätte, anders zugeordnet. Aber um eben überhaupt erst mal fassbar zu machen, um welche Wortform es sich überhaupt handelt und in welchen Kategorien die Wortform überhaupt auftauchen. Zu guter Letzt habe ich noch eine Wortfamilienanalyse durchgeführt, das heißt, alle Wörter erfasst nochmal gesondert, die dieselbe Wurzel aufweisen, dann auch noch mal die Anteile unter allen Wortformen festgehalten, den Anteil unter allen Wortformen. Dann möchte ich jetzt noch mal speziell auf meine Untersuchungsergebnisse eingehen. Also, das heißt, jetzt wirklich zu speziellen Buchstabenenkrammen. Das heißt, ich habe mir jetzt einzelne Buchstabenenkrammen ausgewählt, die recht interessant erst mal erschienen unter den Aussagekräftigsten und habe dann eben ja eine genaue Untersuchung vorgenommen. Also zum Beispiel das BICRAM SS oder Doppelschreibung. Hier hat sich ja gezeigt, also eine interessante Beobachtung, dass ein spezifischer Fehler als Stilmerkmal erfasst wurde, und zwar die Doppelschreibung anstelle von SZ, also in Form wie Ich weiß oder Spaß oder Grüße. Die Doppelschreibung, die ja eigentlich nicht korrekt ist, weil es ja eigentlich die Kürze eines Vokals anzeigt, aber einige Menschen haben sich ja das angewöhnt und halten das dann auch konsequent durch. Und das ist natürlich ein Kennzeichen, womit ich schon mal Autoren unterscheiden kann. Genau dann das BICRAM DI. Hier muss ich noch mal vorher sagen, bei den kürzeren BICRAM, bei den kürzeren N-Krammen, also BICRAM oder TRIKRAM, hat sich insgesamt gezeigt, dass sich diese N-Kramme auf sehr viele verschiedene Wortformen und auch auf sehr viele verschiedene Wortarten aufteilen. Das heißt, es ist schwer fassbar, auf welche Wortformen sich diese Buchstaben-N-Kramme überhaupt beziehen und auch die Wortarten sind eben sehr verteilt. Aber es gibt eben auch Sonderfälle, wie zum Beispiel bei dem BICRAM DI. Hier bestätigt sich eben die Vorannahme, die ich in dem Zusammenhang hatte, das eben verstärkt Artikel in der Form von DI und Pronominar. Also dieser, die und dich erfasst werden. Und hier kann man eben wirklich auch sagen, dass es sich um Stilmerkmale handelt. Bei den Pronomen ist es noch ein bisschen kritisch, aber eigentlich handelt es sich bei Artikeln und Pronomen um Funktionswörter. Und hier habe ich ja schon rausgestellt, dass Funktionswörter eben als Stilmerkmale genutzt werden in der Autorenattribution. Dann die Buchstaben-N-Kramme, die Leerzeichen enthalten. Ich habe ja schon gesagt, dass wir hier schon wichtige Informationsträger darstellen. Hier hat sich eben gezeigt, bei der Wortfeldanalyse bezogen auf das BICRAM Leerzeichen Groß D, dass viele Adverbien erfasst werden mit verweisender Funktion, wie dazu, darüber, darauf, daraus, darin. Oder eben auch Adverbien als Einleitung einer zeitlichen oder kausalen Folge, wie dann, danach, daraufhin. Deshalb daher oder deswegen. Das Interessante hierbei ist, dass es sich hierbei zum Teil um synonyme Begriffe handelt, wie beispielsweise bei deshalb, daher oder deswegen. Das heißt Begriffe, die wir an einer bestimmten Stelle des Satzes austauschen können. Und ja, hierbei handelt es sich auch auf jeden Fall um Stilmerkmale. Denn ich habe es ja schon mal erwähnt. Man geht davon aus, dass jeder Mensch bestimmte Form vorzugt. Der eine sagt dann eben, daher habe ich länger geschlafen. Der andere sagt, deswegen habe ich länger geschlafen. Das sind also Formen, die auch einen Autor kennzeichnen, die uns da behelfen, dann einen Autor zu überführen. Das Problem ist aber mit dem BICRAM Leerzeichen Groß D, können wir eben lediglich die einzelnen Begriffe erfassen in ihrer Häufigkeit auch. Aber wir können eben nicht zwischen den Begriffen differenzieren. Da gibt es dann andere Ansätze auch innerhalb der Autorschaftsattribution, wo eben adäquat mit den Synonymen umgegangen wird. Also hier ist das Problem, dass wir lediglich die Häufigkeit erfassen können. Aber wir können eben nicht erfassen, welchen Begriff gebraucht der Autor häufiger insgesamt, also gebraucht der Autor daher häufiger oder deswegen häufiger. Das ist halt mit dem BICRAM Groß D nicht möglich. Als weiteres Beispiel, das Tricram ST, auch hier hat sich eine interessante Beobachtung ergeben. Und zwar finden sich umfangreichere Wortfelder zu Äußerungsvorgängen, wie Mein, Sagen oder Sprechen, Denkprozessen, wie Glauben, Denken, Verstehen oder auch Verweisen auf kognitive Fähigkeiten, wie Wissen oder Kennen. Und wenn man sich das Tricram näher anschaut, ST wird klar, dass diese Verben nur in der zweiten Person singular erfasst wurden. Das heißt nur in der Form du denkst, du sagst, du kennst. Und wenn man sich jetzt nochmal vor Augen führt, dass Forentexte untersucht wurden, dann ist klar, dass das ein ganz charakteristisches Element von Forendiskussionen erfasst wurde. Und zwar dem Leute, wenn ich jetzt einen Beitrag verfasse, bezieh ich mich ja meistens auf etwas Gesagtes. Und dann sind eben solche Formen kennzeichnet, wie du meinst das, du glaubst das, du denkst also das. Das sind, und dann schließt man seine eigene Meinung an, das sind sozusagen dann auch Bestandteile von indirekten Zitaten. Und in dem Zusammenhang kann man aber nicht von einem Stilmerkmal sprechen. Denn das sind Merkmale, die eben für zum Beispiel Texte, die innerhalb eines Forums verfasst wurden, kennzeichnen sind. Also die innerhalb von Forendiskussionen beispielsweise tauchen diese Formen sehr häufig auf, während wenn ich jetzt eine andere Textsorte habe, also zum Beispiel ein Brief, beim Brief könntest du eventuell auch so sein, aber zum Beispiel eine Autobiografie oder was auch immer, wo eben dieses dialogische Element fehlt, dann ist davon auszugehen, dass solche Formen eben nicht so häufig auftreten. Man spricht in dem Zusammenhang auch von genre-spezifischen Formen. Also Formen, die jetzt auch für die Autoschaftsattributionen nicht hilfreich sind. Das über springe ich mal ganz kurz. Ich gehe nur noch mal unten auf den Punkt 4 ein. Und zwar habe ich auch mal Buchstaben, ein Kramenäher untersucht, die ein vollständiges Lexem oder ein vollständiges Wort erfassen. Also beispielsweise das Trigramm und, und ich habe mir dann mal noch das Tetragramm Lerzeichen unterzugenommen, um mal auch zu schauen, welche Rolle die Lerzeichen spielen. Und da hat sich eben gezeigt, dass sich das erste Trigramm und noch relativ breit unter verschiedenen Wortarten verteilt, das heißt, es taucht in Konjunktion auf, das ist natürlich ganz klar, aber eben auch zu 11,3 Prozent enorm, teilweise auch in adjektiven und in Vollwerben. Wenn wir jetzt zusätzlich aber noch das Lerzeichen mit dazunehmen, dann ist natürlich schon mal eingeschränkt, dass das Wort und nicht im Wortinneren auftreten kann beispielsweise. Und dann sehen wir schon, dann haben wir eben 99,7 Prozent Konjunktion. Das heißt, dann ist es relativ eindeutig, dass sich dieses Engramm eben eigentlich nahezu ausschließlich auf die Konjunktion und bezieht. So, was können wir insgesamt Schluss folgern? Also, ich bin insgesamt zu den Schlussfolgerungen gelangt, dass Buchstaben-Engramme, einzelne Buchstaben-Engramme tatsächlich Stilmerkmale erfassen, also beispielsweise Fehler, umgangssprachliche Form oder eben auf Funktionswörter. Buchstaben-Engramme beziehen sich aber eben häufig auch auf den Inhalt oder das Genre der Texte. Besonders bei den kürzeren Buchstaben-Engrammen kann man das eben nicht so genau einschränken, da sind auch sehr viele Inhaltswörter, die damit erfasst werden. Und weiterhin sind auch die Untersuchungsmöglichkeiten eingeschränkt, da eben die Buchstaben-Engramme werden nur in den Häufigkeiten oder Überhäufigkeiten erfasst und somit kann ich eben zum Beispiel auch nicht zwischen Synonym unterscheiden, wie ich das erst schon mal dargestellt habe, sondern man erfasst lediglich, wie häufig eine bestimmte Form auftritt. Ein zentrales Dilemma, was da auftritt, die Stiftung-Warentest hat schon so ein bisschen voraus gesehen, 1984 mit dem Artikel, die Enttäuschung ist vorprogrammiert. Das Problem ist, dass kurze Buchstaben-Engramme, also Bi- und Trigramme, zwar die besten Ergebnisse im Rahmen der Autorenattribution ermöglichen, also die genauesten Werte, das aber eben überhaupt nicht eindeutig feststellbar ist, auf welche Wortformen sich diese Buchstaben-Engramme konkret beziehen, dass sie sich eben sehr breit verteilen. Das heißt, ich kann auch nicht sagen, wird da jetzt wirklich der Stil gemessen oder wird da eher der Inhalt erfasst. Und bei längeren Buchstaben-Engrammen ist es etwas leichter festzustellen, was gemessen wird. Aber hier haben wir das Problem, dass sich diese Buchstaben-Engramme eben als weniger effektiv im Rahmen der Autoschaftsattributionen erweisen. Und dann möchte ich schließlich noch auf ein ganz großes Problem eingehen, was vielleicht auch meinen Vortrag an sich ein bisschen verdeutlicht hat, weil ich mir vorstellen kann, dass einige Fragezeichen aufgetaucht sind bei solchen forensischen Untersuchungsmethoden, also Methoden der Autorenattribution. Es ist ganz wichtig, dass diese Methoden vor Gericht nachvollziehbar begründet werden können. Also wenn ich jetzt einen Fall habe, ich überführe ein Autor, dass er ein bestimmtes Schreiben verfasst hat und es soll eben auch als Beweis vor Gericht dienen. Dann muss eben die Methode, mit der ich diesen Autor oder diesen Kriminellen überführt habe, nachvollziehbar dargestellt werden können. Und wenn wir jetzt jetzt mal vorstellen, dass eben da ein Experte sagt, ja, ich habe den und den überführt, weil bestimmte Buchstaben-Kombinationen, also die und diese Buchstaben-Kombinationen sind sehr häufig aufgetreten. Das war bei den Vergleichs-Schreiben so und in dem anonymen Dokument war es auch so. Also handelt es sich mit großer Wahrscheinlichkeit in einem Autor. Dann entstehen natürlich viele Fragezeichen bei den anderen Leuten, weil man sich nicht so richtig vorstellen kann, was jetzt damit gemeint ist mit bestimmten Häufigkeiten von Buchstaben-Kombinationen. Es ist einfach schwer fassbar. Und von daher sind natürlich erstmal noch weitere Untersuchungen notwendig, um eben zu überprüfen, was überhaupt jetzt mit den Buchstaben entkramm gemessen wird. Und so lässt sich auch ein grundlegendes Fazit ableiten. Also eine Erkenntnis, die ich noch gerne weitergeben möchte. Und zwar, ja, insgesamt computergestützte Verfahren liefern eben bei der Autorenattribution sehr erfolgsversprechende Ergebnisse und werden natürlich in Zukunft auch noch näher ausgebaut werden. Aber der Mensch vor der Maschine ist sozusagen nicht ersetzbar, sondern es ist eben ganz wichtig und das wird eben teilweise vernachlässig, dass die Verfahren genau überprüft werden und zwar dahingehend, ob wirklich das gemessen wird, was gemessen werden soll. Und bei der Autorenattribution ist es eben der Stil eines Autos, der gemessen werden soll. Und ich muss dann halt stets die Methoden überprüfen, dahingehend, was gemessen wird. Genau. Damit bin ich jetzt erstmal mit meinem Latein am Ende sozusagen. Und ich möchte jetzt auch den Moment jetzt nochmal ganz kurz nutzen, um mich insgesamt zu bedanken. Bei Herrn Scharlot, der das hier alles ermöglicht hat überhaupt, ohne den die Arbeit sicherlich gar nicht möglich gewesen wäre. Auch bei meinen Freunden zu bedanken, die mir bei der einen oder anderen statistischen Berechnung bis hin zum Druck der Arbeit, die mich dabei unterstützt haben. Und auch bei meiner Familie, die mir den Rücken freigehalten hat. Und schließlich möchte ich mich auch bei euch bedanken für eure Aufmerksamkeit. Und bin natürlich jetzt noch gespannt, ob irgendwelche Fragen geblieben sind. Vielen Dank. Da kommt gleich die erste Frage. Vielen Dank für die interessanten Einblicke. Mich hat der Vortrag schon alleine vom Titel sehr an etwas erinnert, was ich hier vor acht Jahren, also nicht hier, sondern in der Scheune bei den Datenspuren gehört habe. Da ging es um André Holm, da hatte ich schon eine Autorenanalyse darüber über Inhalte, nicht über den Stil erkannt wurde. Am Ende war er es nicht. Da sehe ich das große Risiko. Und da stellt sich für mich nur die Frage, wie das am Ende vor Gericht verwertet werden kann und begründet werden kann. Sondern auch wenn die Polizei das verwendet, nur zur Ermittlung und nicht, um dann jemandem das als Beweis unterzuschieben, so führen, sondern nur um den eigenen Verdacht, den Anfangsverdacht zu haben, bedeutet das für den Betroffenen, das sind schon ganz schon harte Konsequenzen. Und wenn sich das wie in seinem Fall dann nicht erhärtet, das kann ja auch wieder gut begründet werden, dass er konspirativ arbeitet, weil er verdächtig ist und nur deswegen nicht erkannt wird. Was mich wirklich interessieren würde jetzt als Nächstes, wie hoch war die Genauigkeit, wie gut kannst du Autoren wiederfinden? An der Stelle denke ich, ist deine Datenbasis ein bisschen klein mit den 40 Autoren aus drei Fohren, die sich doch sehr stark unterscheiden. Ich finde es richtig spannend, wenn du dir größere Datensätze nehmen kannst, irgendwie Projekt Euler, andere freie Bücher, freie Dokumente, wo du ganz viele Autoren mit ganz langen Texten findest, das entsprechend anlernst und dann mal dir kleine Textausschnitte rausnimmst und guckst, wie gut kann er Textausschnitte in einer bestimmten Größe einem Autor zuweisen aus einer bestimmten Gruppe von Autoren. Und wenn du das mal aufplotten könntest, wie lang die Texte sein müssen und wie groß die Gruppe der möglichen Autoren ist und wie gut dann die Ergebnisse sind, das finde ich richtig spannend. Okay, dann vielen Dank erstmal für die Anmerkung. Es ist tatsächlich so, dass ich eigentlich tatsächlich ein sehr großes Autorset verwendet habe. Also es ist eigentlich nicht üblich, so viele Autoren zu verwenden, 38 verschiedene Autoren. In den meisten Studien sind es tatsächlich weniger Autoren, dann haben wir eben 20 Autoren, 15 verschiedene Autoren. Und das Ziel jetzt in meiner Untersuchung war ja auch speziell, erstmal nicht unbedingt eine Methode zu entwickeln, sondern eben mal mir diese Features, die eben genannt die Buchstaben in Krammel näher anzusehen. Also sozusagen auf diesen Bereich einzugehen. Also die Genauigkeit stand jetzt erstmal nicht im Vordergrund. Genau, das wäre natürlich auch die naheliegende Konsequenz, dann auch die Methode auszuweiten. Verschiedene Algorithmen auch zu testen, weil es gibt natürlich verschiedene Ansichten, verschiedene Algorithmen, die da verwendet werden. Auch zum Beispiel verschiedene maschinelle Lernalgorithmen. Und dass man dann einfach das nochmal auf eine breitere Basis stellt. Das heißt nochmal, das Untersuchungskorpus ausweitet, natürlich andere Untersuchungskorpore einbezieht. Das ist eben auch immer eine sehr schwierige Frage, welches Untersuchungskorpus ich verwende. Der Forschung werden dann teilweise Korpora verwendet, die vom Inhalt gleichgeschaltet sind, auch von den Autoren relativ gleichgeschaltet, um eben solche Einflüsse zunächst erstmal auszuklammern. Und da ist aber dann grundsätzlich die Schwierigkeit, dass wir da eben von der Realität wegkommen. Deshalb habe ich auch speziell erstmal sehr breit das angelegt, sehr heterogene Autoren einbezogen, verschiedene Inhalte. Aber das ist natürlich richtig, also um das auf eine breitere Basis zu stellen, kann man da natürlich nochmal, muss man da auch nochmal variieren in den Faktoren. Noch eine weitere Frage. Ja, ich wollte nochmal Fragen zu deinen Korporadien, was du benutzt hast, also die drei Foren. Hast du dir mal den Spaß erlaubt, dem nachhinein zu gucken, ob es da signifikante Unterschiede zwischen diesen drei Foren gibt, die man so erkennt? Ja, es gibt tatsächlich einige Unterschiede. Also zum Beispiel, wenn man sich jetzt das Seniorenforum vornimmt, dann sieht man natürlich, dass auch ältere Schreibweisen vorher schon auch bei der Wortwahl, dann eben bestimmte Wortwahl, wo man eben sieht, dass benutzen junge Leute einfach nicht mehr bestimmte Wortformen. Und ja, teilweise auch inhaltlich dann natürlich Unterschiede, dass man dann eben auch bei diesem rechtsorientierten Forum dann bestimmte Begriffe, eine bestimmte Terminologie hat, die da sehr kennzeichnend ist, eben diese Rassenideologie oder diese bestimmte Rassenbegriffe, die dann eben durchkommen. Also da gab es schon einige Unterschiede. Genau, und bei den jüngeren Leuten dann eben zum Beispiel auch höhere Fehlerraten zum Teil. Also da gab es schon einige Unterschiede. Okay, wenn man sowas hört, dass man tendenziell automatisiert Leute erkennen kann anhand ihres Schreibstils. Und wenn man das ein bisschen weiter denkt, dass es ja durchaus Unternehmen gibt, die über große Datenbasen verfügen, Google, Facebook, wie auch immer, dann stellt sich ja eigentlich die Frage, wie könnte ich sowas unterbinden? Weißt du, ob es irgendwie Möglichkeiten gibt, wie automatisiert der Schreibstil irgendwie möglicherweise abgeändert werden kann oder wie man sich dagegen wehren kann, dass sein Schreibstil auf solche Patterns untersucht wird? Da gibt es tatsächlich einige Möglichkeiten. Die einfachste Möglichkeit ist natürlich, über ein Übersetzer zu gehen, das heißt mit Hin- und Rückübersetzung. Da haben wir aber das Problem, dass das nicht so zuverlässig funktioniert. Also da geht dann einfach die Bedeutung flöten, wenn ich das über den Übersetzer schicke. Es gibt aber auch schon bessere Methoden, wo es auch wirklich nachweislich gelungen ist, solche Systeme zu täuschen. Und zwar, indem man sich einfach diese Erkenntnisse von den Systemen zu nutze macht. Das heißt, ich schreibe jetzt einen Text, den ich verfälschen will und lege noch ein paar Vergleichstexte bereit, die eben auch von mir verfasst wurden und dann lasse ich mal so ein Attributionsalgorithmus durchlaufen. Und dann stelle ich ja fest, was findet dieser Algorithmus, also welche Wortform findet er und dann auf der Basis kann ich dann eben diese Wortform gezielt rausnehmen. Und da gibt es eben auch schon Ansätze, das wirklich dann vollautomatisiert zu machen, dass das System diese Wortform erkennt und dann eben entsprechend ersetzt. Das wäre eine gute Möglichkeit in dem Hinblick. Dazu vielleicht gleich als Anschluss. Ist es damit auch möglich, dass ich einen Text fingieren kann? Also ein Text so schreibe, dass ich dann da Autor geschrieben habe. Ja, das ist tatsächlich auch sehr gut möglich und solche Systeme, also Autoschaftsattributionssysteme, Maschinellesysteme, lassen sich auch davon sehr gut täuschen. Also wenn ich jemanden imitiere, dann ist wirklich die Rate auch sehr hoch, dass ich das System dann tatsächlich täuschen kann und dann den Verdacht auf jemand anderen lenken kann. Also das ist gut möglich. Ich habe noch eine eigentliche Frage gehabt. Du hast ja sehr viele Vor- und Beiträge von einzelnen Autoren. 38 hast du gesagt untersucht. Inwieweit gibt es da Ausreißer von einzelnen Beiträgen? Ich meine, es waren wahrscheinlich auch öfters mal kurze Texte und in der Summe waren sie ausreichend lang, um diese statistischen Untersuchungen durchzuführen. Aber ich frage mich immer, ob es da mal nicht mehr so ein Beitrag gibt, wo jemand über was ganz anderes schreibt, über einen ganz neuen Thread aufmacht und was überhaupt nicht so in das Schema reinpasst. Schlussendlich dann zur Verzerrung in der Statistik wird. Das ist natürlich gut möglich, aber dadurch, dass eben die Textbasis so groß ist, also wir haben ja 32.000 bis 90.000 verschiedene Wortformen vorliegen, sind dann solche Bereiche fallen dann weniger stark ins Gewicht. Also wenn wir jetzt einen Beitrag haben, der so ein bisschen ausreißt, dadurch, dass wir eben so eine große Textmenge haben und es gibt ja eben auch verschiedene Verfahren, um da eben auch solche Einflüsse zu verhindern, indem man eben zum Beispiel die Abschnitte alle in gleichgroße Abschnitte unterteilt und das dann untersucht. Also das, wie gesagt, also im Hinblick auf diese große Textmenge sind da solche Ausreißer eigentlich fallen da nicht so schwer ins Gewicht. Also du meinst, das anonyme Schreiben sozusagen, das ist natürlich schwierig, auch bei den maschinellen Methoden, wenn man bei diesen anonymen Schreiben handelt, ist es ja um sehr kurze Schreiben und von daher habe ich dann natürlich eine gewisse Fehlerrate einfach aufgrund der Kürze des Schreibens. Das ist ganz klar. Ja, welche Treffer-Verscheidenkeit hast du nun erzielt in deinen Untersuchungen? Wie gesagt, Treffer-Verscheinigkeit war bei mir jetzt nicht so entscheidend, das habe ich jetzt auch nicht gemessen, aber es gibt eben vergleichbare Untersuchungen, die diese Buchstaben in Kramme nutzen und da wirklich sehr hohe Treffer-Verscheinigkeiten erreichen. Also das ist immer ein bisschen schwierig zu sagen, weil das wirklich immer auf das Untersuchungs-Corpus ankommt. Wie groß ist das Corpus? Weil wenn ich jetzt ein sehr, sehr großes Corpus habe, sehr, sehr viele verschiedene Autoren, dann ist natürlich eine Treffer-Verscheinigkeit schon ganz gut. Wenn ich aber jetzt nur fünf verschiedene Autoren habe und ich habe 90% Treffer-Verscheinigkeit, ist das schon eher ein bisschen niedriger anzusetzen. Aber so ganz allgemein kann man sagen, dass die Methode sehr hohe Genauigkeiten ermöglicht. Also wirklich sehr erfolgsversprechend auch innerhalb der Forschung angesehen wird. Ich will ja in der Diskussion daran nicht zu sehr eingrenzt, aber ich würde noch sagen, zwei Wortmeldungen, kurze Fragen, kurze Antwort und dann machen wir Schluss. Okay, mich würde noch interessieren, dass es uns ist, denn diese sprachliche Charakteristik über verschiedene Textformen ist vom gleichen Autor. Ich kann mich an den Vortrag erinnern hier, das war vor drei Jahren glaube ich, ging es um ein ähnliches Thema und da kam dann eher so als Fazit raus, dass das eher geeignet ist, um dann verschiedene Textformen zu finden. Ja, das ist das große Problem. Auch bei Buchstaben entkrammen, da ist nochmal was ganz Wichtiges angesprochen worden auf jeden Fall, also Buchstaben entkrammen, auch um Texte hinsichtlich ihres Inhalts zu unterscheiden, zu klassifizieren dann zum Beispiel. Ja, und da haben wir auf jeden Fall ein Einfluss vorliegen, also die Textsorte nimmt auf jeden Fall Einfluss, man versucht das natürlich zu vermeiden, indem man eben sich eben nicht auf den Inhalt konzentriert, sondern wirklich versucht, Stilaspekte hinzubeziehen, aber das ist natürlich eine ganz schwierige Frage, weil eben auch natürlich ein Stück weit auch stilistische Merkmale durch die Textsorte beeinflusst werden, einfach. Also es ist ganz schwierige Frage, das eben zu trennen und man hat da oft Einflüsse durch die Textsorte, deshalb innerhalb der Forschung wird dann eben auch versucht, das ein Stück weit gleich zu schalten, solche Einflüsse erstmal zu verhindern, indem man eben nur Texte der gleichen Textsorte verwendet, aber damit ist das Problem natürlich nicht gelöst in der Forschung noch ein großes Problem. Ich hätte noch eine Frage, kann man innerhalb eines Texts herausfinden, ob sich ein Abschnitt unterscheidet, ist das machbar, reicht das? Das ist machbar, das wird auch eingesetzt zum Beispiel zur Plagiatserkennung unter anderem, indem man eben, also mit der Methode, es ist vielleicht schwierig über Buchstaben in Kram, aber es gibt eben Methoden, die den Text dahin gehen, untersuchen, ob eben bestimmte Stilumbrüche in den Texten dann zu beobachten sind. Und das mache ich dann, indem ich den Text sozusagen immer abschnittweise durchgehe. Also ich bilde dann immer gleich bleibende Einheiten, so zum Beispiel von 200 Wörtern und schieb das Fenster dann runter und extrahiere alle Stileigenschaften und wenn sich dann sozusagen verschiedene Einheiten unterscheiden, dann kann ich davon ausgehen, dass da an der Stelle vielleicht ein Stilumbruch stattgefunden hat und dann kann ich dann auch solche Bereiche nochmal genau untersuchen und dahin gehen, ob eben dann muss dann sozusagen nochmal ein Sachverständiger ran, der dann gezielt und genau nochmal schaut, dass die Umbrüche sind, aber das ist durchaus möglich. Vielen Dank für den Vortrag für die Diskussion.