 Folgen also bitte leise sein und jetzt, ich bin sehr erfreut Professor Rachel Greenstatt, Eileen, und Rebeta Aufendorf von Privacy Security Automation Lab von Drecks Universität zu vorstellen. Sie sind daran gewöhnt, bei Kongresse zu sprechen also, bitte ein warmer Applaus Runde und let's go. Es wäre super, wenn wir die Präsentation starten. Vielen Dank. Okay, das ist viel besser. Hallo, ich bin Rachel Greenstatt, ich bin Professor der Universität Drecks und Privacy Security Animation Lab. Das ist meine Studentin Eileen Kalliskan, Islam Rebeta Aufendorf. Die werden sprechen später. Wir werden darüber sprechen heute über die Attribution von, die Zuweisung von, von Autorschaft in Source Code und Sozialmedien. Das erste, wir werden darüber sprechen über Stilometrie. Das ist, wie wir diese Prozesse machen in diesem, in meinem Lab. Also die Idee darüber, dahinter ist, dass jede, jede Mensch, Sprechweise und Schreibweise ist, ist ein, ist unik. Jede von uns, obwohl wir dieselbe Sprache sprechen, wir haben eine individuelle Art zu sprechen, zum Beispiel in Englisch. Die Origin, es gibt Unterschiede, wo Leute sagen für ein, für ein, für einen Couch, ein Couch, manche sagen ein Sofa, ein Englisch. Aber es gibt auch Wörter, die, die dasselbe bedeuten, aber das sind andere Wörter, zum Beispiel in Englisch, jedoch und, und doch. Es gibt beim Schreiben, beim Schreiben Unterschiede, die Leute schreiben die Dinge anders. Und es gibt einfach verschiedene Arten, dasselbe Idee auszudrücken. Die Leute sagen können, der, der Gabel ist links vom Teller oder der Gabel steht links vom Teller. Und das sind Besonderheiten. Das ist, was wir, das ist die größte Arbeit, die wir in meinem Bebot machen. Wir sind von der Drexel University. Wir haben ungefähr zehn Studenten, die hier ihren Abschluss machen. Wir studieren, wir konzentrieren uns darauf, wie Menschen Entscheidungen treffen über Sicherheit, Privacy und Vertrauen in Maschinen. Wir sind vor allem daran interessiert, wie ... Okay, das, was wir CCC, worüber, darüber sprechen werden. In der Vergangenheit, Micronin hat darüber gesprochen, wie die Autorschaft, die Erkennung, die erreicht, kann begetrickst. Und Ali Anisali, vor zwei Jahren, darüber gesprochen, wie Stylometrie angewandt werden kann. Wir werden über Source Code sprechen. Die Leute fragen uns immer, ja, was ist mit Source Code, was ist mit Tweets. Okay, wir werden diese Frageperson zu beantworten, diese, diese Vorträge. Im Lab machen wir viele Sachen wie Sozialnetzwerk, Analyses, Community, Textanalyses und wir studieren die Sicherheit. Okay, Privacy Lab. Okay, was ist der Zusammenspiel zwischen Privacy und Stylometrie? Es gibt sehr gute Technik um die, die Privacy von, von Standort. Ihr kennt alle Tore, mein T-Shirt, Mixes und so. Es gibt andere Technik, um die IP-Adressen zu feststecken im Internet. Aber in manchen Fällen, wenn du dich ausdruckst im Texten, es ist vielleicht nicht genug. Und das ist wo Stylometrie kommt im Spiel. Stylometrie kann Autor identifizieren basiert an ihrem Schreiben. Und es ist sehr wichtig, weil es ist ein Bedrohung für Leute, die whistleblower sind, die Korruption auf, auf Decken und die ein Account benutzen. Es ist auch so wichtig für normaler Leute, die wollen ihre Meinung ausdrücken, oder die wollen Code schreiben, die wollen sie online teilen. Ohne, dass sie wollen, dass sie wollen, dass diese Sachen, die sie geschrieben haben, sie für ihm verfolgen in ihrem Leben. Also, lasst uns zurück, die kurze Tutorial, und wie funktioniert das? Es funktioniert eigentlich so, dass die Methodien heute verwendet, verwenden Machine Learning. Die Autoren davon sind McCartney und Ernest Hemingway. McCartney und Hemingway haben sehr unterschiedliche Schreibstile, wie man hier es sehen kann. Zitat von Ernest Hemingway über Aufstehen am Morgen. Natürlich, wir können so die Unterschiede zwischen diese beiden Leuten sagen. Also, wir schauen den Text, die wir extrahieren, die extrahieren Merkmale. Die Merkmale, die wir benutzen, zum Beispiel, sind die Häufigkeit von Funktionswörtern. Funktionswörter, die sind Wörter, die Füllwörter, die nicht unbedingt was bedeuten. Und wir schauen die Häufigkeit von Punktuation, die sagt uns etwas über die Struktur. Wir benutzen auch viel mehr Merkmale. Aber wir füttern diese in einem Modell und diese Maschine. In einem guten Modell hat man ca. 4.500 bis 7.500 Daten, die ungefähr 1.000 Eigenschaften haben, damit man sie besser unterscheiden kann, wie das gerade eben genannt zum Beispiel Punkt der Unkommers. Es tut mir leid. Es ist besser. Ich hoffe, dass der Stream funktioniert. Tut mir leid darüber. So, um eigentlich dieses zu benutzen, sagen wir, wir haben einfach ein unbekanntes Dokument, unsere Testdokument. Erinnert euch die Sachen, die wir da zitiere, den Text. Wir wissen nicht, ob Ernest Deming, wer Makati das geschrieben hat. Also, wir extrahieren 500 Merkmale von diesem Dokument. Das ist ein sehr kurzer Text. Für gute Ergebnisse, wir brauchen mindestens 500 Wörter. Und wir fragen, der Modell, wer das geschrieben hat. Und er sagt, uns ist Komak Makati. Und das ist die Wahrheit. Das ist korrekt. Also, allgemein, diese Methoden, die Silometrie-Methoden sind sehr gut, besonders, wenn du ungefähr 100 Autoren hast. Das sind ungefähr die möglichen Suspekten, die du hast. Es gibt eine Erfolgsrate von über 90 Prozent. Genauigkeit. Diese Methoden können wir eskalieren. Es gibt Experimente mit 100.000 Autoren. Mit 100.000 Autoren, sogar in diese Fälle, es ist viel, viel besser als random. Wir haben normalisierte Zufall. Also, du kannst zumindest die Suspekte für den Text zu einer kleineren Anzahl reduzieren. Also, früher, als jetzt sie die Fragen, die wir haben mit meinen Labhabern, ist, wie stark sind diese Techniken, wenn die Leute die benutzen? Die Leute, allgemein, die können, die effizient diese Techniken reduzieren, indem sie ihren Schreibziel verändern. Wir haben Leute gefragt, dass sie ein Autor imitieren. Also, ich würde nicht sagen, dass es ausreicht, um dein Schreiben zu verstecken. Du musst das verifizieren. Es gibt Tools in unseren Lab. Jay Stylo ist ein Autorschaft-Analysen-Tool und andere Anonymos. Das ist Work in Progress. Das ist noch nicht fertig. Diese sind zur Verfügung an unsere GitHub-Page. Da hätten wir gerne eure Meinung oder Kommentare. Und wir haben uns angeschaut, was es in Untergrund von, denn so alles gibt. Das hier ist ein Auszug aus einem Forum, wo Kreditkartendaten ausgetauscht werden. Um die Arbeit zu machen, mussten wir unser Programm auf Deutsch ausweiten. Unsere Programme sind jetzt sogar in Deutsch. Das sind hier die Eigenschaften. Wir haben die Punkte gezählt, spezielle Zeichen und spezielle Wörter. Und spezielle Spracheigenschaften. Die Frage ist, in meiner Ecke, ob das nur eine akademische Frage ist. Oder ob Leute das Ganze wirklich in der echten Welt benutzen, um Leute darüber zu identifizieren. Und die Antwort darauf ist, ja. In einer sensationale Fall, GK-Rolling wurde entdeckt als der Autor vom bestelligen Krimi, Robert Galbraith. Und die Analyse ist eine Solomätrie, eine Solomätrie-Firma. Die haben alles in unserer Analyse, die Palette sind. Und wir haben auch viele Tüte über Twitter bekommen. Und das Exponiert von GK-Rolling, als der Autor von diesem Burg. Unser Doppelgänger-Findercode, die wir entworfen haben, um die Wahrscheinlichkeit, dass zwei Account von derselben Menschen sind, ist bei uns bei dem FBI. Wir haben es auf GitHub gelegt. Und die FBI gesagt, die Fanden es nützlich. Wir wissen nicht genau, wozu sie das benutzen. Es gibt viele Experte, Zeuge um die Welt. Ich weiß, eine US-Gesetzte, es gibt die Vanuik-Opinion, das sagt, wie kann es benutzt werden, wie kann es eingesetzt werden? Also das, was Sie gemacht haben, um euch einen Überblick zu geben, was das Silometrie macht und wie es funktioniert. Heute wollen wir aber darüber reden. Heute wollen wir zwei sehr interessante Fälle reden. Der erste Fall wäre, was? Was ist, wenn du ein Twitter-Feed hast, das Unbekannteste? Du hast vielleicht nicht ein Twitter-Feed für diese Person, aber die Antwort ist ja, wenn du ein Twitter-Feed für dieses Suspekt hast und du solltest es stattdessen benutzen, aber wir arbeiten über diese Frage darüber. Was ist mit Soundscode? Kennst du entdecken, ob jemand dieses Soundscode geschrieben hat von dem Stil? Ja, die Antwort ist ja, wenn es ein obfuscated Code ist. Ich werde Eileen jetzt das Wort weitergeben. Hallo zusammen. Ich bin Eileen. Also jetzt, wir schauen uns den Code-Stylometrie. Wir wollen herausfinden, wer hat diese anonyme Code geschrieben, indem wir den Coding-Styl lesen. Und es gibt zwei Gemeinschafts-Szenarien, die wir anschauen über die Authorschafter. Der erste ist Alice Computer wurde infiziert. Sie hat ein bisschen Soundscode von Malware. Und Bob hat eine Sammlung von Malware, von denen er die Autoren weiß. Also Bob kann seine Sammlung von Malware schauen, um zu identifizieren, wer der Gegner von Alice war. Der zweite Szenario ist Plagiarism. Alice hat eine Extension zu seinem Programm und ihr Prof Bob hat gesagt, hat die ganze, die ganze Paper von allen anderen und die, die, das ... In diesem Fall können, reden wir darüber, dass wir sicher, dass wir die Sicherheit von Autofeststellungen in Code viel besser feststellen können. Aber in dem meisten, also in diesem Fall, kann das aber auch benutzt werden, um in die Privatsphäre zu verletzten. Zum Beispiel, diese Iran-Autor wurde zu tote verurteilt, weil er wurde identifiziert, als er Programmiere eine Pornseite von der iranische Regierung. Und der wurde in Einzelhaft ohne legale Gründe gehalten. Seine Familie, seine Familie hat gesagt, er ist auch ein kanadischer ... Er wusste nicht, dass die Pornseite als Fotos hochgeladen hat. Wenn er wusste, dass er benutzt wurde von einer Pornseite, er hätte nie seinen Namen darauf gemacht, weil es ist illegal in Iran. Aber danach hat er gesagt, unter Druck hat er gesagt, er bedauert seine Aktivitäten und jetzt seine Tode, seine Todeurteil ist zurückgenommen. Wenn wir schauen, die Zuweisung von Autorschaft, es gibt viel experimentelle Setting. Es gibt Software Forensics mit einem ... Es ist ein ... Wir wissen nicht, dass ... Die normale Fälle von Autorschiff-Zuweisung, die wir die Stylometrie plagiat entdecken, dann können wir kennen die Set von Suspect. Also das ist ein geschlossener Gruppe von möglichen Suspect. Wir können auch auf der anderen Seite ein Copyright disputen. Es ist ein zwei-Fälle-Problem. Es ist einfach ein geschlossener ... Es ist auch ein geschlossenes Problem, weil wir beide Seite der Disput kennen. Bei Autorschaft-Werifikation ist diese Person, die sagt, der das geschrieben hat, diese Source Code, haben sie das wirklich geschrieben oder hat jemand anderes das geschrieben? Und das ist eine Zweiklasse, eine Klasse Formulation. Es ist ein offener Klassenproblem. Es wurde entweder geschrieben von die Person, die das sagt, und es wurde geschrieben von jemandem, der angeheuert hat. Und hier ist eine Tabelle von unseren Ergebnissen. Hier können Sie sehen das 250-Klasse-Otortest. Wir haben ein Ergebnis, ein Trefferkurs von 95,3%. Das ist eine sehr, sehr hohe Genauigkeit vergleichen mit früheren Werken. Und das zeigt, dass wir eine neue Prinzip, eine neue Methode haben mit syntaktischen Features, um Source Code-Stilometrie durchzuführen, die bis jetzt noch nicht in diese Größenordnung gemacht wurden, diese Art und Weise. Also, um zu verstehen, der Coding Style, um zu verstehen, wir müssen Programmmerkmale schauen. Und zuerst schauen wir einen Stück Source Code. Und wir schauen bestimmte lexikalische Sachen wie variablen Namen benutzen von C++ Schlüsselwörter. Dann schauen wir andere Layout Features, die Tabs, die Lehrzeilen. Wir extrahieren dies vom Source Code. Danach, wir preprozessieren der Source Code und wir kriegen die abstrakte Syntax und die Struktur. Also, das ist die Grammar von Code, die Grammatik. Und dafür benutzen wir für Sie abstrakte Syntrac-Parser. Das wurde gegeben von uns, ein Kollaborator, Gucci, die wir gestern vorgestellt haben. Also für diese Parser, es kann sogar unverständliche Code verarbeiten. Dann bekommen wir einen Syntaxbaum und wir extrahieren Syntax-Features wie die abstrakte Finntax, Noctypes, Noctypes für Häufigkeit. Eine sehr häufige, häufig vorkommende Subsetter mit hundert von Autoren und tausende von Programmen. Wir schauen hier diese ganzen Typen, das sind syntaktische Typen. Diese Merkmale sind die meisten, die der meisten Informationsinhalt haben. Die syntaktischen Features sind in der abstrakte Syntaxbaum nicht die Zeit-Häufigkeit. Das sind Lexical Features wie C++, Schlüsselwörter, Type Dev, andere Features, wie die Anzahl der Type Devs, die benutzt wurden. Und die Seite präsentiert, wir haben das Ganze in verschiedenen Szenarios benutzen können. Zuerst, um das zu benutzen können, brauchen wir einen Datensatz. Wir nehmen zum Beispiel Beiträge von Nutzern zu dem Google Code Jam. Google Code Jam ist ein jährlicher Werbewerb, um Programme zu schreiben. 2008 bis 2014. Und wir haben am Ende ein Dataset von mehr als hunderttausend Benutzer. Und nach wir da diese Source Code haben, wir preprozesseln das mit dieser Fuzzy-Party und dann extraieren wir diese Lexica und die Layout Features. Und dann wir klassifizieren das um einen Random Forest um Overfitting zu benutzen mit 300 Bäume. Und diese Bäume, dadurch machen wir die finale Klassifikation abhängig von unserem Test. Und ich möchte euch ein paar Statistiken über Google Code Jam Dataset geben. Wir haben gesehen, das sind 2014 Dataset, die wir benutzen haben, also unsere Hauptdataset. Das war der größte mit C++, dass die durchschnittliche das durchschnittliche Code als 17 Lösungen gegeben und diese Programmkontext, jeder implementiert dasselbe Problem und dasselbe Funktionalität gleichzeitig und in eine begrenzten Zeit. Und dann entwickeln wir einen Maschinen-Learning-Test und wir trainieren die immer auf den selben Test und dann nehmen wir dieses Modell und lassen es in der echten Welt mit einem anderen Test laufen. Denn die Frage ist nicht, ob das im Training funktioniert, sondern in der echten Welt. Und auf der rechten Seite sehen wir das C++, die meist benutztes Sprache war. Und jetzt würde ich gerne über ein paar Szenarien drüber gehen, wo wir das Ganze benutzen können. Das erste wäre zum Beispiel, ich werde Beispiele geben, wenn ich über die Szenarien rede. Das erste wäre eine normale Auto-Verststellung, zum Beispiel über Bitcoin und den Autor, davon Satoshi. Wir haben den Quellcode davon von den ersten Beiträgen von dem Git-Repro und wir haben den Code, aber wir wissen nicht, wer der wirkliche Programmierer ist. Wir können unsere Daten jetzt darauf trainieren, mit einem Initial Bitcoin Code und wir können danach, nachdem wir unsere Code getrainet haben, trainiert haben, wir können das Original Text. Wir haben dafür 350 Autoren und wir haben 2.000 Anonyme Programmierer und dann haben wir trainiert und getestet, wir haben eine 95% Genauigkeit. Das ist über 2.000 Dateien und wir haben ein Suspekt. Falls du hattest ein Suspekt in dieser Dataset in diese Menge, dann würden wir die Bitcoin Code benutzen, der Initial Code vom Test und wir könnten in der Lage sein, rauszufinden, wer der Bitcoin-Kompribute Satoshi ist. Nicht, dass wir das machen wollen, aber es ist nur ein Beispiel. In dem zweiten Fall werden wir darüber reden, wie man das Ganze obfusicated und wie zum Beispiel Leute, die ein Code offen sind, damit man nicht mehr feststellen kann, wer der Auto war. Man kann zum Beispiel das machen, wenn man ein Programm von ihr in alles klaut oder es versucht zu stecken oder wenn man Mail hat, was man versucht zu verstecken und bleiben, wenn man Code schreibt. Wir haben gesehen, dass Autoschip zu Beisungstechniken nicht wirklich ich gebe ein Beispiel von Codes und Verständlichkeiten, die wir machen. Das kann man kaufen. Es nennt sich Konex. Wir haben mit diesem Projekt nicht zu tun. Wir benutzen es, weil es war das billigste kommerzielle Lösung, die wir gefunden haben. Und ich benutze bereits wie der verkenntlich gemacht wird. Wir sehen hier, dass die Gehecht werden, die Variablennamen und alle Leerzeilen und Kommentare werden entfernt. Falls es Nummer gibt, die werden ersetzt mit einer Kombination von Xadecimal, Binär und Dezimalnummer. Und falls es Charakter gibt, die werden ersetzt mit Xadecimal Escapes. Und du kannst ersetzen, welche Settings du haben willst für deine Kombinationen. Das alles ist refactored. Aber die Funktionalität und die Struktur des Programms bleibt dasselbe. Und solange die Struktur dasselbe ist, unsere Tests sind nicht affektiert von dieser Verkenntlichkeit. Als Ergebnis, dass wir gesehen haben, wenn wir versuchten mit 25 Autoren Opfus-Gedit Code gegen Unopfus-Gedit Code. Wir haben eine Genauigkeit in beiden Fällen von 97% unserer Code und unsere Methoden ist nicht wird nicht gestarrt von solchen Verkenntlichkeiten während von Code. Aber es ist nur für diese Opfus-Gedit Code, dass endet nicht die Struktur und die Funktionalität des Codes. Noch ein Fall ist die Urheberrechtsuntersuchung. Wir haben zum Beispiel ein Copy-Life-Beispiel hier. Der Copy-Life-Programm ist in Kosnus, aber wir haben immer noch eine Lizenz. Man kann sie verteilen. Man muss aber sicherstellen, dass die Lizenz noch im Programm in Bern haltet ist. In diesem Beispiel würden wir gerne zeigen, dass wir einen Copy-Life-Code nehmen und daraus ein Copy-Right-Code machen. Es gab ein Fall in Nord-Kalifornien, wo Jackson ging Cancer. Jackson hat Java-Model-Regular-Interface-Code geschrieben und es publiziert hat. Die Copy-Right-License hatte das Problem, dass es die Rechte eingeschränkt hat vom ursprünglichen Auto. Und Jackson arbeit als Entwickler für Hobby-Modelle Eisenbahn-Menschen. Er nutze diesen Code, hat ihn publiziert und hat einen Patent darauf angemeldet. Das Ganze endet dann im Gericht und deswegen ... Auch wenn es ein Copy-Code mit Artistik-Lizenzen kann es noch nicht einfach verrenden und dann benutzen, wie du willst und jeder kann es einfach patentieren. Das hat irgendwie bewiesen zu werden, dass man es weiter kommerziell benutzen kann. Es wurde 2-Klasse-Machine-Learning-Problem. In der 1.Klasse haben wir der Copy-Left-Code von Jackson und in der 2.Klasse haben wir der Copy-Right-Code. Wir werden vergleichen, um zu sehen, ob der Code von der anderen wurde. In diesem Fall haben wir 20 Paare von Autoren. Das heißt, wir raten 40 Autoren jeweils mit 9 Daten und wir versuchen, eine Genauigkeit von 99 %. In dem 4.Fall werden wir schauen, die Autorverifikation. Hier ist die Frage, ist diese Person, der sagt, der diese Code geschrieben hat, ist der Autor, der richtige Programme oder hat jemand anderes geschrieben? Und hier ist es ein 2-Klasse-Problem, aber es ist nicht wirklich 2-Klasse, weil der 1.Klasse ist nur Mallory. Mallory sagt, sie hat diese Testcode geschrieben und wir trainieren und eine 2.Klasse ist eine Kombination von verschiedenen anderen Autoren und alle diese sind die selbe Lösung zu einem Problem. Jeder entspricht derselben Problemen von verschiedenen Autoren und wenn wir trainiert an diese 2.Klasse, hier haben wir der Code, dass Mallory sagt, dass sie geschrieben hat und haben wir Code von ein Haufen anderen Autoren und in diesen Testen haben wir 90% Genauigkeit in 80 verschiedene Experimente. Das heißt, 100 verschiedene Benutzer mit 1000 verschiedene Dateien. Wir wollten auch sehen, der Stilprogramm inkonsistent ist durch die Jahre, weil wenn ja, wenn wir unsere Datasets bauen, dann können wir einfach Data von anderen Jahren benutzen. Wir haben die Partys die Kontestanz in 2012 von 2014 und hier ist ein Beispiel, das ist derselbe Autor und das ist ein Ronderbeispiel von seinem Code. Hier dieselbe Person in 2012 und dieselbe Person in 2014, Layout Features, das sieht sehr ähnlich aus. Die Struktur ist sehr ähnlich, die vorkommt am selben Stelle. Wir sehen die lexischen Features, wie zum Beispiel die Variable Nama TT, aber in 2014 und als Ergebnis wir würden eben fähig 24 Autoren zu identifizieren von 2012, die in 2014 geschrieben haben mit einer Genauigkeit von 28%. Es mag vielleicht ein bisschen niedrig aussehen mit den früheren Ergebnissen von 99, 93, aber in diesem Fall, als wir diese 25 Autoren genommen haben in 2012 könnten wir eine Genauigkeit von 92% Genauigkeit, das ist nur 4-Punkt-Fall in Genauigkeit. Also was wir zeigen können, im Grunde ist, dass die Zeit... Wir wollten auch zeigen, wie die ganzen Code-Styles aussehen. Zum Beispiel, wenn man einfache Funktion implementiert und schwere Funktion implementiert. Wir nahmen 62 Autoren, 60 Fragen beantworten können und wir nahmen 7 einfache Probleme und 7 schwere Probleme und wir hatten viel bessere Ergebnisse, wenn die Programmiere schwere Aufgaben implementiert haben als zu den Leichten. Was das zeigt, ist, dass der Stil zwischen den Leichten doch etwas unterschiedlicher ist. Wir wollten auch schauen, dass eine gute Programma hat viel mehr eigenartige Coding-Style vergleichen mit Coders, die weniger begabt sind und die Unterschiede ist für 15% hier und das zeigt ein sehr, sehr breiter und sehr signifikanter Unterschied in Coding-Style. Für die Zukunft können wir die Quellkoderkennung von Autoren können wir es für verschiedene Gebiete benutzen. Als Beispiel, wir können das benutzen um Autoren von schadhaften Software festzustellen. Wir können auf eine Software angucken und schauen, wer schadhaften Kurs hat und dann darüber die Autoren finden. Wir können die Autoren finden, die schwachen Code schreiben, zum Beispiel wenn es eine Firma ein bestimmten Coding-Style interessiert, können Sie das ganze Programm trainieren und können das Programmiogit laufen lassen, um das entsprechende Style zu finden. Wir vergleichen unser Arbeit mit früherer Arbeit und wir sehen, die Genauigkeit ist viel größer, in Vergleich zum anderen Studium. Das ist unser Studium, das sind unsere Ergebnisse, 95%. Wir haben 250 größeren Autoren, größere Gruppe. Das zeigt, dass unsere Methoden ist der syntaktische Feature. Es ist viel effizienter und die frühere Methoden haben die syntaktischen Features nicht benutzt und die waren nicht so gut. Ich möchte mich bedanken Dr. Richard Haarang from US Army from US Army Research Laboratory Dr. Arvind Narayanan from Princeton University und Fabian Yamaguchi from the University of Göttingen. Ich habe über ein besonderes Domain, der Source Code Domain und jetzt wir sprechen über Cross Domain, Syllometrie. Danke. Also, wie ihr gerade eben gesehen habt von der Präsentation gesehen habt, wir sind wirklich gut darin. Wir sind vor allem sehr gut darin in vielen unterschiedlichen Eigenrichtungen. Wir haben uns ziemlich alles angeguckt, was man ins Internet tut, als Community-E-Mails, Chats, Bücher, um zu zeigen, wie gut wir da mit solchen Sachen sind. Das hier ist Ram Emmanuel und das ist ein Twitter-Feed. Ram Emmanuel ist eine amerikanische Politiker, der in Chicago ist und der ist gerade in Kampagnen und er hat seine Twitter-Feed gemacht, um dazu in die Kampagne zu sein. Das ist nicht sein Twitter-Feed, das ist sein Imitat. Dieser Twitter-Feed war geschrieben von ein Mann, der sich dann sinken nennt und es ist ein gutes Beispiel, warum wir brauchen dieses Syllometrie benutzen in der echten Welt, wenn wir Twitter-Feeds haben, wir testen und wir sind richtig erfolgreich daran. Das Problem, was kommt, wenn Dan Zinker den Twitter-Feed zu kompär, dann hätten wir ein Problem. Er ist ein Schrifteller, also er hat ein Twitter-Feed. Wir können sonst machen, wir könnten ein paar Suspekten und wir könnten die Leute der Kampagnen nehmen und wir hätten zum Data, vielleicht keine Twitter-Feeds, vielleicht aber Blogs, Artikel, wir hoffen sehr, dass wir in der Lage wäre, die Autoren zu identifizieren. Mein Hauptproblem mit dem ganzen ist dem Syllometrie. Es ist ein Problem, dass die Autoren in einem anderen Bereich zu finden. Die Eigenschaften, die wir dafür benutzen für die Analyse, sind ein Sack von Wörtern. Das ist nicht wirklich populär, nur ein Syllometrie, sondern auch in naturalen Sprachenverarbeitungen. Wie oft man zum Beispiel einen Wort verwendet. Eine weitere recht beliebte Eigenschaft sind Wustaben, Ngrams und Wörter Ngrams. Was man auch benutzt, sind Funktionswörter und Halterwörter. Also sowas wie ich, bis dann Es ist auch beliebt mehrere Eigenschaften zu einem Eigenschaftenzetz zusammensetzen, was in sehr vielen Bereichen funktioniert. Das sind ganze Insta-Write-Prints. Man unterteilt in Lexiske, Syllometrie und Inhalt. Auch die Aussprache. Wir können andere Features hinzufügen. Wenn wir bestimmte Bereichen Applikationen sehen, wir schauen bestimmte Bereiche, wo Leute was schreiben. Wir schauen auch, wenn du in verschiedenen Bereichen viele Sachen hast. Hier haben wir Beispiele dafür. Was wir am meisten studiert haben, sind die Funktionswerte. Also diese Stop-Werte, diese Füllwerte. Die Genauigkeit ist ziemlich gut mit diesen 8 Autoren. Die 1. Beispiel davon mit 81% Genauigkeit. 8 Leute haben verschiedene Genren geschrieben. Das ist ein Bereich, in dem wir gesprochen haben. Das ist mehr ein Genre. Das ist nicht wirklich ein Domain. Das ist mehr ein Thema. Bücher wurden analysiert in der 2. Gruppierung. Die werden getrennt durch Genre und Thema. Funktionsfüllwerte wurden auch benutzt. Ich habe gesagt, dass wir wirklich gut darin sind. Das sind wir auch. Wir erreichen 98% und 99% mit Tüttefiets. Wenn wir Blocks verwenden, kommen wir auf 93%. Das funktioniert wirklich gut. Die niedrigen Genauigkeiten sind für Chat-Maguses und Foren. Der Grund ist, die Nachrichten sind für kürzer. Das ist ein Tweet und ein Blog auf der rechten Seite. Das sind beide von unserem Datenset und geschrieben von derselben Person. Der Tweet hat 3 wirkliche Wörter drin, die richtig geschrieben sind oder nicht mit irgendwas ersetzt wurden. Der Blog auf der rechten Seite ist recht gut aufgebaut. Es hat genauer Punktsetzung. Es ist richtig gesch... Die Herausforderung hier ist, den Autor herauszufinden, wenn man z.B. einen Tweet gegeben hat und einen Blog zu wissen, welcher Autor es ist und ob die beeilen stimmen. Wir haben 500 Blog und Tweet benutzt und wir hatten Twitter-User, die auch Blocks hatten. Wir haben die einfach rausgesucht, wir haben mit tweet.com und wir haben einfach die ganzen Daten gesammelt. Für Reddit-Komments und Tweets gibt ein Subreddit, wo Leute ihre Twitter-Endels posten, sodass sie mehr verfolge haben und das war sehr, sehr einfach aus Reddit die ganze Twitter zu bekommen. Wir wurden ungefähr 38 benutzt. Wir haben nur für 38 benutzt, und es war einfach ein Beweis, dass unsere Methode funktioniert. Mögliche Lösungen für das Ganze sind, wenn sich Riot-Pins anschaut, wie ich gerade eben vorgestellt habe, man macht so viele Führerschläge und hofft, dass es funktioniert. Die zweite Möglichkeit, das zu lösen, ist, man wählt sehr, sehr vorsichtig aus, welche Eigenschaften man benutzt, z.B. Füllwörter und wie andere das schon gemacht haben. Oder wir können das Ganze und unsere eigene Methode-Doppelgänger finden. Das hier sind die Ergebnisse für Blogs, Tweets, Reddit-Komments und wir haben da zwei Datenzusatze, die wir uns durchgesamt haben. Wir tun, wie ihr seht, sind wir wirklich gut darin. Die Linken sind aber im Allgemeinen sind wir richtig gut darin. Die Gründerlinien sind die Ergebnisse durch verschiedene Bereiche. Es gibt einfach einen großen Verfall der Genauigkeit, wenn wir wir trainieren in Blogs und wir testen auf Twitter fix, oder wir trainieren auf Reddit-Komments und testen auf Twitter fix, also wir haben richtig schlechte Ergebnisse da, wenn wir das erste zwei Methoden und Funktionswörter benutzen, selektieren, zu trainieren vom Methode. Es ist ein Gorytmos, das war präsentiert, es war erzeugt um Benutzerkonten zu finden, die doppelt angelegt sind. Was wir versuchen hier, ist, wir müssen durch den Web, wir wollen durch den Web bestimmte Konten miteinander verbinden. Dieser Methode funktioniert, wir kalkulieren die Wahrscheinlichkeit, dass jeder Autor ein anderer Autor Dokumenten geschrieben hat. Für jede Part von Autor, es kombiniert die Probabilität und jede Probabilität über ein bestimmtes Niveau und man sagt, dass es dieselbe Person ist. Und wenn nicht, es ist angenommen, es ist die andere Person. Zum Beispiel waren Autoren, Autor A und wir haben die Wahrscheinlichkeit, dass Autor A und Autor E und die Wahrscheinlichkeit, dass Autor A und Autor F Dokumenten geschrieben hat und jede Probabilität, jede Wahrscheinlichkeit. Wir schauen eine gewisse Grenze und diese Wahrscheinlichkeit drunter oder drüber. Das können Sie alles nachlesen in GitHub und es ist auch am Ende der Präsentation, falls Ihr das verpasst habt. Wir waren, es war uns möglich, das Ganze anzupassen, um das Ganze in unterschiedlichen Bereichen zum Funktionieren zu nehmen. Hier hatten wir das Problem, dass wir ABCD vergleichen mussten. Hier mussten wir aber nur AEF und G und H vergleichen, weil die in unterschiedlichen Bereichen sind. Also es gibt einen Vorteil im Algorithmus und wir müssen nicht diesen Grenzwert benutzen, um die Wahrscheinlichkeit zu ausrechnen. In einem offenen Weltbeispiel hat man das Problem, wenn ich mir nicht sicher bin, dass A gleich B ist und dann ist das Problem normal. Hier haben wir die übergreifende Erlebnisse für Blog- und Twitter-Data-Sets. Die Gründerlinie unten, wo die grüne Linie sind auf die Seite, das ist sehr, sehr schlechte Ergebnis, Domäne übergreifen und die blaue Linie ist die Indomain-Ergebnis und die rote Linie ist diese Doppelgängerfinder. Also wir wurden ziemlich für ich die Genauigkeit hinzubekommen, indem wir die Doppelgängerfinder haben. Und dann die Begrenzung der Doppelgänger-Suche. Als erstes braucht man recht viel Text auch in den Dokumenten, wo man seine Maschinen trainiert. Also man braucht zum Beispiel 500 Wörter auf jeden Fall. Und weiter es ist für einen bestimmten Fall gedacht nicht immer Accounts zu verbinden. Die natürliche Frage, die dabei aufkommt, ist, was ist, wenn ich versuche den Autor von einem Twitter-Feed zu einem Blog zu linken und ich habe sehr viel Blog-Post, aber und hab sehr, sehr wenig Twitter-Feed soll ich dann den Twitter-Feed-Daten benutzen. Und die Antwort darauf ist, wenn ich die Twitter-Daten hab, soll ich sie benutzen. Wir haben den ersten Punkt auf dem Bildschirm sehen. Der erste Punkt sind die Twitter-Daten und der erste Punkt sind Blog-Post und wir kriegen einen hohen Sprung in Genauigkeit wenn wir ein paar Twitter-Daten haben zu gar keinen Twitter-Daten. Deswegen solltet ihr Twitter-Daten benutzen. Auf eine Probleme die es noch gibt sich andere Lösungen für das Problem anzugucken, wie zum Beispiel Weitsch. Wir schauen auch das Problem von Thema gegen Stil. Wenn du ein Blog bist und wenn du ein Redditor bist und wenn du ein Twitter bist, das sind einfach andere Stilen. Was ist, wenn du ein Redditor kannst und du schreibst, wenn du eine Sode redest und verschiedene Themen, was wir auch haben, sind andere Applikationsbereiche und die Frage ist, können wir ändern, wie ein Testdokument sich fühlt, damit es sich mehr wie ein Training-Doment fühlt. Wir haben Twitter zum Beispiel können wir das so machen, dass es ein bisschen mehr wie plaintext aussieht ändern wir das zu sehr oder das ist wirklich eine offene Frage nicht schlecht zu antworten. Das Schwierige ist, dass es wirklich schwer diesen Methoden zu entkommen. Es ist nicht darüber, was man schreibt, sondern eher, wie man es schreibt. Also wenn man so Sachen machen, man sollte also gucken, wie das Ganze aussieht, was man schreibt und selbst für ein Torbenuss können wir dich darüber identifizieren durch dein Schreibstil. Es ist also nicht nur ein Problem, sondern auch echt eine Bedrohung für die Privatsphäre. Wir sind wirklich, wirklich gut darin, das Ganze auch in Zwischenbereichen zu identifizieren und nicht nur in einem Bereich. Also nachdem das Ganze weg ist, was können wir machen, um dagegen vorzugehen. Im Moment entwickeln wir ein Programm Anomouse, was hilft bei einem Text schreiben, hilft sich selbst zu anonymisieren. Im Hintergrund ist das Ganze um sich zu stellen, dass du nicht derselbe Auto bist. Es ist noch in Bearbeitung und es könnte noch, er braucht noch viel Arbeit, noch viel Feedback. Und wenn jemand Lust daran hat, mit rumzuspielen, geht er ab, Link ist unten. Ihr könnt uns gerne anschreiben und wir würden uns freuen. Und vielen Dank fürs Zuhören für uns drei. Und vielen Dank zu Travis Deco und David Frothos für ihre Fragen. Vielen Dank für den Vortrag. Ich habe eine Frage über den Bereich und habt ihr versucht, eure Eigenschaften mit Methodaten anzuhäufen, z.B. mit Links zu benutzen oder so was? Also, kann ich sprechen, ja? Wir haben ein bisschen, wir haben geschaut, Twitter, insbesondere, weil es gibt einfach so viel metadata in Twitter und wir haben gefunden, wir können die Twitterergebnisse ein bisschen verbessern, aber im Fall von Domene begreifen, es hilft nicht wirklich, aber unsere Twitterergebnisse sind ziemlich beeindruckend mit über 90%, über 95%. Habt ihr irgendetwas, warum das so ist? Meine Erwartung wäre, sehr guter Fingerabdruck wäre für jemand, wann eine Person schreibt oder wie viele Links dann so in dem Text sind. Wir haben keine Data oder das nicht gesammelt für Blogs. Wir haben keine Analyse damit gemacht. Wir haben geschaut, Hashtags, Tags, Links. Die Hashtags, die Tags sagen nicht wirklich über Blogs. Für Links, ich glaube nicht, es gibt genug Ähnlichkeiten um da wirklich die Genauigkeit zu verbessern. Vielen Dank. Nummer 4, bitte. Ist Anonymath limitiert auf Englisch oder ist es unabhängig von der natürlichen Sprite verwendet? Also, ich denke, das aktuelle Implementation Implementierung ist auf Englisch limitiert. Aber es wäre nicht sehr viel Arbeit, um das zu verbreiten auf Deutsch zum Beispiel. Wir haben eine Struktur, wir haben es ist nur eine Frage von inzufügenden Tricks zu der Interface. Für mehrere Sprachen, was du machen musst, ist erhöhen die Analyse die Analyses-Engine damit Funktionswerte für diese Sprachen zugefügt werden. Das ist vielleicht ein bisschen mehr schwierig bei asiatischen Sprachen, die haben die Brausegmentation-Engine für das. Aber davon abgesehen, es sollte nicht so schwierig sein. Wie ich gesagt habe, du kennst bereits die Analyse benutzen für manche Sprachen. Aber momentan der Fronten bietet das nicht an. Es gibt eine Abfraktion in dem Code jetzt. Es gibt eine Schnittstelle. Vielen Dank für den Vortrag. Es ist ein cooles Thema. In dem ersten Helfen des Vortrags war dir darüber reden. Wir haben sourcecode anstattet und so weiter. Und ich versuch grad zu verstehen, dass ein einziger Ergebnissen das Eigenschaften nichts mit dem Code haben. Zum Beispiel mit Einrückungen oder sowas. Sondern eher mit Quellcode oder und warum seid ihr limitiert zu Quellcode, kann man auch. Ja, das ist richtig. Das war das erste Mal. Wir haben versucht, die syntaktische Picture Set, weil es wurde noch nicht vorher probiert und wir erst wollten wissen, dass es nicht richtig ist. Aber jetzt mit C++ haben wir gesehen, dass es funktioniert richtig gut und so lange wir ein Pause haben um die Struktur des Programms zu extraieren, es wird wirklich helfen. Wir wollen unsere Methoden auf verschiedenen Programmiersprachen erweitern. Und wir wollen auch binär vergleichen. Das ist der Nächste und wir können direkt die Genauigkeit zwischen binär und Kompiliert. Ich denke, ihr wisst das, aber es ist ein wirkliches Problem, dass man zum Beispiel Schadcode einführen kann. Vielen Dank. Okay, ihr habt gesagt, ihr habt Code von Codejam benutzt, um das Ganze zu analysieren, ob das Ganze funktioniert mit Quellcode, habt ihr den Makros rausgestrichen, weil so weit mir bekannt ist, wir benutzen viele diese Teile im Makros um das Ganze leichter zu machen und es sind meistens 20 Zeilen von Makros. Wenn ihr das nicht gemacht habt, könntet ihr den Code vergleichen. Wir haben die Makros gesehen und wir hatten ein Layout nur für Makros und auch und Parsa geht eine Funktion nach dem anderen. Also meistens die Makros wurden einfach rausgenommen von der Informationsstruktur. Also wir haben das getrennt gehalten. Wir haben versucht rauszufinden, gibt es Similarität und wir haben nicht so viele gesehen. Aber falls wir weitergesucht hätten für diese spezifischen Sachen, hätten wir vielleicht mehr Ähnlichkeiten. Das ist ein gutes Kommentar, ich werde das nochmal rausschauen. Okay, und meine zweite Frage ist, habt ihr herausgefunden, dass bei schweren Problemen die Genauigkeit von kontrollieren könnte daran liegen, dass es ein Artifakt ist, dass es weniger Lösungen für schwierige Probleme gab und deswegen gab es weniger Autoren für das Ganze. Oder es gab mehr Autoren die Lösungen für einfache Probleme geschrieben haben und es gab weniger die Lösungen für schwere Programme geschrieben haben. Der Datasetgröße war immer derselbe, so dass wir vergleichen könnten. Ihr habt das Ganze also in schweren und leichten Probleme unterteilt mit derselben Größe? Ja, das waren totale Zufallselektionen, damit wir sicher sind, dass es wirklich repräsentierte echte Szenarien dient. Vielen Dank für die Vortrag, das war wirklich interessant. Danke. Nummer 2, please. Es gibt eine Habt ihr versucht, zu übersetzen durch ein Google Translator oder so, um zu sehen, ob es nicht los in Translation geht? Ja, vor ein paar Jahren hatte ich ein Projekt, können wir ein faires geschriebene Übersetzen in Deutsch, Übersetzen in Japanisch und ein normales Zurückübersetzen und wir werden das gemacht, machen mit verschiedenen Übersätzen wie Google Bing und ein paar andere. Und wir haben gesehen, in den meisten Fällen abhängig von der Qualität der Translator und diese besondere Sprache, wir würden tatsächlich fähig diese Leute zu identifizieren mit einer Auge Neuigkeit, aber die Qualität der Übersetzungsprogramm und eine bestimmte Sprache hat einen großen, großen Einfluss hier, die wir beobachten konnten. Ich meine, durch die man übersetzt, hat man am Ende doch das Problem, dass es fast unerkenntlich ist, wenn man jetzt den Versuchstohnsystem zu vermeiden, das Ganze 20-mal zu übersetzen und das Ganze am Ende nochmal das Ganze zu korrigieren mit Rechtschreibung und grammatik Anpassung. Wie oft habt ihr das denn getestet? Also wie oft habt ihr das gemacht, bis es in der originalen Sprache war? Also, wir haben etwa drei Runden gemacht, deutsche, japanisch, aber es gibt Leute, die gezeigt haben, die bis zu 20 Übersetzungen gemacht haben, aber je mehr Übersetzungen, je mehr unmöglich es war, die Leute zu identifizieren, aber andererseits diese manntische Kontext war total verloren. Es gab keine Bedeutung mehr in dem Text. Was wir gesehen haben, ist mit dem Anonymausprogramm, wenn wir es Satz für Satz übersetzen zu verschiedenen Sprachen und zurückübersetzen, aber wir die Übersetzungen die Leute können diese anschauen und sehen, welche die hatten mehr Anonymität. Die Leute können aussuchen, welche Übersetzung am meisten Anonymität hatte, aber trotzdem die Bedeutung weitergegeben hat. Ich wundere mich, ob es das Ganze nur in eine Richtung geht. Damit meine ich, wie weit was ich damit meine, wie nah seid ihr daran, ein Originalbrief von Angela Merkel zu schreiben oder ein Stück von Shakespeare. Also produzieren von Text ist viel viel schwieriger wie analysieren von Text. Das ist ein P&P Problem. Was wir machen können, ist wahrscheinlich, jemand helfen, einen Brief zu schreiben, dass dieses Style imitiert eine Kollaboration mit jemandem, der das macht, das könnte funktionieren, aber das zu automatisieren wäre viel schwieriger. Also kann es benutzt werden um jemandem darzustellen, ja. Zwei Fragen. Meine erste wäre, würde es etwas geben wie Animau für Code? Ja, das ist verfügbar an geht, aber ich habe noch nicht diese Lizenzierung gemacht, aber falls du damit spielen willst, dann kannst du damit spielen, ich werde diese Dokumentation, diese Lizenzierungsthema angehen, sobald wie möglich. Sie sagt diese Analyse Code, für Source Code. Du kannst Anonymas benutzen, das funktioniert wahrscheinlich, bis zu einem gewissen Grad. Du kannst einen Feature-Request machen. Meine zweite Frage wäre, wenn ihr das Ganze versucht habt zu vergleichen, also verschiedene Quellcodes, habt ihr auch versucht, das Ganze zwischen verschiedenen Sprachen zu vergleichen, oder habt ihr das Ganze nur in Wir haben nur mit C++ gearbeitet in diesem Fall, weil unsere Parse war nur für C++. Sicher, aber glaubt ihr, dass es möglich ist, das Ganze auch über verschiedene Sprachen zu machen? Also, wo die Programmiersprache unterschiedlich sind? Naja, jede Programmiersprache hat eine Struktur, hat eine Syntax. Es kann eventuell zu anderen Sprachen übertragen werden. Aber das müsste schwierig sein. Wir müssen das testen. Ich wollte die Frage stellen, die der mein Vorgang gestellt hat. Deswegen wollte ich nur sagen, vielen Dank für den tollen Vortrag. Ich habe ein paar Fragen vom EEC. Die erste war von Keyser vs Jacobson war von Jacobson wo er den Vergleich zwischen dem offenen Kotat und dem zänzierten Kotat und die wollten wissen, wie ihr den source Kotat von dem copyrighten Kot bekommen habt. Nein, aber es ist nicht verglichen, es ist copyrighten Kotat, also wir haben nicht versucht zu bekommen, es ist nicht öffentlich. Es war nur ein Beispiel. Nummer 4 Vielen Dank für den tollen Vortrag und dass ihr die Anonymeslösung am Basteln seid. Es wäre ein bisschen angsteinflössend, wenn man es nur zum Endeffizien von bösen Leuten benutzen wird. Das Programm kann man Leute identifizieren, die Anonymeslösung benutzt haben und wie viele Leute die Anonymeslösung benutzen. Ich weiss nicht, wie viele Leute Anonymeslösung benutzen. Wahrscheinlich nicht so viele Leute, weil wenn du versucht zu benutzen, ist es ziemlich schwierig zu benutzen. Aber ich glaube auch nicht, wenn Anonymeslösung benutzen selbst würde eine Signatur hinterlassen. Ich denke schon, es ist meine Vermutung, unser Experiment war, die sollen ein Stil imitieren und ihr eigenes Stil verstecken mit Anonymeslösung. Aber wir haben keinen Klassifizierer gefunden, die Leute erkennen, die das gemacht haben, von den Leuten, die das nicht gemacht haben. Für mich scheint es nur so zu sein, wenn es um mehr ging, die Menge der Sicherheit jemand hat, um das zu machen und das zu machen. Und deswegen würde es mich interessieren. Ich gebe zu. Es wäre schön. Hi. Viele Firmen benutzen Styleguides und Codeguides. Die z.B. Vorschreiben wir in seine Leerzeichen. Habt ihr auch darüber nachgedacht? Leute müssen die Funktionärzeit in eine limitierte Zeit implementieren. Sie haben Dinge benutzt, dass sie natürlich benutzen würden und sie haben ihre eigenen Stil ausgedrückt, weil die hat eine Zeitbegrenzung. Aber wenn Sie denken, Sie müssen einen bestimmten Format folgen, das macht alles mehr ähnlich. Das wäre sogar schwieriger, wenn Sie ein Styleguide folgen. Es wäre sogar schwieriger für die Erkennung. Aber es gibt keine Möglichkeit für uns, das zu sagen, ob Sie ein bestimmtes Styleguide gefolgt haben. Und nicht, wir hatten das Fach. Was wir sagen können, wenn Sie ein bestimmtes Styleguide gefolgt haben. In der Obstuscation, wenn das Styleguide sagt, so Leerzeichen, so muss er beachtet werden. Es würde nicht sehr relevant sein. Aber es hängt an bestimmten Styleguide. Wir haben keine Daten, die das unterstützen. In den meisten Formen würde man meistens sagen, dass das nicht stimmt. Deswegen würde mich gerne interessieren, ob so was möglich wäre. Hallo? Wir werden noch 3 Fragen und Schluss machen. Wenn wir durchsehen, wir gehen zum Cafeteria. Wir werden uns hinsetzen an einem Tisch. Da könnt ihr kommen und uns Fragen stellen. Die nächste Frage ist, wie steht es mit mehreren Autoren, wenn es ein offenes Software-Projekt gibt? Wie gut kann man Autoren identifizieren? Wir haben noch nichts mit Source Code, die das betrachtet. Wir schauen uns gerade verschiedene ähnliche Probleme. Wir haben präliminäre Ergebnisse. Wir folgen unsere Arbeit weiter. Wir werden demnächst was veröffentlichten. Präliminäre Arbeit war interessant. Nr. 2 Meine Frage ist recht ähnlich. Ist es möglich um um ist es möglich festzustellen, ob ein Text bei einer Person geschrieben ist oder bei mehreren Personen? Dieses Problem, ist etwas, wo wir aktiv daran arbeiten, aber wir sind noch nicht so weit. Funktioniert das Ganze mit unterschiedlichen Sprachen. Wenn ich jetzt zum Beispiel auf eine Mening ist in Deutsch schreibe und in einem Forum in Englisch. Ist es euch möglich, das Ganze zu identifizieren? Ist es möglich, den Stil über unterschiedliche Spanien zu machen? Du kannst ein Feature Set benutzen, der nicht von der Sprache abhängig ist. Du kannst ein Code übersetzen. Es gibt ein Englischer Features Set. Es gibt ein Englischer Features Set. Wir können schauen, was besser funktioniert. Wir können schauen, was besser funktioniert. Ich denke, übersetzen ist wahrscheinlich das Beste, die beide Sachen zu übersetzen und beide Analysen in jeder individualen Sprache machen und dann zurückverfolgen. Weil die Übersetzungen, es ist schwierig, aber die Füllworte sind anders für jede Sprache. Das muss man schon übersetzen, bevor man vergleicht. Danke, das war's dann. Vielen Dank, dass ihr da wart. Ich hoffe, dass ihr nächstes Jahr auch wiederkommt. Das war's Source Code und domainübergreifende Authorship.