 Wir willkommen Jonas Ulbeck, dieser Vortrag Attributionsrevolution. Bitte gibt mir einen Applaus. Vielen Dank. Danke, dass Sie so früh gekommen sind zu diesem Vortrag. Ich erzähle über die Attributionsrevolution, weil ich glaube, wir haben die Möglichkeit, Copyright auf den Kopf zu stellen, das überhebe Recht. Eine kurze Anzahl Hände, wie viele haben mich schon sprechen hören. Nicht so viele. Wunderbar. Dann werden Sie hier von überrascht sein. Ich werde Ihnen ein Bild zeigen. Ich möchte kurz die Hände sehen, wie viele von Ihnen das erkennen, wo das Bild herkommt. Wenn Sie die Art drücken oder die Serie von der es ist. Hände hoch. Woher kommt das? Ziemlich gut. Ich hatte einen Vortrag in London, bei der Document Foundation, zu einer, die normalerweise da beschäftigt sind, Textverarbeitung zu schreiben. Und der wird es bei Ihnen nicht ganz so angekommen. Die viele von euch erkennen dies. Es ist XKCD, gezeichnet von Randall Monroe. Er hat einen ganz eindeutigen Stil und es ist sehr leicht zu erkennen, wenn man das sieht. Er hat auch einen ziemlich bestimmten Eigenseinatung, ein eigensinnigen Sinn für Moral, den man gut erkennen kann. Und ich möchte Ihnen jetzt bei folgenden Bild noch mal die Frage stellen. Hände hoch, wenn Sie das erkennen. Okay, 1. Eine Person. Okay. 2. Okay. 2 Personen erkennen dies. Die 1 von euch wird überrascht sein, dass dieses Bild ist in der Fakt, also von Randall Monroe. Es ist auch Teil des XKCD-Universums, Nummer 7 in dieser Serie. Warum sage ich das? Ist weil, das ist ein Teil von XKCD. Es verändert, wie wir damit beziehungstehen. wie wir dafür überführen. Bevor wir wissen, dass es von Random On-Row war, war dies nur eine anonyme Zeichnung, die aus meinem Zeichenbuch sein könnte oder aus meinem Internet-Context. Aber so wie wir lernen, bis es von Random On-Row ist, wissen wir, dass es zum XKCD-Universum gehört. Und jetzt haben wir Kontext, der dieses Bild einem Wert gibt für uns, es gibt Bedeutung vor uns. Und ich kann garantieren, wenn wir das verkaufen würden, wenn Random das Original verkaufen würde, würde er viel mehr Geld dafür bekommen, wenn dieses Wissen zum potenziellen Käufer übermittelt werden würde. So wenn wir wissen, wo Dinge herkommen, wenn man weiß, wer der Autor ist, wann es erstellt würde, wo es erstellt wurde, all diese Dinge sind relevant. Und wir sehen sie überall um uns herum. Wir sehen sie in der Wikipedia, wo Zitater benötigt werden in der Wissenschaft. Alles was wir, seit wir uns die wissenschaftliche Revolution hatten, dort ist die Angabe von Zitaten, die norm und bekannt für ein Paper geschrieben werden und in der Politik. Man kann behaupten, es ist sehr häufig, dass eine bekannte Quelle Dinge angehängt werden, damit man prüfen kann. Aber als Politiker macht man die Attribution zu irgendetwas ehemaliger Art. Und in Kultur und Kunst tun wir dies auch. Beim Essen, ja, da ist es vielleicht etwas weit hergeholt. Aber wenn man, wenn man ein Fertigessen nimmt und an die Liste von Zutaten guckt, dann sieht man, was enthalten ist, was reingegangen ist, um dieses Produkt zu erstellen. Und das ist die Herkunft. Dies ist die Geschichte von etwas, dies ist die Geschichte, wo etwas herkommt, wo es hergestellt werde, wer es hergestellt würde, wann es hergestellt würde, für welchen Zweck es hergestellt wurde und was passiert ist mit ihm, seitdem wir es bis heute gesehen haben. Wenn man in eine Galerie geht und ein Bild sich anschaut an der Wand, dann sieht man, dann wird man auch an die Information zum Bild interessiert sein, nicht nur das Bild selbst. Man schaut sich an, wer es gemalt hat, wann es gemalt wurde und vielleicht auch warum es gemalt wurde. Der Titel kann einem Hinweise geben darauf, es gibt der Bild eine Bedeutung. Herkunft ist auch verbunden mit dem Aspekt der Reputation. Wenn man heute sich umguckt, LinkedIn, Facebook, Facebook, es geht immer darum, die eigene Reputation zu bauen und zu erweitern. Es geht darum, dass jede Antannahme, die man hat, seinen Stehen in der Gesellschaft, die mit der Reputation vereinfacht wird, dadurch, dass Leute wissen, was man gemacht hat. Und der Wert liegt darin, dass man sehen kann, was man zur Gesellschaft beigetragen hat. Ich werde eine weitere Frage stellen. Kurz die Erne noch einmal ansagen, wenn ich sage Wuffy. Wie viele wissen, was ein Wuffy ist? Die müssen zur Bibliothek gehen, je nach. Ein Wuffy ist eine reputationsbasierte Währung, die zuerst in Donald and Magic Kingdom von Cory Doctorow erfunden wurde. In dieser Story hat Cory Doctorow die Idee über eine Zukunft, in der die Währung, die wir heute haben, ersetzt wird durch Reputation. Was man tut und was man erstellt, geht auf die Wuffy-Quote ein und das kann dann getauscht werden für Dienstleistung. Denn als Cory Doctorow dies schrieb, sah das alles nach Science Fiction aus und es ist auch so geschrieben, weil es Cory Doctorow ist. Aber ich würde behaupten, dass es nicht Science Fiction ist. Wir haben eine Reputationswährung bereits, vielleicht nicht exakt auf der großen Skala, wie es Cory Doctorow zeichnet, aber wir haben es nichtsdestotrotz. Heute Morgen wurde ich daran erinnert an ein Beispiel von ... Wie viele wir kennen Advogato? Nicht so viele? Das werde ich auch noch vorstellen. Okay, das ist Advogato. Es ist eine der ersten, ganz frühen Versuche zur Erstellung eines sozialen Netzwerks. Es ist ein Pionier für Bloggen im Internet, das Teilen von Erfahrung mit anderen Leuten und es entwickelte ein Vertrauenssystem. Das Vertrauensnetz diente dazu um es möglich zu machen, andere Leute zu zertifizieren. In diesem Fall die Free Software-Gemeinde. Na Advogato wurde 1999 gegründet, also vor einiger Zeit. Und es ist sehr oft zitiert worden, weil es wirklich eine der ersten Fälle ist, wo etwas wie in dieser Art versucht worden ist. Wie man sehen kann, wie man kann sehen meinen letzten Lock-in bei Advogato und sehen, wie alt ich bin, aber auch, wie lange ich daran schon gearbeitet habe. Wenn ich andere Leute, die auf Advogato sind, ansehe, das habe ich heute Morgen gemacht, weil ich logierig bin, dann sieht man zum Beispiel Bruce Parents, der seit 2000 dabei ist. Richard Storman, der 2000 reingekommen ist und Bradley Coon, der 2001 reingekommen ist und ich, der 1999 dabei ist. Und das ist natürlich Teil der Geschichte. Ich war da vor allen anderen. Bin ich stolz darauf? Ich bin menschlich. Natürlich bin ich stolz darauf. Bevor all die anderen großen Leute hier auf diese Plattform kam, bedeutet das etwas Nein. Aber es ist Teil des Reputationsmechanismus. Und ich werde ein weiteres Produkt vorstellen, welches mir vor kurzem über den Weg lief. So, it will again see how many of you know about this project. Und wir werden wieder mal sehen, wie viele das Auto kennen, P2P Value. Okay, one person. Chris is not here. Is he here? Okay. Ein paar Leute. Chris ist anscheinend hier. Das ist ein Projekt, das von der Europäischen Union unterstützt wird. Es gibt hier eine sehr große Forschungsbereich darin. Und was ich daran interessant finde in diesem Projekt, ist, was das Ziel ist, hier zu liefern. Das finde ich sehr spannend. Ich habe zwei Sachen hervorgehoben. Das erste ist, dass sie eine federale Plattform, die von wollen, in der man kollaborativ zusammenarbeiten kann für Allmendeproduktion untergleichen. Und sie wollen Wertschätzungsmetriken und Belohnungsmechanismen einbauen. Und aus meiner Sicht ist das eine reputationsbasierte Ökonomie. Das sind die ersten Schritte von dem, was wir haben, auf LinkedIn, Twitter und überall sonst, wo wir über Reputation reden und versuchen es in einen größeren Kontext einzuordnen. Eine Plattform zu bauen, die dies erleichtern kann, nicht nur die Reputation, weil ich etwas veröffentliche, aber Reputation im Sinne, dass ich etwas erstelle, dass ich etwas kreiere. Als ich begann, über der Namensnennung, der nachzudenken, habe ich beginnen mit Leuten zu reden, wie Fotografen, weil viele von ihnen sehr großes Interesse daran haben, genannt zu werden, Attribution zu erhalten. Und man sieht in der Zeitung, dass alle Fotos praktisch immer zu Getty Images, AFP oder ähnlichen Agenturen assoziiert sind. Und man sieht gar nicht den Fotografen. Das, was ich realisiert habe, als ich mit Leuten geredet habe, ist, dass viele Leute mir zustimmen, dass Attribution wichtig ist. Und ich habe mit Fotografenfreunden geredet und sie sagen mir, ich weiß die Richtung, in die ich sich die Welt entwickelt. Ich sehe, wie Leute meine Fotos nehmen, sie teilen, sie auf Twitter hauen, auf Facebook tun. Und das ist okay für mich, weil ich weiß, dass ich die Welt nicht verändern kann und nicht nicht ändern kann, wie sich Menschen verhalten. Aber wenn wir sich erstellen können, dass wenn immer meine Fotograus veröffentlichen werden, ich zumindest die Namensnennung gehalte, das würde viele bedenken, die wir haben lösen. Leider sind wir relativ schlecht, wenn es darum geht, die Attribution zu liefern. Creative Commons Licensing als ein Beispiel stipulieren, dass wenn man ein Werk wiederverwendet, muss man die Attribution liefern in einer Form, die angebracht ist zum Werk. Aber wir sehen einen großen Teil der Allmende, der nicht Attribution enthält. Vor ein paar Jahren habe ich gonnen auf einem Projekt, das nennt sich Commons Machinery. Das ist eine Organisation, deren Ziel es ist, Produzionsinformationen über erstellte Werke sichtbar und handelbar zu machen. Das bedeutet, wir sollten die Metadaten sehen können, die mit den Werken, die wir teilen, verbunden sind. Leider ist das nicht immer wahr. Und es gibt viele Probleme auf dem Weg. In den frühen 2000ern, als zumindest die schwedische Regierung, und ich glaube viele andere auch Regierungen, haben begann, die Veröffentlichungen zu veröffentlichen als Word-Dokumente. Wenn sie versuchten, einen Namen zu verstecken, haben sie einfach den Marker in Microsoft Word genommen. Aber viele Leute haben herausgefunden, dass wenn man das Word-Dokument wieder öffnet, und du Ctrl-Z drückt, kann man diese Änderung wieder rückgängig machen. Auf dem PDF sieht es vielleicht okay aus. Aber wenn der Block schwarz nur da drüber liegt, und der da drüber liegt, wenn man die separiert, dann ist es weiterhin möglich, den Namen zu erkennen. Heutzutage haben die Leute so viel Angst, dass etwas geredeckt wird, dass die viele Leute Sachen ausdrucken, schwerzen und wieder einscannen, was natürlich völliger Wahnsinn ist. Aber sie machen es aus einem spezifischen Grund, weil sie nicht wissen, dass es nicht klar ist, welche Information enthalten ist, wenn sie etwas publizieren, wenn sie ihre Dateien herumschicken, weil sie nicht sicher sein können, dass das, was sie auf dem Bildschirm sehen, nur das Einzige ist, was da ist. Selbst wenn sie sehr viel Arbeit machen, um alle Namen zu entfernen, die ganze Geschichte des Dokuments zu entfernen, ist es sehr einfach, dass man einfach über Dateieragenschaften gehen kann. Und schon hat es gewisse Namen im Titel oder im Veröffentlicher. Was wir mit Comments Machinery machen wollen, ist Metadaten sichtbar machen, damit Personen bewusst sind, welche Metadaten verschickt werden, damit sie bewusst sind, welche Metadaten vorhanden sind, wenn sie Dateien herumschicken, um es sichtbar zu machen. Aber der andere Teil ist, ist handelbar zu machen. Und das bedeutet, dass wir einen Weg brauchen, um unsere Software zu entwickeln, sodass er auf diese Metadaten agieren kann, um uns gute Ratschläge zu geben, hilfreichere Ratschläge zu geben, Informationen über die Werke, die wir verwenden, wie zum Beispiel, wenn man ein Bild in einem Textverarbeitungsprogramm tut, dass es sagt, dieses Bild ist von diesem spezifischen Auto, können wir eine automatisierte Attribution direkt reintun. Aber man kann das nur tun, wenn man Maschinelespare Daten haben. Wir sind glücklicherweise von der Shuttleboard Foundation unterstützt, für jetzt zwei Jahre, das, was jetzt endet. Weil Sie daran interessiert waren, genau wie ich, zu sehen, was passieren würde, wenn man jetzt versuchen würde, diese Ideen in die Praxis umzusetzen, wenn man Systeme umsetzen würde, die unterstützen würde, die den Erhalt von Metadaten in digitalen Werken. Wo würden Probleme auf dem Weg passieren? Und wir haben sehr viel gelernt, als wir seit wieder daran gearbeitet haben. Und für den Rest der Präsentation werde ich einen kleinen Schritt zurückgehen und ein bisschen über die Retrospective zu erzählen, um zu zeigen, was wir gemacht haben, um hierher zu kommen, um zu zeigen, wo wir jetzt sind und dann zu zeigen, wo wir hingehen wollen, um dann zum Schluss zu sagen, was das Urheberrecht bedeutet. Weil, wenn Sie sich erinnern, das war dann Teil des Titels. Dies ist ein Bild von den ersten White Papers, die wir produziert haben. Dies zeigt die unterschiedlichen Standards, welche verfügbar sind, um Informationsübermitteln über Werke. Das sind alles Metadata-Standards, unterschiedliche Ebenen davon. Es kann etwas schwierig von hinten zu lesen sein. Aber wir haben z.B. Exif, was eine Metadatenrepräsentation ist. Aber es enthält auch Informationen über das Werk selbst. Es passt in Beine. IPTC ist ein ähnlicher Standard wie Exif. Aber es ist von der Telegrafenorganisation gemacht worden. XMP kommt auch von Adobe. Dublin Core, ODI, was direkt an den Lizenzen gebunden ist, hat von der W3C Herkunft und viele andere Standards. Es gibt noch viele weitere. Man wäre überrascht, wenn man sich hier recherchiert. Es scheint, dass jeder ist ganz viele darüber nachgedacht haben. Und in der Vergangenheit wurde immer noch wieder neue Standards entwickelt. Wir lernen relativ schnell, dass es zu viele Standards gibt. Es gibt keine Möglichkeit, wenn wir nur 5% der Werke mit Exif-Standards haben, 5% mit IPTC, 5% mit einem weiteren oder 90% mit einem weiteren. Das wäre ein Albtraum, das mit einem zu machen. Selbst Exif, was der meistverwandte Standard für Bilder ist, hat nicht genug Nutzen. Es hat nicht genügend Tools, um es zu bedienen. Wenn man etwas in ein Foto-Editor lädt und etwas verändert und dann speichert, gehen diese Informationen oft verloren, weil die ganzen Tools es nicht darauf ausgelegt sind, alle Metadaten zu erhalten. Das Metadeta-Manifesto von der Telekommunikationsorganisation der Internationalen. Sie haben eine Studie gemacht von sozialen Netzwerken und sie haben es zu sozialen Plattformen hochgeladen, wieder runtergeladen. Und was sie sahen, dass in 80% aller Fällen Metadaten verloren gingen. Flickr 500 Pixel, Twitter, Facebook sind eine der schlimmsten davon. Sie haben sie einfach ignoriert. Google war eine der besseren. Sie haben sich müde gegeben, zumindest Excel und XMP Informationen zu erhalten, aber einige andere Informationen gingen verloren. Metadaten erhalten, einfach durch die Hoffnung dessen, was man in die Datenteil einbettet, kann nicht garantiert werden. Deswegen dachten wir über andere Möglichkeiten, nach wie Menschen Werke verwenden und wie hat in den Fall von Copy-Paste uns angeschaut. Ganz häufig nehmen ... Bei Copy-Paste ist die Frage, wie man die Metadaten erhalten kann, wenn man Copy-Paste macht von einem Editor zum anderen. Das erste, was wir gemacht haben, ist, das Clipboarding einfach auch aufzuteilen. Wenn du ... Wenn du ein JPEG-Bild in die Ablage kopierst, sieht der Computer natürlich nur, na, da ist ein JPEG-Bild. Und wir haben halt ... Wenn wir ein Copy-Aktion haben, haben wir gleichzeitig die ... ein RDF-Fragment, und dann haben wir die ... Wenn wir dann in einer Programme gepastet haben, dann haben wir auch beides erhalten. Das war der erste Versuch. Später haben wir das geändert, und wir haben realisiert, dass es da ... Das ist der erste Versuch. Das ist der erste Versuch. Wir haben realisiert, dass es da ein großes Haufen Probleme gibt. Und kürzlich haben wir stattdessen ... ein HTML-Fragment in die Ablage gesteckt. Dass ein Referenz hat, und da kann man zum Beispiel den Titel und die Lizenz sehen. Ja, wir haben das implementiert. In ein paar Tools, GTK, GIMP, X-Bade, LibreOffice, Alloy, Editor, MediCoplin. Und ich bin da recht stolz drauf, und glücklich drüber, dass wir so ein Copy-Paste-Szenario in die Nähe davon gebracht haben, wo wir ein Bild online bringen können, das kopieren können, in LibreOffice rein tun können. Und wir haben dann die ... und das zum Beispiel dann weiter in Alloy-Editor verarbeiten können und die Meta-Raten erhalten. Das Problem, das wir hatten, ist beim Implementieren des Ganzen, wenn ... das bedeutet, dass du den Kern der Applikation veränderst. Man kann das nicht ... also, wenn man das implementiert, nicht ... man muss den Kern ... man muss seine eigenen Copy-Paste-Funktionen implementieren. Und das wird richtig schnell, richtig anstrengend. Wir haben außerdem in der User-Interface ein Sichtbarkeitsproblem. Die meisten Applications zeigen die ... zeigen die Meta-Raten nicht. Und das nächste Problem ist natürlich, dass wenn wir das, was für uns auf dem X-Based-System benutzt haben, implementiert haben, hat das bei Windows und Mac natürlich nicht funktioniert. Ja, beim Copy-and-Paste haben wir ... LibreOffice Presenter dazu gebracht, die ... ja, beim Presenter sogar dazu gebracht haben, dass ... das ist am Ende ... wenn man ein paar Bilder einfügt und es am Ende dann ... tatsächlich sichtbar ist. Also, man kann Insight Credits machen und dann kann man die Credits anschauen und zeigen lassen. Das war natürlich ein Riesenaufwand, das zu tun. Und das hat auch ... bedeutet, dass jeder einzelne Applikation, das wir ändern mussten. Es wurde sehr applikationsspezifisch. Wenn man etwas in LibreOffice gemacht hat, war es unterschiedlich zu dem, was man in Alloy Editor gemacht hat. Selbst wenn man das abstrahieren konnte in gemeinsamen Libraries, aber das war dennoch ziemlich aufwendig. Also haben wir uns gefragt, was wäre die Unix Art und Weise, das zu tun? Wenn das Problem ist, dass wir Metadaten erhalten und verhalten wollen, warum lösen wir das nicht für X, warum lösen wir das nicht für X, warum lösen wir das nicht in der Applikation, sondern lösen das darunter liegende Problem. Dann haben wir angefangen, etwas zu arbeiten, das Elogio heißt. Elogio ist ein verteilter Katalog von kreativer Arbeit. Und das ist natürlich ein bisschen euphemistisch, aber wenn, um ehrlich zu sein, das ist halt ein Metadaten-Speicher, die dazu da ist, Metadaten über kreative Arbeit zu speichern. Wenn man das sich anschaut, dann kann man sich ein Identifikator das eine Arbeit zu schicken, anzuzeigen. Und dann sieht man halt ein Locator und ein Link und ein Block-Hash und eine spezielle Lizenz. Oder in dem Fall, das ist einfach nur ein Public-Tomaten-Label. Elogio nutzt 3-W3C-Media-Annotation und es ist vermutlich ganz okay, ein Metadaten ist zu standard und liefert eine API und für jedes Bild kannst du einfach die URL dieses Bildes oder den Block-Hash dieses Bildes aufrufen. Wir haben eine Liste der Historie der ganzen Arbeiten und wir haben Multimedia-Record, weil wir haben bemerkt, das ist natürlich, wenn man ein Base, das wenn man das auf eine URL, wenn man das pastet und auf eine andere Webseite parkt, oder kriegt da eine andere Auflösung oder so was und deswegen brauchen wir mehrere Medien auf einen Werk. Wir haben diese Tatenbank mit 22 Millionen Bildern von Wikimedia Commons gestartet und wenn man irgendwo ein Bild von Wikimedia Commons findet, dann kann man das in der Datenbank angucken. Wir haben zwei Browser-Plugins geschafft, die damit mit dieser API interagieren können, aber was fragen wir uns natürlich, was macht das? Wenn du zum Beispiel ein Browser-Browser brauchst und das Allojo-Plugin hast, dann wenn du ein Bild siehst, das interessant findest, kannst du die Allojo-Sitebar öffnen und kannst das Bild identifizieren und wenn das Bild Teil von Allojo ist und in dem Fall dann auch Teil von Wikimedia Commons, dann kriegst du auch das Bild, den Titel, den Autor und die Lizenz dazu. Das werden die Freikultur-Lizenzen werden grün markiert. Wenn du außerdem die Möglichkeit dieses Bild als HTML-Datei kopieren und dieses Gleich direkt in Libraupers kopieren und das wird auch gleichzeitig die Attribution gleich mitbehalten und das funktioniert alles mit nur einem Browser-Plugin. Na, was fragen wir uns, was das Problem ist? Das die... Wenn man ein Bild identifiziert, das verkleinert oder vergrößert wurde, wie wir das tun, hängt stark davon ab, wie das Algorithmus mit dem Matching läuft. In Allojo wollten wir ein Algorithmus, der sehr leicht war, der nicht viele Ressourcen brauchte und der ausgerechnet werden konnte im Browser und der einen Wert generieren würde für ein Bild, das sich niemals verändern würde, selbst wenn du das Bild vergrößert und verkleinert hast und idealerweise sollte es so wenig wie möglich false positives generieren. Die Art und Weise wie unser Algorithmus funktioniert ist... Sollte ich euch mal anschauen, wie es funktioniert, das ist Alexanderplatz im 18. Jahrhundert in Berlin und wir haben ein... dieses Bild in 16 mal 16 Zellen, also 256, das sind die Bits und das ist unser Hash, den wir generieren. Wir haben es segmentiert und für jede Zelle errechnen wir die Summe aller Pixel in dieser Zelle. Wir tun und machen das für alle Zellen. Wir kriegen irgendwie sowas, eine Haufen Nummern. Wir errechnen den Median aller Nummern und dann gehen wir durch jede einzelne Zelle und fragen uns, ob diese Zelle über oder unter diesem Medium ist und dann erreichen wir daraus eine 0 oder eine 1 und dann haben wir daraus ein Hash und das ist unser Hash. Das ist sehr simpel, sehr effizient, braucht von kaum Zeit und dann haben wir irgendwie 2 Hashes. Das ist das erste Bild, das wir vom Alexanderplatz haben, das ist 40, mal 3, 26 und das zweite ist das gleiche Bild umskaliert auf 200 mal 102 Pixel und du wirst sehen, dass sie ähnlich aussehen, aber sie sind nicht identisch. Manche Sachen ändern sich, aber sie sind nicht identisch, aber sie unterscheiden sich auch nicht so stark. Wenn man das jetzt groß erweitert, sie sind sehr auf 6 Positionen anders, aber zwischen großen und der kleinen Größe. Und wir kommen von der Erfahrung, dass wir sagen, wenn etwa 6-Bit oder 10-Bit unterschiedlich sind, dann können wir uns ziemlich sicher sein, dass das Bild gleich ist. Leider kommt die Realität und beißt sich in den Hintern und das ist mein Sohn in Griechenland, und repräsentiert von etwas, was Leute gerne machen. Blöde machen Bilder von Kindern auf dem Strand und von Skylines und die haben alles etwas gemeinsam, nämlich dass sie einen hellen oberen Teil und dann einen sehr kontraststarken, niedrigen Teil. Wenn du einen sehr hellen Teil hast, wenn du daraus Nummern schaffst, dann hast du sehr niedrige Nummern unten und dann hast du sehr hohe Nummern unten oben. Wenn du daraus einen Medien machst, wird es irgendwo in der Mitte sein. Wenn du dann überprüfst, dann hast du oben, wenn du das überprüfst und daraus einen Heiß machst, dann hast du oben ganz viele Nullen und ganz viele Einsen. Diese Informationen sind dann einfach verloren, weil sie übersteuert werden. Dies war der ursprüngliche Block-Cache-Algorithmus, als wir es direkt aus der Forschungsliteratur umgesetzt haben. Wir haben diesen Algorithmus geändert und auf eine sehr einfache Art geändert. Wir haben ihn aufgeteilt, dieses Feld in vier unterschiedlich horizontalen Blöcke aufgeteilt und wir machen die Mittelwärtsberechnung nicht für das ganze Bild, sondern für jeden Block. Das bedeutet, dass selbst wenn der erste Block nur blauer Himmel ist, dann hat selbst dieser blaue Himmel noch gewisse Variationen und wenn wir daraus die Mittelwärtsberechnung rechnen und dann die Mittelwärtsberechnung machen, dann kriegen wir viel mehr Kontrast und viel mehr Details. Das ist der Weg, wie der Block-Cache-Algorithmus funktioniert und es gibt uns Hasche wie diese, also viel mehr Details für das Gleiche. Wir sind weiterhin, kriegen immer noch Kollisionen. Das ist unvermeidbar. Wir kriegen in etwa 1% aller Fälle Kollisionen von etwa 100.000 Bildern aus dem Internet, haben wir unseren Algorithmus darüber aufgeführt und damit verglichen. Und mit dieser 1% Kollision bedeutet, dass zwei Bilder oder mehr den gleichen Hash generieren, ein identischer Hash. Aber in 84% aller Fälle redet man über zwei oder drei Bilder, die gleich sind. Und aus unserer Sicht ist das allgemein akzeptabel. Und das sind zudem auch Zufallzbilder. Das bedeutet Clip-Arts, Karten, die vielleicht nur in sehr kleinen Details sich ändern, können hier das Ergebnis verfälschen. Wir sehen auch einige falsche Positive. Und das sind Bilder, die erkannt werden, als ähnlich ohne dies zu sein, weil der Algorithmus zu nahe Treffer dafür generiert. Wenn wir die Maximaldistance bis zu zehn Bitsvarianz erlauben, als Gleiches, dann kriegen wir etwa 1,8% falsche Positive. Wir können das Substanz herunterkriegen, wenn wir die Distanz, die wir erlauben, herunterdrehen, die drei oder fünf, dann kriegen wir 0,05% oder 0,175%. Also irgendwo da glauben wir, dass wir relativ gut liegen. Was über abgeladete Werke? Was über Clip-Arts? Vergiss es. Abgeladete Werke, also Bilder, wo man zum Beispiel einen Rahmen drum macht, Bilder, das man zuschneidet. Wenn man den Algorithmus sich vorstellt, kennt man sofort, wenn man das Bild beschneidet, stellt es einen sehr anderen Hasch. Deswegen haben wir das Limit gesetzt, für uns darauf, dass wir unser Bestes tun wollen, um das Beste zu erreichen, was direkt Kopien machen können, sodass man skalieren kann, wie man will, wie man will, dass die Dateiformat ändert, Gift zu PNG und so weiter. Aber wenn man ein Derivativwerk, ein neues Werk draus macht, dann haben wir keine Chance, das zu erkennen. Das Deichel wie bei Clip-Arts, Diagramme oder Grafen, wo man große weiße Bereiche oder schwarze Bereiche hat und nur ein paar Zeilen. Da machen wir einen schlechten Job mit, weil wir hier diese Hochkontrastebenen haben. Aber wir kriegen etwas, das extrem schnell ist mit sehr kleinen Hasches, das sehr schnell ist und man kann das alles auf blog.io sehen. Das muss ich selber anschauen. Leider sind 22 Millionen Bilder nicht Millionen Bilder. Das ist die Ruße, die wir bräuchten, um das sinnvoll zu machen. Es ist nur ein kleiner Anteil der Bilder, die wir benötigen, um es sinnvoll zu machen. Der Jahresbericht von Facebook, der veröffentlicht wurde, sagte, Entschuldigung, die Größe der Allmenden ist momentan in der Größenordnung von 500 Millionen Bilder. Ich schätze, dass es etwa eine halbe Milliarde Bilder gibt. Milliarde? Danke. Um auf eine halbe Milliarde Bilder zu kommen, ist es nicht so schwierig für die Datenbank. Das können wir einfach tun. Aber wir reden über die Suche, über die Haschsuche. Wir suchen nach einem Haschwert, wo wir erlauben, dass bis zu zehn Bits Differenz erreicht werden. Wenn wir sagen, dass wir keine Differenz erlauben, das wäre eine sehr einfache Suche. Weil jede Datenbank kann über eindeutige Werte suchen. Das ist kein Problem. Aber wenn man nach einer Ähnlichkeit sucht, dann wird das ein ganz anderes Problem. Wir befunden Forschung, um uns weiterzuhelfen. Dieser Algorithmus kommt überraschenderweise von Google. Der nennt sich HM Search. Er partitioniert die Haschwerte in so einer Art, dass man vermeidet, alle 22 Millionen zu durchsuchen. Für jeden Hasch, den man auf diesen Algorithmus wirft, kriegt man ein paar Tausend möglicher Metrics zurück, Treffer zurück. Und man muss dann nur noch die verbleibenden Sichten umzusehen, ob es wirkliche Treffer gibt oder nicht. Auch das ist auf GitHub HM Search.io. Wie geht es nun weiter? Das erste, was wir tun wollen über die Skalierung genau aus 100 Millionen Werke, ist, das Schreiben, Lesen, Bitt zu flippen. Weil momentan hat das API zwar die Möglichkeit, Informationen zu editieren in der Logio, wir haben das bisher noch nicht aktiviert. Wir haben bisher Informationen von Wikimedia Commons genommen und das wie ein nur lesen Repository hineingetan. Und wir sind momentan auf die Wikimedia Commons Leute angewiesen für die Aktualisierung der Informationen, sodass es in der Logio kommt. Aber dieses Bitt umzuschalten und es schreibbar zu machen, wird es dies verändern. Wir müssen Logio auch erweitern, um nicht nur Bilder zu unterstützen, und dann skaliert dies natürlich sehr stark über eine halbe Jahrne. Und wir wollen direkten Unterstützung für die API, um zurückzugehen auf die Applikationsseite, um zu sehen, wenn man Bearbeitungen der Metadaten halt gesichert hat, wie können wir das nun in der Applikation wieder rückintegrieren? Aber wie hängt das nun mit dem Urheberrecht zusammen? Nun, es ist einfach, sich Logio als Urheberrechtsregistrar vorzustellen. Und ich verspeiche, dass es nicht. Ein Urheberrechtsregistrar ist etwas, was ich grundlegend ablehne. Es ist der Ansatz von jemandem, eine autoritative Datenbank zu bauen, wer welche kreativen Werke besitzt. Logio ist das nicht. Es ist kein Urheberrechtsregistrar. Es ist gebaut als Community-Gebautes Registrar mit der impliziten Annahme von Respekt. Wir haben das von Wikimedia gelernt. Es gibt einen Grund, dass Leute Informationen beitragen. Es gibt einen Grund, warum Leute sich viel Mühe machen, um die Metadaten auf Wikimedia Commons up-to-date zu halten. Und verlässlich, weil es eine implizite Vereinbarung gibt, dass wir den Autor respektieren wollen. Wir wollen den Autor so weit respektieren, dass er genannt wird. Wir wollen das nicht verlieren. Now, Logio ist auf diese Art ein kleiner Schritt zur Seite. Zu einer Initiative wie Creative Commons. Da geht es direkt um die Lizenzen. Dort war es ein Versuch, sich innerhalb der Urheberrechtsregime zu arbeiten. Und gegebenen der Zeiten im 2001 haben wir Urheberrechts-Irworld-Teilen, wie können wir innerhalb dieses Systems arbeiten, um die rechtlichen Tools zu geben, um das möglich zu machen? Ich glaube, dass wir an das Ende zu Urheberrechts, wie wir es kommen werden jetzt, ein neuer Walschbruch in letzter Zeit. Walschbruch in der Open Source Gemeinde ist gewesen in letzter Zeit die Post-Open-Source-Zeit Gesellschaft. Und die Antwort ist hier, tu es einfach auf GitHub. Ich denke, dass wir auch das Gleiche sehen in der Creative-Innsphäre. Urheberrecht verliert seine Wichtigkeit von Tag zu Tag. Und wir kommen zu einem Punkt in der Zeit, wo wir binnen fünf oder zehn Jahren, bin ich mir ziemlich sicher, dass das Europäische Parlament und andere Parlamente in der ganzen Welt Schritte unternehmen werden. Ausnahmen gegenüber dem Urheberrecht schaffen werden, z.B. um private und private Benutzungen besser zu erlauben. Das Urheberrecht verändert sich alt. Und Elogio ist ein Tool, das wir genau brauchen. Elogio geht um Post-Copyright-Lizenzierung. Elogio ist es egal, welche Lizenz etwas hat. Wenn du Informationen über die Lizenz aufnehmen willst, dann ist Elogio da. Aber die Lizenz ist nicht unbedingt wichtig. Das Wichtige bei dem Werk ist, die Herkunft, wer es eigentlich geschaffen hat. Von daher nehmen wir uns sehr viel Zeit bei Elogio um den Autor zu respektieren. Wir kümmern uns sehr stark darum. Solange wir klar attribuieren, haben wir gewonnen. Solange es Tools wie Elogio gibt, können wir der Welt zeigen, dass Autoren uns wichtig sind. Nicht nur um Urheberrecht, aber auch um Autoren. Wir können der Welt zeigen, dass wir die Herkunft kontrollieren, dass wir uns aufzeichnen, woher die Werke kommen, woher sie damit gemacht werden und die faire Attributionen in Autoren zukommen lassen. Ich glaube, dass wir Autoren respektieren, wenn wir sie respektieren, attribuieren, dass aufzeichnen und ehrlich sind. Es wird einfacher für Autoren, dieses in die Comments hinzuzufügen. Das ist viel einfacher. Ich habe hier ein Werk gemacht, das ihr wollt, aber ich will dafür Attributionen halten. Wenn wir die Werke respektieren, dann wird auch der Wert erhöht und die Bedeutung von digitalen Werken. Nur dass ihr wisst, dass dieses Bild, das ich euch gezeigt habe von Randal Monroe, hat den Wert geändert. Wenn wir das machen, als Community, dann können die Copyright-Inhaber, dann verlieren die auch ihr momentan exklusives Recht, vorher zu sagen. Sie sagen uns momentan, dass wir die Besitzer sind oder sie sind die Besitzer von der Kultur, die wir um uns herum haben. Und Tools wie Elogio, wo wir als Community kommen und sagen, wir wissen, wer dieses Werk geschaffen hat. Wir kümmern uns darum, dass wir uns erkennlich zeiten. Das ist das, ja. Also, kurz gut, danke schön fürs Zuhören. Wir haben jetzt noch ein paar Fragen. 15 Minuten für ein paar Fragen. Thorsten Kleins am Mikrofon da unten. Hallo. Danke für die Frage. Ich bin interessiert an der Funktion, aber ich sehe nicht, wie diese Funktion in der Spock-Applikation nutzlich sein kann. Ich brauche es nicht nur im LibreOffice, sondern ich brauche etwas in WordPress, in Flickr, in Facebook. Habt ihr mit diesen Plattformen geredet? Das ist das, was ich am Anfang herausgegeben habe. Um es wirklich nützlich zu machen, brauchen wir die Unterstützung von Tools. Wir brauchen die Unterstützung in der Applikation, die die Leute jeden Tag verwenden. Das ist der Grund, warum wir unseren Ansatz geändert haben, um Informationen aus dem Clipboard zu nehmen. Weil das als HTML-Fragment auszunehmen, zeigt, dass es funktioniert in LibreOffice, in WordPress. Es funktioniert in Microsoft Office. Es funktioniert in einer breiten Palette von Tools, standardmäßig, weil die meisten Tools zur HTML verarbeiten können. Das ist nicht die ganze Geschichte. Um die Metadata nutzbar zu machen, um die Mitte gereicht zu werden und etwas Intelligenz damit zu machen, braucht man weiterhin Applikationsunterstützung. Wir haben mit der LibreOffice-Community geredet. Wir haben diese Diskussionen begonnen. Sie kommen langsam hinterher, aber leider ist die Bereitschaft und die, und das, was möglich ist, noch nicht soweit, bis etwas sinnvolles dabei zustande kommt. Nächste Frage. Danke. Gibt es irgendwelche Pläne, Bilder verfolgbar zu sein, nachdem sie zusammengeschnitten wurden? Und habt ihr mal angeschaut, wie YouTube das machen, weil die scheinen ja ganz gut drin zu sein? Wir haben uns das angeschaut auf unterschiedliche Art und Weisen, wie man die Berechnungen machen kann, um Bilder zu entdecken, die beschnitten oder verändert wurden auf irgendeine andere Art und Weise. Leider ist aus unserer Perspektive nicht möglich mit den Algorithmen, die verfügbar sind. Sie sind entweder geheim oder patentiert. Und die Implementierung in Freie und Open Source Software ist damit ein absoluter No-Go. Es wird besser. Es gibt Forschung, die das möglich machen soll. Und wir suchen weiterhin nach der Veränderung von Algorithmen, der Algorithmen Verbesserung. Aber es ist noch sehr weit von dem Entdecken ein derivatives Werk zu erkennen. Mikrofon 2. Hallo. Danke für die Frage. Er hat für die Arbeit auf der Frontend-Sache und im Workflow. Ich habe eine Frage über verteilte Datenbanken und Community Curated Direction. Der Fokus scheint auf sehr spezifischen Projekten zu sein. Wie könnte das skalierbar sein, um mehr Quellen in den Wabir zu kriegen und wert ja offen für andere Contribuilien, Bibliotheken, Archive, europäische Projekte, warum, wenn man darüber nachdenken kann. Was wäre das, was wäre das, langfristig, langfristige Ziel? Es gibt zwei Communities, zwei Repositories, um die Informationen nach Alloge zu kriegen. Das eine ist Röbjana. Das fängt viele der Galerien und Bibliotheken. Die andere ist Creative Set. Ein Teil Urheberrechtsregistrar um diese Informationen herauszukriegen. Aber weiterhin gibt es immer noch nur spezifische Sammlungen, nur Leseninformation. Der nächste weitere Schritt ist die Schreibbarkeit und wir sind nicht ganz sicher, wie das aussehen würde. Wie geht man zum Beispiel mit potenziellen Konflikten um, wenn mehrere Leute immer wieder dieselben Sachen verändert? Wir müssen gucken, was Wikipedia tut, welche Brambedingungen und Richtlinien sie haben und ob wir die replizieren können. Um zu skalieren und das zu verteilen, haben wir von Anfang an gesagt, für im Alloge-Katalog ist eine URL. Das bedeutet, dass jeder ein Katalog einrichten kann und sein eigenes URL-Schema für diesen Katalog haben kann. Solange sie die API nicht verändert, wenn sie die URL haben, ist es egal, welchen Katalog man abfragt. Sie kriegen sie so oder so. Es gibt eine Frage. Ein Kommentar ist, ob man vermutlich etwas, was 100, 200 Jahre überleben kann, ob das dadurch gelöst wird, dass wir URLs wie wir sie heute haben, es könnte ein paar Probleme geben. Die Frage ist auch auf Bücher und Videos und so weiter, ob Musik appliziert werden kann. Dann gibt es einen technischen Kommentar. Alle Haschfunktionen sollten 1Pass sein. Das sollte einen technischen Kommentar geben. Ich versuche, ob ich mich an die 3 Dinge erinnern kann. Wir arbeiten viel mit dem spezifischen Algorithmus dabei und jetzt denken wir, dass wir einen Weg gefunden haben, der am besten in unserer Umgebung funktioniert. Wir haben das auch dokumentiert als R1, RFC und es hat eine sehr spezifische Definition, wenn man etwas einen Blockhash nennt, dann muss man diese Spezifikation folgen. Nun zurück zu der ersten Frage. Genau, die URL. Ich habe etwas kurz übersprungen, als ich sagte, dass alles über eine URL identifiziert wird. Als ich am Anfang gesagt habe vom Vortrag, dass wir wissen, dass jegliche Metadaten sehr schnell entfernt werden. Selbst wenn wir alles, was wir brauchen, was nur eine URL ist, ein Identifier, der wir benötigen, der kann auch herausgenommen werden. Deswegen ist das nicht die endgültige Lösung zu irgendetwas. Wir brauchen noch unterschiedliche Ansätze zur Identifikation von Werken. Das Einzige, was ich dort sagen würde, ist, dass mit der URL wird zumindest sicherstellen können, dass dies über unterschiedliche Kataloge verteilt werden kann. Und der zweite Punkt war? Ich glaube, die Überlebbarkeit, wenn ich mich richtig erinnere, andere Werke nicht Bilder. Okay. Einer der Gründe, warum es so viele Metadaten stimmt als gibt, ist, dass es so viele unterschiedliche Arten von Werken gibt. Was relevant ist, für Bilder in Bezug auf Metadaten, ist nicht relevant für klassische Musik. Was relevant für klassische Musik ist, ist, in Bezug auf Autor, welches Instrument spielt, welche Instrumente verfügbar sind, ist nicht relevant für Popmusik. Das ist der Grund, warum diese ganzen Standards entwickelt wurden. Einer der Gründe. Und wir glauben, wenn man die W3C-Media-Annotation verwendet, abzudecken, aber man muss noch viel weiter darüber nachdenken, welche Informationen wirklich wichtig ist, über welche Art von Werken und wie sehen die Metadaten-Schnurz dazu aus? Das ist aber ein größerer Teil der Arbeit. Eine Frage aus dem Internet. Warum arbeitet nicht mit Daten aus anderen Quellen wie Flicker, da gibt es ja auch ganz viele Informationen. Wir haben bisher noch keine Ort, aber wir reden mit Flicker. Wir kommunizieren, wie wir die Informationen kriegen können, wie wir sie in unser System integrieren können. Abhängig davon, wie es laufen wird, bin ich relativ positiv, dass wir das integrieren können werden und über dieselbe IPI anbieten können werden. Leider, glücklicherweise haben Flicker eine riesen Ressource über 300 Millionen Bilder. Das bedeutet, auch wenn wir ein Jahr bräuchten, einen Katalog selbst mit uns ein Jahr Zeit lassen würden, würden wir eine Million Werke pro Tag reinnehmen. Wir können theoretisch 6 Millionen Werke pro Tag reinnehmen, aber mehrere Monate Arbeit, wenn wir das wirklich tun wollen, werden wir das nicht mehr mehr als ein Jahr Zeit mehr als ein Jahr Zeit sein können. Weitere Fragen? Weitere Fragen? Weitere Fragen? Wenn Sie haben Fragen, dann können Sie nach dem Vortrag direkt hierher kommen. Wir haben auch noch Materialien vorne. Bei Lerner. Danke Jonas. Vielen Dank.