 Okay, wir hören jetzt einen Talk von der Herb. Er würde sich im Rahmen seines Vortrags selber vorstellen und das Thema ist Forschungsdateninfrastruktur und deren Langzeitarchivierung. Hallo und willkommen zu meinem Talk zum eben genannten Thema Forschungsdateninfrastruktur und Langzeitarchivierung. Da ich ein ernstzunehmender Wissenschaftler bin, sieht man an meinem Laborkittel. Zu meinem Hintergrund, ich habe 2020 promoviert in Informatik in Schweden. Bin zurück nach Deutschland und bin ein bisschen in dieses Thema reingerutscht, Forschungsdatenmanagement, Forschungsdateninfrastruktur und versuche euch jetzt mal im Rahmen dieses Vortrags ein bisschen, die Herausforderungen bei diesem Thema nahezubringen, womit ich momentan so mein Geld verdiene und Disclaimer, ich bin hier nicht im Auftrag meines Arbeitgebers, der ein außeruniversitäres Forschungsinstitut ist und die Beispiele sind tendenziell ein bisschen geprägt von meiner Arbeit. Ich arbeite primär mit Sprachdaten, also geschriebenen Texten, gesprochener Sprache. Ich versuche das Ganze aber so weit wie möglich generell zu halten. Ein bisschen über Forschung, also Forschung, wenn ich von Forschung spreche oder wenn wir von Forschung spreche, sollten wir hoffentlich von evidenzbasierter Forschung sprechen. Das heißt, Leute sammeln oder erstellen Daten. Die Daten werden gespeichert und archiviert und die Daten werden ausgewertet. Und beim Auswerten der Daten entstehen neue Daten, weswegen wir wieder zurückgehen auf den ersten Punkt und der Kreislauf geht von vorne los. Und wenn wir weit in der Geschichte zurückgehen, also Forschungsdaten wurden schon sehr lange Zeit gesammelt, aber aus technischen Gründen fiel halt im Zweifelsfalle viel Papier an und Papier lässt sich anders archivieren als digitale Daten. Ist aber auch deutlich schwerer zu durchsuchen. Und irgendwann vor um die 70, 80 Jahren passiert etwas. Da kamen diese neuen Maschinen genannt Computer und plötzlich konnte man Daten digital bearbeiten. Allerdings im ersten Schritt war da immer noch relativ viel Papier und das konnte man auch tendenziell klassisch archivieren. Das heißt, es gibt Forschungsprojekte von denen kistenweise Lochkarten irgendwo noch eingelagert sind. Aber ich will jetzt nicht vor diesen Papierdaten reden, sondern ich will von digitalen Daten reden. Denn inzwischen können die meisten Leute doch mit Computern umgehen und viele Daten oder fast alle Daten, die heutzutage erstellt werden, werden direkt digitale erstellt. Das heißt, auch der Schritt der Digitalisierung auf den gehe ich jetzt nicht wirklich ein. Ich gehe von den sogenannten Born Digital Data aus. Also Daten, die wirklich digital schon erstellt werden, digital verwaltet werden und digital dann gespeichert werden müssen. Und jetzt könnte man sagen Langzeitarchivierung von digitalen Daten, das ist doch ein gelöses Problem. Wir haben sowas wie Bandarchive. Wenn wir die Daten nur oft genug kopieren, dann gehen die schon nicht verloren. Also alles gar kein Problem, der Talk ist vorbei. Wenn wir uns aber eines der üblichen Modelle anschauen für Forschungsdatenmanagement, das sogenannte OIS-Modell, Open Archival Information System, sehen wir, dass das vielleicht doch ein bisschen komplizierter ist. Also wir haben zum Beispiel hier links außen, den Producer, von dem haben wir schon ein bisschen was gesehen, oder wir haben das Archival Storage, also da, wo die Daten wirklich gespeichert werden. Aber es gibt eben noch viele, viele Dinge außen herum. Zum Beispiel diese Punkte. Es hängt ein Haufen administrative Informationen und administrative Prozesse mit dran. Es gibt die sogenannte Preservation Planning, also wie Daten auch längerfristig verstanden werden können. Also nicht nur gespeichert, sondern ich weiß nicht, ob ihr schon mal eine Wörterteil von Wörter 97 oder so irgendwo gefunden habt, oder vielleicht noch schlimmer irgendeine Datei, die irgendjemand mal in der Verwandtschaft in den 80er-Jahren auf irgendeinem Computer abgespeichert hat. Große Herausforderungen. Und dann ist natürlich auch die Frage des Zugriffs auf die Daten. Und ein wichtiger Aspekt im Punkt Zugriff, dort kommt ein bisschen die Infrastruktur mit dazu. Weil dieses OIS-Modell, das wird von einer Institution zum Beispiel einmal implementiert. Aber die Institutionen arbeiten möglicherweise nicht unabhängig voneinander, sondern die wollen zusammenarbeiten. Das heißt, statt einfach nur einem Forschungsinstitut wollen wir eine Infrastruktur, eine Vernetzung von mehreren Instituten haben. Und dort kommt zum Beispiel dieser Access-Punkt mit dazu. Daten gefunden, wie Daten gefunden werden können zum Beispiel. Und in meinem Fachbereich gibt es eine Infrastruktur, die heißt Clarin. Und dort gibt es zum Beispiel einen Webport-Hall, in dem hier unten sie, ich muss aufpassen, hier unten sieht man zum Beispiel, es gibt eine ganze Liste von Data-Providern. Das heißt, es gibt eine zentrale Anlaufstelle, die die Daten zusammensammelt von verschiedenen Providern und so kann man leichter Daten finden. Und das bedeutet natürlich auch, es müssen entsprechende Schnittstellen definiert sein, es müssen Daten im richtigen Format in diesen Schnittstellen bereitgestellt werden. Und das bringt uns zu einem sehr großen Thema, Metadaten. Die meisten von uns haben den Begriff Metadaten auf jeden Fall schon mal gehört, aber tendenziell eventuell in einem anderen Kontext, aus dem auch diese Tasse eher stammt. Aber Metadaten sind auch im Forschungsdatenmanagement extrem wichtig. Weil die Daten allein können im Zweifelsfall nicht sehr aussagekräftig sein. Also Metadaten werden üblicherweise eingeteilt, in die Metadaten, die uns helfen, die Daten auffindbar oder zugreifbar zu machen. Das wird dann relativ häufig als Katalogmetadaten bezeichnet. Und da sind dann so Informationen, wie wer die Daten erstellt, was ist der Titel. Und wichtig ist auch, welche Lizenz, wer kann auf die Daten zugreifen oder welchen Bedingungen kann auf die Daten zugegriffen werden. Und ein weit komplizierter Punkt ist, wie beschreibt man die Daten, dass die Daten auch nachträglich noch verstanden werden können. Weil im Zweifelsfalle hat man Daten, die einfach unabhängig nicht gut verstanden werden können. Und im Bereich Metadaten ist etabliert, dass die sogenannten FAIR-Prinzipien bzw. allgemein im Forschungsdatenmanagement sind die FAIR-Prinzipien ein Begriff, auf dem man häufiger trifft. Und FAIR ist eben die Abkürzung der Begriffe findable, accessible, interoperable and reusable. Und es geht eben darum, die wichtigen Probleme der Forschung zu lösen. Wie können Daten gefunden werden? Ich will Forschung in einem gewissen Bereich machen. Wie finde ich die entsprechenden Daten? Dann ist die nächste Frage, wie kann ich auf diese Daten zugreifen? Und im Idealfall ist es sowohl Informationen, welche Voraussetzung brauche ich, als auch welche Methoden kann ich verwenden, um auf die Daten zuzugreifen. Und der dritte Punkt ist relativ spannend. Es geht darum, wie man dafür sorgen kann, dass Daten aus verschiedenen Quellen kompatibel zueinander sind, dass man sie verknüpfen kann. Und das ultimative Ziel des Ganzen ist Wiederverwendung von Daten. Wenn ich ein Forschungsprojekt habe und ich sammle dafür Daten, die ich diese Daten selbst verwenden kann, aber es ist noch schöner, wenn es andere Leute gibt, die aus meinen Daten auch noch wieder spannende Ergebnisse erzielen können. Und zum Thema Daten verstehen. Das ist jetzt ein bisschen ein willkürliches Beispiel, aber es könnte sein, dass irgendjemand Daten depronieren will in einem Archiv. Und die Daten sehen so aus. Und dann ist unter anderem die Frage, was macht man, also dann ist die große Frage, was macht man damit? Das, was man im Zweifelsfall machen kann, ist man geht zurück zu, wir wissen, wie man Daten speichert, wir speichern sie einfach und ignorieren die Tatsache, dass wir sie nicht verstehen. Und das in 15, 15 Jahren, die Leute wahrscheinlich noch viel weniger verstehen. Das wäre die einfachste Möglichkeit. Oder wir versuchen die Leute dazu zu ermutigen, dass sie bessere Daten verwenden, bessere Formate. Zum Beispiel angefangen, dass es schon mal schön wäre, wenn ein Header dabei ist, wo also im Zweifelsfall ein einfaches Datenformat sind Tabellen. Im Idealfall nicht Excel-Tabellen, sondern vielleicht einfach nur Tabellen sind schon mal nicht schlecht. Und wenn dann im Header der Tabelle auch noch steht, was die Daten bedeuten, dann hat man schon gute Chancen, dass die Daten auch nachträglich noch was wert sind. Dann gibt es das Konzept der sogenannten kontrollierten Vokabulare. Weil wenn Leute irgendwie gerade so Metadaten ausfüllen, hat man eine gute Chance, dass fünf Leute sieben verschiedene Varianten verwenden. Also wir hatten mal Daten von der Uni Köln. Und ich glaube, es gab zwölf Schreibweisen, wie die Uni Köln in den Daten auftauchte. Und da wäre es sinnvoll, wenn man tatsächlich eine Liste von Institutionen hat, vielleicht auch tatsächlich mit eindeutigen Identifikatoren. Und die Leute schreiben dann nicht im Freitext Uni Köln, sondern wählen aus der Liste die Uni Köln aus. Und in den Daten selbst landet nur der eindeutige Identifikator der Uni Köln. Dann Formate sollten, wenn möglich, sowohl Maschinen als auch Menschen lesbar sein. Weil wenn ich ein reines Binärformat hab, das vor 20 Jahren, 30 Jahren gespeichert wurde und das jetzt anschaue, manche Leute haben dann wahrscheinlich viel Spaß, wieder herauszufinden, was in diesem Format drinsteckt. Aber im Wissenschaftsbereich sind die Ressourcen einfach nicht da. Und dann kann man eigentlich die Daten auch gleich wegwerfen. Damit verbunden, es erleichtet vieles, wenn man etablierte Standards verwendet. Gelegentlich ist die Versuchung sehr groß, dass man sagt, ich habe das perfekte Format für das, was ich machen will. Ich erende mein eigenes perfektes Format. Danach wird sich ja alles besser fallen, weil es weniger schmerzhaft ist, als sagen wir rein hypothetisch, ich baue das Ganze auf xml auf. Aber wenn es dann darum geht, die Daten tatsächlich langfristig zu verwenden, stellt sich raus, das ist ein absoluter Albtraum. Und gerade bei diesen Formaten ist es auch sehr sinnvoll, wenn diese Formate validiert werden können gegen irgendein Schema, weil Tippfehler z.B. im einfachsten Fall. Und eben auch zusammen mit den kontrollierten Vokabularen, wenn man einfach die Daten, die erstellt wurden, analysieren kann und möglichst direkt zurückmelden. Vielen Dank für die Daten, aber wir haben da und da ein kleines Problem gefunden, ist besser, als wenn man nach 10 Jahren feststellt, dass die Daten nicht funktionieren, dass die xml-Datei nicht validiert. Dann ein weiterer sehr spannender Punkt, ist das sogenannte Preservation Planning. Das schließt ein bisschen daran an. Wenn man einen Datei-Format hat, und selbst wenn es sehr etabliert ist, kann es sein, dass dieses Format einfach nicht mehr unterstützt wird. Und ich habe es mir jetzt ein bisschen leichter gemacht, von dem ich nur von Flash-Video aus. Also im seise Fall deinen Lieblings-Manga-Mädchen rotiert ein Lauch-Video. Und jetzt sagt Adobe, wir unterstützen den Flash-Player nicht mehr. Schau, was du mit den Daten machst. In der Realität gibt es natürlich auch ein Haufen anderer Projekte, dann eher mit Chockwave, Makrymedia Chockwave basieren, also irgendwelche digitalen Editionen von Büchern, die in den 90ern erstellt wurden, wo man schön eine Anwendung startet, und dann sieht man das Ganze als schönes Buch, das man durchblättern kann. Diese ganzen Sachen sind halt heutzutage schwer umzusetzen. Aber wir haben ein paar Optionen. Zum Beispiel können wir, wenn es wirklich ein neues Video ist, wir konvertieren das Flash-Video nach Impact 4. Wir können es weiterhin anschauen, und damit haben wir eventuell das gelöst, was wir eigentlich erreichen wollten. Eine andere Option ist, wir nehmen eine Software-Immolation. Es gibt keinen Flash-Player mehr, aber es gibt Leute, die ihre Freizeit drauf werfen, eine Flash-Immolation zu implementieren. Dann nehme ich einfach eine andere Software und kann die Daten, die Original-Daten, weiterhin ausführen. Oder ich siche einfach das ganze System. Ich weiß, dass die Anwendung funktioniert auf einem Windows XP-Rechner mit einer alten Version von Internet Explorer und dementsprechend Flash-Player. Also nehme ich ein Image dieser virtuellen Maschine und speichere das mit der Video-Datei ab. Klingt zwar nach Extrem Overkill, aber gleichzeitig ist es auch das, was garantiert, dass das Look and Feel das Gleiche ist. Und einige Leute legen Wert darauf, dass tatsächlich das Look and Feel genauso relevant ist wie der Inhalt selbst. Und wenn man Forschungsdaten archiviert, muss man sich eben überlegen, was für Datenformate kann man unterstützen und bei diesen Datenformaten sich dann wieder überlegen, wie geht man damit, ob wir diese Formate einfach nicht mehr unterstützt werden. Ob man den ersten Weg geht mit Konvertierung, dann muss man immer einen Überblick behalten, was für Formate habe ich. Und wenn meine Flash-Videos oder mein Quick-Time nicht mehr unterstützt wird, muss ich durch mein ganzes Archiv gehen und alle Quick-Time-Dateien entsprechend meine Regeln konvertieren in das neue Format, das ich bestimmt habe. Oder ich mache tatsächlich, wenn ich weniger Daten oder weniger Anwendungen habe, ich mache die Systememulation. Ich merke mir im besten Fall einfach, welche Systeme funktionieren und schaue, dass ich die möglichst schnell wieder bauen kann. Aber das ist natürlich ein Haufen administrativer Aufwand für ein Archiv, eine Liste zu verwalten, welche Daten unterstützt werden, wie sie unterstützt werden und dann ist die Frage, was macht man mit Daten, die nicht unterstützt werden? Weil eigentlich will man die Dienstleiste sein für alle Forschenden und dann wäre im schlimmsten Fall nochmal die Option, man macht einfach Bitstream-Preservation. Also ich speichere die Daten einfach bitweise ab. Ich verstehe sie nicht, ich will sie nicht verstehen. Aber ich kann den Leuten immerhin sagen, wenn sie in 15 Jahren wiederkommen, kriegen sie genau die Bitsequenz wieder, die sie mir gegeben haben. Insofern macht man schon eine Archivierung, die das auch so archiviert, dass die Daten auch zuverlässig wieder abgerufen werden können. Also der Inhalt, nicht nur die Bitsequenz. Dann gibt es noch ein Thema, mit dem ich mich sehr ausgiebig beschäftigen durfte. Es gibt sogenannte Information Packages, also Informationspakete. Das sind die Daten, die unter anderem vom Ersteller der Daten an das Archiv gehen und die Daten, die dann im Archiv wirklich auch abgespeichert werden. Also die Daten, die auf das Bandlaufwerk geschrieben werden zum Beispiel. Und das ist ein bisschen ein Konflikt, weil Forschende wollen Forschung betreiben. Die wollen nicht ihre Daten wieder nachaufbereiten. Also idealerweise wollen sie ihre Daten, so wie sie irgendwann mal erstellt wurden, einfach rüberreichen und sagen, speichert das. Und das Archiv will natürlich die Daten möglichst qualitativ hochwertig speichern. Das heißt, das Archiv hätte gerne von den Forschenden, von den Erstellern der Daten mit Informationen. Und dementsprechend ist es ein ziemliches Tauziehen, was man erwarten kann als Archiv, was man fordern kann, ohne dass man riskiert, dass die Forschenden sagen, also wenn ich das machen muss, dann speichere ich die Daten halt nicht bei euch. Und das ist ja wieder nicht Sinn der Sache, man will ja die Daten speichern. Und zum Beispiel eine relativ einfache Überlegung, was ist das Mindest Notwendige, was man braucht? Also man braucht zum Beispiel die besagten Katalogmetadaten. Wer hat das ganz erstellt? Wie finde ich es? Im Idealfall auch mit irgendwelchen Unique Identifiers, dass man auch genau weiß, was man bekommt, mit einer gewissen URL zum Beispiel. Dann der Inhalt selbst offensichtlich und dann Lizenzen ist eigentlich auch unumgänglich, dass die Leute sagen, wer darf auf meine Daten zugreifen, unter welchen Bedingungen. Aber dann kommen wir zum Beispiel zu ein paar Punkten, die offen sind zur Diskussion. Zum Beispiel zusätzlich zur Lizenz, könnte man wirklich auch eine Zugriffskontrollliste mitspeichern. Und etwas detaillierter sagen, wer darauf zugreifen kann. Aber dann ist wieder die Frage fürs Archiv, brauchen wir das? Aber können wir das tatsächlich von den Vorschnitten erwarten? Und aus technischer Sicht zum Beispiel gibt es den Punkt, dass wenn das zum Beispiel XML-Dateien sind oder ähnliche Dateien, die Dateien, die ich vorhin genannt hatte, was wir gerne speichern würden, dann gibt es irgendwelche Schemata, gegen die wir validieren können oder wollen. Und die Schemata brauchen wir natürlich. Und ein Stück weit davon, ein Stück weit können wir die im Zweifelsfalle selbst finden, weil in XML sind die direkt verlinkt, wenn sie zugänglich sind. Es gibt leider auch oft genug Leute, die dann ihre Schemata nicht öffentlich machen. Und dementsprechend kann man sich darüber streiten, ob man verlangen kann, und es gibt Leute schon, wenn sie zum Beispiel XML-Dateien deponieren wollen, immer auch ihre Schemata mitliefern. Und aus diesen Daten, die man von den Erstellern erhält, versucht man dann etwas zu bauen, was man bei sich archiviert. Das heißt, man nimmt diese Daten, transformiert sie ein bisschen, erweitert sie ein bisschen und kommt dann in etwa zu grob wieder dem. Also die Catalogmetadaten sind einfach genau das Gleiche, was wir bekommen haben. Aber zusätzlich müssen wir noch Archivmetadaten dazu schreiben. Wenn wir zum Beispiel Dateien konvertieren, müssen wir dazu schreiben, wann wurden welche Dateien, warum konvertiert oder allgemein, wenn sich Daten ändern, müssen wir jede Änderung irgendwo logisieren, um sie nachvollziehbar zu machen. Dann, wenn die Daten im Archiv sind, dann brauchen wir definitiv eine Zugriffsliste. Und im Idealfall oder im häufigsten Fall ist es relativ einfach, so Dinge wie wer darf darauf zugreifen, entweder jeder oder andere akademische Einrichtungen oder vielleicht nicht kommerzielle Einrichtungen nur Leute, die einen Vertrag dazu unterschrieben haben. Oder im schlimmsten Falle niemand, weil zu viele Personen bezogen mit Daten drin sind und eigentlich absolute Albtraum die Daten irgendwie rausgeben zu wollen. Und jetzt, wenn wir die Daten wirklich Langzeit archivieren wollen, dann sollten wir zum Beispiel die Schema damit speichern, weil wir einfach nicht wissen, dass nicht wissen können, ob die URL, wo das Schema irgendwann mal existiert hat, auch in 15 oder 20 Jahren noch existiert. Und darauf sollten wir uns einfach auch nicht verlassen. Dementsprechend wenn die Daten ins Archiv kommen, lädt man im Zweifelsfall alle extenen Referenzen runter und speichert sie mit. Und dann gibt es noch den Punkt, dass man verschiedene eigentlich Darstellungen der Daten speichern kann. Zum Beispiel das Einfachste ist eben die schon genannte Bitstream Preservation. Man speichert einfach die Daten bittweise, genauso wie man sie bekommen hat. Das ist immer eine gute Idee, weil egal was man mit den Daten danach später macht, man hat immer noch die Ursprungsdaten. Und dann kann man weitere Repräsentationen dazu packen. Zum Beispiel Konvertierungen. Oder eben diese Systememulationen. Dass man eben die Daten so anreichert und verschiedene Zugriffswege auf die Daten bereithält. Und was ich jetzt vergessen hatte, das Allerwichtigste was aber schon erstaunlich schwierig ist, sobald man Daten annimmt, braucht man natürlich eine Dateiliste. Das heißt, das Mindeste was wir von den Forschenden brauchen ist, welche Dateien gibt die uns eigentlich? Weil es unglaublich, wie viele Dateien, die nicht archiviert werden sollen, meist dann mit dabei sind. Aber wichtige Dateien fehlen dann, also relativ häufig passiert irgendwie Backup-Dateien Datei1.txt Datei1.txt Tilde. Und dementsprechend ist es schon sehr zwingend erforderlich eine Dateiliste zu haben. Und in diesem Beispiel-Format gibt es eine Datei, die heißt Manifest, die nicht nur die einfach eine Dateiliste ist, sondern auch die Prüfzumme dazu hat. Das heißt, wir wissen, welche Dateien sind dabei und wir können garantieren, dass genau die Dateien, die die Erstellenden übermitteln wollten, auch bei uns angekommen sind. Und muss ein Geständes machen. Ich habe mich etwas in der Zeit verschätzt. Ich bin nämlich schon quasi am Schluss. Das heißt, wir haben potenziell viel mehr Zeit für Fragen und Diskussion. Aber zum Abschluss noch ein XKCD um zurück zu unserem Forschungsdaten Kreislauf zu kommen. Denn das mostover ist, it is important to make sure your analysis destroys as much information as it produces. Und damit bedanke ich mich für eure Aufmerksamkeit und bin offen für Fragen. Ja, vielen Dank erstmal für den Vortrag. Du hattest jetzt dargestellt, dass es mehrere Möglichkeiten gibt, Forschungsdaten zu archivieren. Zum Beispiel, wenn jemand so eine komplette Instanz eines Vertriebssystems wechselt. Wenn man das jetzt über mehrere Forschungsinstitut hochskaliert und über die ganzen Jahre betrachtet, hat man ja eine ganze Mengenheterogen-Daten. Und wenn man jetzt zum Beispiel durch den zuvor einen wirren-Scanner auf dem System laufen zu lassen, wird irgendwann sagen, das was zu der Hasse ist, mehr oder minder alles hochgefährlich, das schmeißt sich weg. Wie geht man mit diesem Risiko aus IT-Sicherheitssicht um? Betrachtet man das nicht? Gibt es die Methodiken, wie man sagen kann, man will für das Archivsystem irgendwie die Gefahr reduzieren oder für die Forschungsdaten oder versucht man das so kriegen wie möglich? Welche Strategien verfragt ihr da? Also tatsächlich ist die von uns angestrebte Strategie, also wenn man diese volle System- Emulation macht, fallen ein Haufen Daten an. Oder man muss es irgendwie, also es gibt Ansätze, dass die Leute irgendwas stockerartiges verwenden, wo einfach nur das System beschrieben wird in der Hoffnung, dass das auch in der Zukunft dann funktioniert aus der Systembeschreibung, das System wieder hoch zu ziehen. Weil du hast das System nicht gespeichert, du weißt nur wie du es wieder aufbauen kannst. Oder was halt tatsächlich bevorzugt wird, ist einfach die Konvertierungsmethode. Wir wollen eigentlich nicht das ganze System mit sichern, wir wollen nur die Daten irgendwie darstellen können, also konvertieren, wie soweit das möglich ist. Und in meinem Forschungsbereich Daten zum Glück, eigentlich alles XML-Daten, das heißt wir haben dieses Problem eigentlich nicht wirklich mit dass wir das System mit sichern müssen. Erstens, vielen Dank. Ich habe zwei Fragen. Andererseits die Sache mit der Archivierung des Systems sorgt doch eigentlich nur, dass ich das Problem eine Stufe weiter nach hinten verlage, in der Hoffnung, dass das VirtualBox-Image, was ich heute gebaut habe, in 20 Jahren noch bootet oder ich noch irgendwas finde, wie ein VirtualBox das Ding wieder hochfahren kann. Erstens, wie geht man damit um? Und Frage Nummer 2 jetzt, wenn man konkret, wenn man das Video Beispiel nimmt. Also die Frage Kompression versus Rohdaten wenn man jetzt das Video Beispiel nimmt ich kann natürlich das Video abspeichern als eine Abfolge von TIFS die mehr ein dämliches Datenformat sind dass ich das mehr oder weniger mit einem Taschenrechner und bunter Farbe nachkochen kann aber dann dann geben mir die TAPES aus. Irgendwann versus ich speichere das Video und nehme Kompressionsatefakte in Kauf und verliere gegebenenfalls wertvolle Informationen, weil zum Beispiel keine Ahnung, die Bilder sehr verrauscht sind und ich damit um Rauschinformation erwarte wie geht man da mit der Archivierung weil das ist das mein Background ist Astrophysik und das ist da das größte Ding dass da halt Rohdaten einfach Gold sind. Also zum ersten ja, gibt es glaube ich keine gute Lösung aber wie gesagt, das ist auch nicht da bin ich kein Experte, weil das ist bei uns nicht der Use Case mit wie garantiert man, dass die Immunationslösung auch in Zukunft funktioniert außer man stellt einen langfristigen Entwickler ein der im Zweifelsfalle die Software weiterentwickelt, wenn sie gemals also ich glaube, es gibt tatsächlich auch Institute, die die Software, die sie irgendwann mal eingesetzt haben, tatsächlich weiterentwickeln nur damit die Daten auch lesbar sind. Zur anderen Frage kann ich auch nicht direkt darauf antworten, weil das ist in unserem Fall eigentlich schon ein Schritt vorher wo die Leute sich überlegen müssen was für Datenformate wollen sie verwenden also es gibt eigentlich auch ein bisschen sehr stark vernachlässigten Schritt mit der Planung der Forschungsdaten wo man sich vorher überlegt in welchem Format sollte ich es abspeichern die Daten die bei uns anfallen die bei uns eingereicht werden die sind ja schon irgendwie gespeichert und wenn wir eine mp4 kriegen werden wir sie nicht in irgendein Format konvertieren, was irgendwie lossless wäre weil wir kriegen die Informationen die verloren ist ja nicht wieder zurück oder besser gesagt bei Audio, wenn wir eine mp3 kriegen werden wir sie nicht als Wave speichern weil die Information ist weg wenn wir eine Wave kriegen werden wir natürlich versuchen die Wave zu speichern oder wir konvertieren sie zu flack aber wir werden sie nicht zur mp3 konvertieren weil wir dann wissen dass wir eventuell relevante Informationen verlieren aber das ist dann auch wieder ein Punkt der im Preservation Planning berücksichtigt werden muss was sind überhaupt brauchbare Zielformate wenn man konvertiert was ist denn im Moment das Verhältnis zwischen Daten und Metadaten vielleicht mal spezifisch in deinem Bereich also wieviel Prozent der gespeicherten Daten sind tatsächlich reale Forschungsdaten wieviel Prozent sind Vertierungen und Ähnliches da kann ich nicht direkt darauf antworten weil habe ich keine genauen Angaben aber das meiste sind tatsächlich Daten also wir haben zumindest in dem Bereich wo ich arbeite haben wir zum Glück kaum Daten ohne Metadaten das heißt es sind in den Dateien zum Beispiel Helder drin die Informationen zu beinhalten wo kommen die Daten her wer hat sie erstellt oder es gibt separate Metadatendateien aber das Verhältnis ist trotzdem es gibt deutlich mehr Daten als Metadaten weil man hat im seise Fall eine paar 100 megabyte Datei wo irgendwie wenn es hochkommt halbes megabyte megabyte Metadaten sind also das ganze Forschungsdatenmanagement wird mit Plänen inzwischen auch angefordert bei Forschungsprojekten ist eigentlich so üblich gibt es da schon Erfahrungen wie man das vernünftig umsetzt also ich meine da braucht man natürlich auch erstmal Nauhau und Personal und ab davon dass man irgendwo tatsächlich auch Systeme braucht IT also meine Erfahrungen nach es läuft sehr langsam an und ja es gibt irgendwelche also je nachdem wo man Projekt beantragt ist es notwendig aber soweit ich das sehen kann wird das Nauhau erst langsam aufgebaut und die meisten Leute haben leider gelinde gesagt keine Ahnung und schreiben halt irgendwie das hin was hoffentlich angenommen wird aber ich bin da jetzt auch nicht so tief in der Materie ich bin tatsächlich aktuell eher in diesem Archivierungs also das mit dem Forschungsdatenmanagement ist ja eher der erste Schritt den ich auch erwähnt hatte mit irgendwie die Leute sollten sich überlegen welche Formate sie haben wollen dazu gehört natürlich auch sie sollten sich überlegen wo die Daten hingespeichert werden da kollige ich das ein bisschen mit woran ich arbeite weil wenn mein System nicht funktioniert oder nicht überhaupt nicht existiert dann kann man die Daten halt auch nicht hinspeichern also da gibt es schon Interaktionen aber ich bin da in dem Thema nicht so nah dran das machen dann eben andere Leute tellenziell vielleicht anschließend an die an die Frage wie praktisch relevant sind so Dinge wie die NFDI also nationale Forschungsdateninfrastruktur auch bei der Beratung zu so einer Planung von Forschungsdaten Langstatt Archivierung und auch Formatierung vielen Dank übrigens für den Talk also ich hatte mir überlegt ob ich noch Dinge über die NFDI einbauen soll ich weiß nicht wie viele Leute hier darüber Bescheid wissen also es gab irgendwann vor gar nicht so langer Zeit die Vorstellung wir brauchen doch mal eine Forschungsdateninfrastruktur in Deutschland und gefühlt wurde das Ganze auf eine der kompliziertesten Art und Weise implementiert mit mehreren Förderrunden wo Themenbereichs spezifisch unter Projekte gefördert wurden die dann wieder federalisiert in der NFDI also es gibt verschiedene Ebenen also ich selbst bin Teil von text plus das ist das NFDI Teilprojekt für Text und Sprachdaten und ja so grundsätzlich ist der Plan da auch ein Beratungsangebot zu haben wie weit das aber aktuell umgesetzt wird bin ich ein bisschen skeptisch bin ich aber auch selbst nicht so involviert weil ich einfach genug Arbeit habe mit Lokal das Archivierungssystem aufzubauen dass ich tatsächlich auf Text plus und NFDI Ebene mich leider sehr zurückhalten muss wenn alles funktioniert gibt es dann direkt Ansprechpartner bei Text plus gibt es zum Beispiel ein Helpdesk wo man dann ein Ticket öffnen kann wo man sein Projekt vorstellen kann und hoffentlich findet sich dann eine Person die Ahnung hat von diesem Fall und meldet sich zurück und gibt Beratungen ich habe ein bisschen das Gefühl dass das ein bisschen hinterher hängt Danke erstmal für den Talk von personenbezogenen Daten schwierig ist wenn die in Daten enthalten sind kannst du was oder mehr dazu sagen wie das vorgehen ist gibt es da Möglichkeiten zu animisieren und gibt es da schon ein etabliertes Verfahren für Also es gibt verschiedene Möglichkeiten teilweise ist es zum Beispiel möglich okay das ist nicht so sehr mit personenbezogenen Daten mit urheberrechtlich geschützten Daten dass der Zugriff zum Beispiel nur also es gibt die deutsche Nationalbibliothek und es gibt Daten die kann man nur in der deutschen Nationalbibliothek direkt vor Ort abrufen das heißt wenn man irgendwie Daten sucht und das System sagt ich habe die Daten gefunden gibt es die Informationen aber du musst vor Ort sein musst in den Lesesaal gehen und dann kannst du die Daten lesen bei personenbezogenen Daten ist das wieder schwieriger weil da funktioniert diese Lösung nicht dann gibt es andere Lösungen zum Beispiel Anonymisierung, Pseudonymisierung das ist aber auch gefühlt ein sehr spannendes sehr großes Projekt was aber auch noch nicht gelöst ist also es gibt Leute die sich ausgiebig Gedanken gemacht haben und gerade also Anonymisierung ist halt wieder schwierig weil dann geht im Zweifelsfall zu viel relevante Informationen verloren und Pseudonymisierung ist schwierig weil ich kann zwar irgendwie erkennen dass es ein Eigenname und ich kann den Eigennamen durch einen anderen Eigennamen ersetzen aber ich muss halt auch im Zweifelsfall wissen was eigentlich das für ein Eigenname ist weil wenn sich das Geschlecht ändert die bedeutende Satz ist komplett ändern witzigerweise gibt es in Schweden jetzt ein neues Forschungsprojekt das sich genau damit beschäftigt und der Titel des Projektes ist Großmutter Karl ist 27 Jahre alt und das verdeutlicht ziemlich was eine der Herausforderungen bei Pseudonymisierung ist was tendenziell bei beiden Problemen angestrebt wird ist die sogenannten abgeleiteten Datenformate wo man versucht irgendwie die Daten so zu konvertieren dass man weder Urheberrecht verletzt noch irgendwie persönliche Daten persönliche Rechte verletzt aber auch da gibt es noch keine wirklich gute Antwort weil also der relativ neue vielversprechende Ansatz wäre man trainiert irgendwie eine neuronale Netzwerkarchitektur drauf aber leider hat sich gezeigt, dass man auch da sehr gut die Daten wiederherstellen kann selbst wenn man nur die Gewichte des neuronalen Netzes hat und da gab es wohl auch schon Fälle wo das schon ausreichend als ausreichend gewertet wurde für Urheberrechtsverletzung erst mal danke auch für den Talk eine kleine Frage wir hatten das ist das tolle Bild mit den alten digitalen mit allen analogen Papierzetteln gibt es bereits schon Inselprojekt und Insellösung um noch diese Datenmaschinen lesbar auch zur Verfügung zu stellen ohne jetzt abzutauchen in die tiefsten Metadaten davon und dann da vor Ort zu gehen oder sich es von jemandem einscannen zu lassen also je nach Finanzierungslage sind natürlich die Institutionen die solche Daten haben auch sehr dran interessiert die Daten zu digitalisieren und in vielen Bereichen ist das auch schon sehr weit fortgeschritten aber es ist natürlich ein Haufen Aufwand das heißt auf genug passiert es halt einfach dass die Daten da doch in irgendwelchen Umzugskisten im Keller stehen weil die Finanzierung nicht da ist und das betrifft alles was irgendwie analog gespeichert ist also bei uns im Haus gibt es wohl auch noch Turmbandaufzeichnungen und da ist dann potenziell das Problem dass Turmbänder auch nicht besser werden wenn man sie einlagert vor allem wenn man sie nicht perfekt einlagert und dann verkleben sie und also eigentlich gibt es schon einen gewissen Zeitdruck die Sachen zu digitalisieren weil auch Papier vergab vergammelt aber es ist primär eine Geldfrage also das Interesse ist üblicherweise da aber wenn kein Geld da ist, kann man auch nichts machen gibt es irgendeine sinnvolle Lösung oder Software um so in der eigenen Forschungsgruppe oder im eigenen Forschungsinstitut einfach nur zu dokumentieren wer welche Daten hat und wo die liegen um da irgendwie einen Überblick drüber zu behalten ich fürchte da habe ich keine wirklich gute Lösung anhand ja, darf ich auf Englisch schreiben? okay so, you're working on archival systems but i wonder how often do people actually use this archive data because like in my field for example when people put data in archive in an open access that means that this data is actually empty, there is nothing to find you can use it for educational purposes so i mean it's very nice that now money are coming in this field of data management that there is some hype around it but i wonder if it really makes sense to put so much money into this like do you have some statistics on how often this archive your supporting is used no, i don't have any statistics but i know that the data we try to preserve is very relevant because it's i think the largest collection of written German text encoded in a digital form so i think we have a few ten thousands of users actively using the webfront end to access the data and the archiving part is mostly to guarantee that the data will not be lost by any accident crash and so on so there is actually a separation into the access of the system or access of the data and the archival of the data sonst noch fragen ich könnte jetzt noch ein bisschen aus dem Nähkästchen plaudern weil eine Herausforderung ist natürlich wenn man die Daten von externen Datenquellen kriegt die Leute auch irgendwie davon zu überzeugen die Daten in einem vernünftigen Format zu kriegen und zum Beispiel die deutsche Nationalbibliothek archiviert viele Zeitungen aber die Zeitungsverlage übermitteln selbst die digitalen Zeitungen als fertig gelehrer oder PDF und wenn die deutsche Nationalbibliothek jetzt wieder was mit diesen Zeitungen machen will müssen sie im schlimmsten Falle das ganze wieder durch ein ORCR und Dokumentstrukturanalysesystem jagen um die Informationen die es ja eigentlich schon mal gab wieder aus diesem Dokument zu extrahieren weil einfach das Datenformat das zu ermitteln und verwendet wurde leider nicht geeignet ist oder einfach zu viel Daten verliert ja ich glaube das läuft immer drauf hinaus wir erfassen Archimeterdaten das ist auch so die Frage in der Institution wenn ich da Daten sortieren will ist das alles ja schön nur Metadaten hat noch niemand erfasst wo es aufwendig ist und das fällt dann meistens aus das ist dann meistens nicht mit ja da fehlt dann die Langfristigkeit auch der Übersicht vielleicht man braucht so für die eine Aufgabe und das ist dann schwierig das wirklich reinzubringen wie ist denn das bei den Daten die ihr habt wer fasst denn da die Metadaten also die Daten die wir in Haus primär haben die werden von eben unseren internen Gruppen korrektiert und die verwalten auch die Metadaten sonst ist natürlich die Metadaten Frage wieder diese Konflikt zwischen dem Archiv und den Forschenden dass das Archiv natürlich immer Metadaten haben will oder braucht und die Forschenden ist es immer mehr aufwand und selbst wenn die Software eine Schaltfläche hat Metadaten einfügen und dann muss man irgendwie 5 Felder ausfüllen die meisten Leute wissen entweder nicht dass es die Schaltfläche gibt oder sie ignorieren sie weil selbst diese 5 Felder ausfüllen ist ja gerade nicht so relevant und irgendwann später weiß man vielleicht auch nicht mehr und dementsprechend ist es ein bisschen die Rolle der Archive die Forschenden zu nerven und zu sagen übrigens es fehlen die Metadaten die Metadaten sind unvorständig die Metadaten sind problematisch aber dann hat man wieder das Risiko wenn man die Leute zu sehr nervt dass sie dann sagen na gut dann schicke ich halt die Daten nicht hin dann liegen die halt auf meinem Rechner also ich hab das auf diversen Konferenzen mitgekriegt es gibt halt diese 2 Sichtweisen die aus der aktiven Forschung und die aus den Archiven und es ist ein ziemlicher Balanceakt das irgendwie hinzukriegen und es gibt die Hoffnung dass vielleicht wenn man genug Maschinen-Learning drauf wirft man einige Dinge einfach nicht selbst angeben muss zum Beispiel Sprachen kann man theoretisch erkennen aber praktisch gesehen ist es halt doch besser wenn die Leute selbst sagen ich habe jetzt hier in meinem Datensatz Deutsch, Englisch oder vielleicht auch eine ganz wilde Sprache irgendwas eine Minderheitensprache in Russland da versagt dann halt der Sprache der Kenner im Zweifelsfalle doch wieder wenn es aktuell keine weiteren Fragen gibt dann bedanke ich mich nochmal für die Aufmerksamkeit und die spannenden Fragen und Diskussionen und wünsche euch noch einen schönen Tag