 Die Transkribus-Plattform gibt dir Nutzern die Möglichkeit, selbst Modelle zu trainieren. Auf diese Weise lernt die künstliche Intelligenz von Transkribus handschriftliche Texte automatisch zu erkennen und zu transkribieren. Das Ziel für die trainierten Modelle ist dabei, möglichst wenig Fehler bei der Transkription einer bestimmten Art von Dokumenten zu machen. Als Faustregel gilt, am besten funktioniert ein speziell auf das zu verarbeitende Material trainiertes Modell. Ein Modell also, das mit einem kleinen, idealerweise repräsentativen Teil des gesamten Korpus trainiert wurde. Von Vorteil ist dabei, wenn ihre Dokumente möglichst homogen sind, sprich von derselben Person geschrieben wurden oder aus einer bestimmten Zeit stammen. Aber keine Sorge, wie im vorherigen Video bereits gezeigt, gibt es mittlerweile auch öffentliche Modelle, die von vornherein ein breites Spektrum an Dokumenten erkennen können. Um das Modelltraining anzuwenden, müssen Sie zunächst Ihre Dokumente, auf die Sie das Modell trainieren möchten, hochladen und eine Layout-Analyse durchführen. Danach können Sie mit der manuellen Transkription und somit der Erstellung der Trainingsdaten beginnen. Manuell transkribierte Texte sind die Grundlage für das Trainieren Ihres Modells. Wir empfehlen Ihnen, die Transkription von 10-20.000 Wörtern händisch durchzuführen, um ein gut funktionierendes Modell zu trainieren. Bei der Erstellung der Trainingsdaten sollten Sie versuchen, die Transkription möglichst fehlerfrei zu erstellen. Haben sich bei den Trainingsdaten Fehler eingeschlichen, so hat dies auch Auswirkungen auf das trainierte Modell. Problematisch wird es vor allem, wenn Sie einen Fehler mehrmals machen, also wiederholen. Diesen Fehler wird sich das Modell dann auch zu eigen machen. Kurz gesagt, je besser die Trainingsdaten, auch Ground Truth genannt, desto besser das Modell. Nun aber zum eigentlichen Training. Klicken Sie zunächst auf die Registerkarte Tools und gehen Sie in den Abschnitt Text Recognition. Vergewissern Sie sich, dass bei Method HDR ZLab HDR Plus und PyLayer ausgewählt ist. Klicken Sie nun auf die Schaltfläche Train, um das Dialogfeld für Modelltraining zu öffnen. Zu Beginn haben Sie die Möglichkeit, einen Namen, die Sprache und eine Beschreibung für Ihr Modell anzugeben. Im nächsten Schritt wählen Sie PyLayer oder HDR Plus als Erkennungs-Engine aus. Für dieses Video nutzen wir die PyLayer Erkennungs-Engine. Vergewissern Sie sich bitte, dass Sie dazu die PyLayer Registerkarte ausgewählt haben. Hier können nun Parameter eingegeben werden, die für das Training relevant sind. Für den Anfang können Sie die Standard-Einstellungen beibehalten. Wenn Sie genau wissen möchten, was diese Einstellungen bewirken, schauen Sie gern in unserem How-To-Guide auf readcore.eu vorbei. Neben diesen Einstellungen stehen Ihnen noch Advanced Parameters zur Verfügung. Diese in diesem Video zu behandeln, würde allerdings zu weit führen. Genaue Beschreibungen, was die einzelnen Einstellmöglichkeiten dieses Dialogfelds bewirken, finden Sie ebenfalls in unserem How-To-Guide auf readcore.eu. Im nächsten Schritt wählen Sie die Seiten aus, die Sie in Ihren Trainingsdatensatz aufnehmen möchten. Sie können alle Seiten eines Dokuments zum Training-Set hinzufügen, indem Sie den Ordner auswählen und auf Plus Training klicken. Sie haben aber auch die Möglichkeit, einzelne Seiten auszuwählen, indem Sie per Doppelklick Ihren Dokumentenordner öffnen und die entsprechenden Seiten einzeln oder durch den Einsatz der Steuerung bzw. Umschalt-Taste auswählen. Klicken Sie anschließend auf Plus Training. Nun werden die ausgewählten Seiten im Bereich Training-Set angezeigt. Während des Trainingsprozesses wird ein Validierungsset von Dokumentenseiten festgelegt, das nicht für das Training des Modells verwendet wird. Diese Testseiten werden verwendet, um die Genauigkeit Ihres Modells zu beurteilen. Wir empfehlen, dass Sie mindestens eine Testseite für jeweils 50 bis 100 Seiten Ihres Trainingssets auswählen. Die Seiten in Ihrem sogenannten Validationsset sollten repräsentativ für die Dokumente in Ihrer Sammlung sein. Sollten Sie also vielfältiges Material transkribieren, suchen Sie auch die Validierungsseiten ähnlich vielseitig zu gestalten, um eine aussagekräftige Evaluation Ihres Modells zu ermöglichen. Um Seiten zum Validationsset hinzuzufügen, folgen Sie demselben Prozess wie für das Trainingset. Klicken Sie allerdings auf die Schaltfläche Plus Validation. Bitte beachten Sie, dass die Seiten im Validationsset nicht im Trainingset enthalten sein dürfen und somit auch nicht im Bereich Trainingset angezeigt werden. Wichtig hier um für Trainings im Allgemeinen, das Validationsset muss repräsentativ sein und sollte möglichst alle Elementtypen der im Trainingset enthaltenen Dokumente abdecken. Bitte beachten Sie, wenn es keine oder nur wenig Variation im Validationsset gibt, stoppt das Modell möglicherweise zu früh. Wenn Ihr Validationsset eher klein ist, bitte den Early Stopping Wert, um zu vermeiden, dass das Training stoppt, bevor es alle Trainingsdaten gesehen hat. Fazit daraus, sparen Sie nicht am Validationsset. Es gibt auch Möglichkeiten, einzelne Seiten wieder aus dem Training oder Validationsset zu entfernen. Markieren Sie dazu die entsprechende Seite und klicken Sie auf die Schaltfläche Remove Selected Entities from Trainingset bzw. Validationsset. Wenn Sie mit Ihrer Auswahl zufrieden sind, starten Sie das Training, indem Sie die Schaltfläche Train klicken. Den Fortschritt Ihres Trainings können Sie unter Jobs im Riderserver abrufen. Der Abschluss jeder Epoche, diese können Sie als Trainingsdurchläufe verstehen und der Abschluss des Trainingsvorgangs an sich, wird hier angezeigt. Bitte beachten Sie, dass das Training bis zu mehreren Tagen dauern kann. Während der Trainingsprozess läuft, werden Ihren Dokumenten in Transkribus parallel weiterarbeiten und das Programm auch schließen, ohne dass der Prozess unterbrochen wird. Alle Prozesse, für die in Transkribus ein Job gestartet wird, laufen auf den Transkribus Servern und somit unabhängig von der Anwendung auf Ihrem Computer. Alle Jobs können stets über das Jobsfenster überwacht werden. Sobald das Training abgeschlossen ist, erhalten Sie eine E-Mail-Benachrichtigung. Nach Abschluss des Trainings ist das neue Modell in Ihrer Sammlung verfügbar. Sie finden es in der Registerkarte Tools im Bereich Text Recognition mit einem Klick auf die Schaltfläche Models. Wählen Sie nun Ihr selbst trainiertes Modell in der Liste aus, sehen Sie auf der rechten Seite die entsprechenden Eigenschaften. Bitte beachten Sie, dass zunächst jedes selbst trainierte Modell als Handwritten eingestuft wird. Haben Sie allerdings ein Modell für gedruckten Text trainiert, bitten wir Sie sich mit einer kurzen E-Mail an info.readcorp.eu zu wenden. Dann wird überprüft, ob das Modell tatsächlich als Printmodell eingestuft werden kann. Dies hat auch Einfluss auf den Creditverbrauch während der Nutzung des Modells. Sehen wir uns noch kurz an, wie Sie die Genauigkeit bzw. die Qualität Ihres Modells überprüfen können. Unten rechts befindet sich die Learning Curve, also die Lernkurve Ihres Modells. Diese zeigt an, wie sich die Character Errorate kurz CER während des Trainings entwickelt hat. Je niedriger die CER, desto weniger Fehler macht das Modell. Bitte beachten Sie, dass die CER Validation deutlich aussagekräftiger ist als die CER Train. Die CER Validation zeigt Ihnen nämlich die Fehlerquote in Bezug auf das Validierungsset, das zu Beginn ausgewählt und vom Trainingsprozess ausgenommen wurde. Wenn Sie nun Ihr selbst trainiertes Modell auswählen, können Sie es wie jedes andere Modell für die Erkennung Ihrer Dokumente verwenden. Zudem gibt es die Möglichkeit, Ihr selbst trainiertes Modell der Öffentlichkeit zugänglich zu machen. Zum Abschluss dieses Videos haben wir noch einige Hinweise, die eventuell hilfreich sein können. Es gibt die Möglichkeit, in speziellen Fällen Wörterbücher und Sprachmodelle zu verwenden. Zudem gibt es die Möglichkeit, T2I zu verwenden, wenn Sie Ihre Transkriptionen bereits außerhalb von Transkribus fertiggestellt haben. T2I matcht die Scans Ihrer Dokumente mit dem von Ihnen transkribierten Text. Weitere Informationen zu diesen Möglichkeiten finden Sie im How To Guide auf readcorp.eu. Nun wissen Sie, wie Sie Ihr eigenes Modell erstellen können. Im nächsten Video widmen wir uns der Verbesserung von Erkennungsergebnissen und Modellen.