 Um eine Texterkennung von Handschrift, Maschinenschrift oder auch Druckschrift durchführen zu können, muss Transcribus, sofern nicht schon ein passendes Modell vorhanden ist, zunächst trainiert werden. Wie das Training von solchen Modellen im Detail funktioniert, behandeln wir im nächsten Video. Ein großer Vorteil der Transcribus-Plattform sind jedoch die vielen Public-Models, also öffentlich verfügbare Transkriptionsmodelle, die bereits von anderen Nutzerinnen trainiert und der Öffentlichkeit zur Verfügung gestellt wurden. Wenn Sie bereits ein Modell trainiert oder ein Public-Model gefunden haben, das für Ihr Material gut geeignet ist, können Sie dieses verwenden, um automatisch Transkripte der Dokumente in Ihrer Sammlung zu erzeugen. Dazu sind folgende Schritte nötig. Zunächst sollten Sie Ihre Dokumente in eine Ihrer Collections hochgeladen und die automatische Layout-Analyse durchgeführt haben. Wie dies funktioniert, haben wir bereits in den vorigen beiden Videos gezeigt. Nachdem Sie diese Vorbereitungen getroffen haben, kann es losgehen. Um die Erkennung zu starten, klicken Sie auf die Registerkarte Tools und gehen Sie zum Abschnitt Text Recognition. Klicken Sie auf Run und dann auf Select HDR Model. Legen Sie zunächst oben links in der Auswahlzeile fest, welche Modelle Sie angezeigt bekommen möchten. Sie können zwischen All, In Collection und Public Models wählen. Unter All sehen Sie alle Modelle, die Sie verwenden können. Durch die Option In Collection sehen Sie nur noch die Modelle, die für die aktuelle Collection verfügbar sind. Dies ist z.B. hilfreich, wenn Sie mit anderen gemeinsam an einer Collection arbeiten und dafür ein eigenes Modell trainiert haben. Unter Public Models sehen Sie alle öffentlich verfügbaren Modelle. Auf der Transkribus-Plattform stehen Ihnen zwei Text-Erkennungs-Engines zur Verfügung. HDR Plus sowie PyLayer. Auf Basis beider Erkennungs-Engines können Modelle trainiert und auch verwendet werden. Die Wahl der Erkennungs-Engine legt auch fest, wie viele Credits für die Text-Erkennung verbraucht werden. So verbraucht HDR Plus 25% mehr Credits als PyLayer. Hierzu ist noch zu ergänzen, dass beide Engines auf ähnliche Art und Weise funktionieren und auch die Ergebnisse in der Regel ähnlich sind. Für all jene, die in diese Materie noch tiefer eintauchen möchten, bietet PyLayer zusätzliche Möglichkeiten durch Parameter, die angepasst werden können. Wählen Sie nun das gewünschte Modell aus der Liste auf der linken Seite des Bildschirms aus. Hier sehen Sie die jeweiligen Namen der Modelle sowie weitere Informationen. So sehen Sie etwa die Sprache, den oder die Kuratorin des Modells, die Erkennungs-Engine, das Datum der Erstellung und die Anzahl der Wörter, die zum Trainieren des Modells verwendet wurden. Zudem sehen Sie die sogenannte CER, also die Fehlerquote des Modells, in Bezug auf das Trainings-Set sowie das Validierungs-Set. Auf der rechten Seite des Auswahl-Dialogs werden Ihnen weitere Details zum gewählten Modell angezeigt, unter anderem die Learning Curve, anhand derer Sie die Qualität des Modells einschätzen können. Wie akkurat das gewählte Modell arbeitet, wird, wie eben genannt, in der Character Error Rate CER angezeigt, also wieviel Prozent der Zeichen vom Modell falsch transkribiert wurden. Eine CER von 5 Prozent bedeutet im Umkehrschluss eine Genauigkeit von 95 Prozent. Zu beachten ist, dass diese Angaben immer in Bezug auf das Trainings- bzw. das Validierungs-Set zu verstehen sind. Das Validierungs-Set ist dabei eine Stichprobe aus dem Ausgangsmaterial, die nicht für das Training verwendet wurde. Die Daten aus dem Validierungs-Set sollten so fehlerfrei wie möglich von Hand transkribiert worden sein. So lässt sich der Vergleich zwischen maschineller und händischer Transkription ziehen, um schließlich die Genauigkeit der maschinellen Transkription zu ermitteln. Besonders bei der Auswahl von Public Models sollten Sie zunächst immer einen Test mit einer kleinen Anzahl von Seiten machen, um zu sehen, wie gut sich ein Modell für Ihr Material eignet. Aufgrund einer Vielzahl von Faktoren wie etwa der Materialbeschaffenheit, der Handschrift oder der Scan-Qualität können die erzielten Ergebnisse auch stark von der Validierungs-CER abweichen. Tendenziell sind Modelle, die mit Mehrwörtern trainiert wurden, also größere Modelle, robuster und können auch Handschriften, die nicht in den Trainingsdaten enthalten sind, gut erkennen. Die niedrigste Fehlerquote haben in der Regelmodelle, die Sie speziell für Ihr Material und die Handschriften darin trainiert haben. Haben Sie aber erst einmal das Modell ausgewählt, das Sie nutzen möchten, klicken Sie auf OK. Nun können Sie auswählen, ob Sie nur die aktuelle Seite, mehrere Seiten oder ganze Dokumente aus Ihrer Collection automatisch transkribieren lassen möchten. Hier finden Sie außerdem weitere fortgeschrittenen Optionen, die Sie je nach Anforderungen verwenden können. So können Sie zum Beispiel die Texterkennung auch nur auf ausgewählte Struktur-Tags, wie etwa Überschriften oder Absätze anwenden. Diese müssen aber vorher als solche im Layout gekennzeichnet worden sein. Um die Erkennung zu starten, drücken Sie OK und ja im darauffolgenden Dialogfeld. Damit haben Sie auch schon den Erkennungsjob auf dem Transkribusserver angelegt. Dieser wird dann so schnell wie möglich von Transkribuss abgearbeitet. Den Status Ihrer automatischen Transkription können Sie immer über den Jobs-Button im Hauptmenü überprüfen. Besonders bei größeren Erkennungsjobs ist diese Funktion hilfreich, um zu sehen, wie weit fortgeschritten ein Job bereits ist. Sobald die Erkennung abgeschlossen ist, wird die automatische Transkription im Text-Editor-Feld angezeigt. Wechseln Sie dazu in das Ansichtsprofil Transcription. Nun wissen Sie, wie die automatische Texterkennung in Transkribuss funktioniert. Im nächsten Video gehen wir auf die verschiedenen Arten von Modellen ein.