 Sobald Sie Ihre Dokumente in Transkribus hochgeladen haben, können Sie mit der Segmentierung beginnen. Um Ihre Dokumente transkribieren zu können, müssen diese in die verschiedenen Layout-Elemente segmentiert werden. Wir unterscheiden die folgenden Layout-Elemente. Page – dies ist die höchste Hierarchie-Ebene und entspricht, wie der Name schon sagt, der gesamten Seite. Print Space – dies ist der Druckbereich, der sich von der gesamten Seite auch unterscheiden kann, hier in Violett gekennzeichnet. Text Regions – dies sind die Textregionen, in denen eine oder mehrere Zeilen Text vorhanden sind, in Transkribus an der Farbe grün zu erkennen. Line Regions – diese sind in Transkribus hellrot oder wenn Sie auf die Zeile klicken, hellblau gekennzeichnet. Sie stellen die Regionen der jeweiligen Zeilen dar. Zeilenregionen werden automatisch generiert und sollten auch nicht händisch angepasst werden. Baselines – das etwas dunklere Rot zeigt die jeweilige Baseline, also die Grundlinie einer Textseile an. Alle segmentierten Layout-Elemente werden mit ihren Koordinaten gespeichert, nachdem eine Layout-Erkennung durchgeführt wurde. Dies können Sie links im Layout-Tab auch sehen. Wie das geht, schauen wir uns gleich an. Zunächst gehen wir aber noch kurz auf das Anzeigen von Profilen ein. Für die verschiedenen Aufgaben, die Sie in Transkribus ausführen können, stehen unterschiedliche Ansichtsprofile zur Verfügung. Über die Schaltfläche Profiles im Hauptmenü können Sie zwischen Transcription und Segmentation wählen. Im Profil Transcription wird das Text-Editor-Feld angezeigt, indem die Transkription händisch oder mithilfe eines Modells eingefügt wird. Im Profil Segmentation werden hingegen die Baselines rot dargestellt, so dass Fehler, die durch die automatische Segmentierung entstanden sind, leichter erkennbar sind. Neben diesen beiden Profilen können Sie auch das Standardprofil verwenden, mit dem Sie beide Aufgaben erfüllen können. Nun sehen wir uns aber die automatische Erkennung von Textregions, LineRegions und Baselines an. Diese Segmentierung ist grundsätzlich der erste Schritt vor jeder maschinellen oder händischen Transkription. Dazu wechseln Sie in den Reiter Tools und gehen dort in den Abschnitt Layout Analysis. Unter Method sollte bereits ZITLAB Advanced ausgewählt sein. Des Weiteren können Sie festlegen, ob Sie die Layout Analyse nur für die aktuelle Seite, für einzelne Seiten oder das gesamte Dokument durchführen möchten. Setzen Sie den Haken bei FindTextRegions und klicken Sie auf Run, um die automatische Segmentierung zu starten. Sollten Sie TextRegions von Hand einzeichnen und anschließend in diesen nach Baselines suchen wollen, deaktivieren Sie bitte die Option FindTextRegions, bevor Sie die Layout Analyse starten. Korrigieren der Ergebnisse der automatischen Segmentierung. Es kann vorkommen, dass sich Fehler bei der automatischen Segmentierung einschleichen. Dies kommt tendenziell eher bei komplizierten Layouts wie etwa Tabellen vor. Bei einfachen Layouts wie etwa den Liebesbriefen von OPA an OMA, sollten normalerweise keine großen Layout Fehler auftauchen. Um diese zu kontrollieren oder anzupassen, wechseln Sie bitte ins Ansichtsprofil Segmentation. Bitte beachten Sie, dass die Position der TextRegions nicht ganz exakt sein muss und die Lesereinfolge des Textes nicht relevant ist, wenn Sie ein HDR-Modell trainieren. Wenn Sie jedoch an einer wissenschaftlichen Ausgabe arbeiten, bei der ein höherer Grad an Genauigkeit erforderlich ist, ist es möglich, den Text manuell zu korrigieren. Alle Werkzeuge für Korrekturen an der Layout Analyse finden Sie im Canvas-Menü links neben dem Bild. Um die Funktion der verschiedenen Werkzeuge zu illustrieren, hier einige Beispiele. Hat die automatische Segmentierung eine Zeile übersehen, können Sie diese in die vorhandene TextRegion einfügen, indem Sie in den Bereich klicken, sodass er hervorgehoben wird und anschließend den Rand der TextRegion nach Bedarf ziehen. Wenn Sie eine TextRegion in zwei Regions aufteilen möchten, können Sie dies über die Schaltflächen des Canvas-Menüs tun. Die Haarschaltfläche teilt eine TextRegion horizontal auf, die V-Schaltfläche hingegen vertikal. Mit der L-Schaltfläche können Sie eine TextRegion mit einer einstellbaren Linie aufteilen. Weiß Transkribus kleine, unnötige TextRegions aus, können diese gelöscht werden. Klicken Sie dazu auf die TextRegion, die Sie löschen möchten und klicken Sie auf die rote Schaltfläche Remove a Shape. Werden bei der automatischen Segmentierung zwei TextRegions erzeugt, obwohl nur eine nötig wäre, können diese zusammengeführt werden. Halten Sie dazu die Steuerungstaste auf Ihrer Tastatur gedrückt, während Sie beide TextRegions anklicken. Anschließend klicken Sie auf die Schaltfläche Merge the Selected Shapes in Canvas-Menü. Natürlich ist es auch möglich, die Baselines in Ihrem Dokument zu korrigieren. Wie bei den TextRegions klicken Sie auf eine Baseline, woraufhin Sie Teile der Linie ziehen, die Linie teilen oder zwei Linien zusammenführen können. Zudem können Sie auch Linien löschen oder eine Baseline von Grund auf neu zeichnen. Klicken Sie dazu im Canvas-Menü auf die Schaltfläche plus bl. Klicken Sie einmal, um mit dem Zeichnen Ihrer Baseline zu beginnen und klicken Sie doppelt, um diese Linie zu beenden. Bitte beachten Sie, dass Baselines für die HDR am wichtigsten sind. LineRegions hingegen müssen nicht korrigiert werden. Ein wichtiger Hinweis an dieser Stelle. Wenn man eine manuelle Baseline erstellt, erscheint ein Dialogfeld, das fragt, ob auch eine Parentline erstellt werden soll. Dasselbe beim Löschen einer Baseline. Es ist wichtig, dieses Fenster zu bestätigen. Korrekturen sollten immer an den Baselines und nie an den LineRegions gemacht werden. Die LineRegions werden von Transcribos immer automatisiert im Hintergrund erstellt und werden bei Korrekturen automatisch angepasst. Nun kennen Sie sich mit der Layout-Analyse im Transcribos Expert-Client aus. Beim nächsten Video widmen wir uns der automatischen Texterkennung.