 In den letzten beiden Videos sind wir auf Modelle im Allgemeinen und auf Modelltraining eingegangen. Nun beschäftigen wir uns damit, wie sie die Erkennungsergebnisse und Modelle verbessern können. Eines vorweg, die Verbesserung von Erkennungsergebnissen ist ein sehr umfangreiches Thema. Im Rahmen dieses Videos werden wir daher ein paar Möglichkeiten skizzieren, diese aber nur bedingt in aller Tiefe erklären. Eine Möglichkeit, um ohne Training eines neuen Modells die Erkennungsergebnisse zu verbessern, besteht im Einsatz von Sprachmodellen. Sie ermitteln die Wahrscheinlichkeit einer Wortfolge und der häufigsten Kombination von Wörtern und Ausdrücken in einem bestimmten Kontext, um so auch schlecht erkennbare Wörter, kontextbasiert zu erkennen. So macht das Sinn, ein Sprachmodell zu verwenden, da es in der Regel die Erkennungsergebnisse eines Modells verbessert. Allerdings kann es auch vorkommen, dass der Einsatz eines Sprachmodells nicht zu einer Verbesserung der Ergebnisse beiträgt. Mit Sprachmodell dauert die Erkennung in der Regel merkbar länger. Neben Sprachmodellen können auch Wörterbücher verwendet werden. Im Gegensatz zu Sprachmodellen liefern diese dem Modell vordefinierte Wörter als Erkennungshilfe. Der Kontext wird hier allerdings nicht berücksichtigt. Doch auch hier muss der Effekt auf die Ergebnisse durch schlichtes Ausprobieren evaluiert werden. Das größte Verbesserungspotenzial ergibt sich im Rahmen des eigentlichen Modelltrainings. So ist zunächst die Wahl der passenden Erkennungs-Engine zu nennen. Bei einer kleinen Anzahl an Seiten liefert HDR Plus im Vergleich zu Pileier in der Regel bessere Ergebnisse. Vor allem bei großen inhomogenen Collections ist hingegen Pileier meist die bessere Wahl. Unter anderem liegt das daran, dass die Verwendung von Basemodels bei HDR Plus in der Regel ohne Probleme möglich ist. Bei Pileier hingegen nur in Ausnahmefällen. Eine weitere enorm wichtige Stellschraube stellen die Trainingsdaten selbst dar. Sind die Datenhomogen, also vom gleichen Schreiber oder aus der gleichen Epoche stammend, ist vor allem auf eine ausreichende Anzahl von Ground Truth Seiten zu achten. Wie bereits im letzten Video erwähnt, raten wir zu ca. 10.000 bis 20.000 händisch transkribierten Wörtern. Bei inhomogenen Sammlungen kommt neben der ausreichend großen Seitenzahl an Ground Truth hinzu, dass die Trainingsseiten repräsentativ für die zu transkribierende Collections sein müssen. Da inhomogene Collections oft von verschiedenen Schreibern stammen, sollte darauf geachtet werden, dass Pro-Schreiber ca. 30 Seiten im Trainingsset enthalten sind. Auch das Validation Set sollte repräsentativ sein. Als Faustformel gilt, je vielfältiger die Sammlung des Domair Ground Truths Seiten sind nötig. Ein weiterer Ansatz zur Verbesserung der Erkennung kann das Tagging, also das Auszeichnen von Textstellen sein, die bei der händischen Transkription nicht eindeutig zu lesen sind. Taggt man diese Stellen als Anklär, können diese Textstellen vom Training ausgeschlossen werden. Auf diese Weise wird das Modell nur anhand eindeutig identifizierbarer Wörter trainiert, wodurch es akkurater wird. Auch die Überprüfung und Anpassung von Baselines kann zu einer Verbesserung der Erkennungsergebnisse führen. Überprüfen Sie bei Ihren Trainingsseiten, ob die vom Layout Analysis Tool generierten Baselines an der richtigen Stelle sitzen. Hierbei passieren nämlich gelegentlich Fehler, wodurch z.B. Teile einer Zeile nicht von der Baseline abgedeckt werden, was die Modell-Training-Ergebnisse negativ beeinflussen würde. Für den Anfang ist es sinnvoll, bei den Trainingsparamitern die Standard-Einstellungen beizubehalten. Eine zu hohe Anzahl der Epochen bringt z.B. kaum eine Verbesserung und verlangsamt nur das Training. Auch Early Stopping sollte nur in Ausnahmefällen verändert werden. Dieser Wert bedeutet, dass das Training abgebrochen wird, wenn die Fehlerrate innerhalb der festgelegten Zahl an Epochen nicht mehr sinkt. Ein zu hoher Wert verlangsamt das Training und bringt in den allermeisten Fällen keine Verbesserung der Ergebnisse. Es ist anfangs verlockend, beim Validation Set zu sparen, um möglichst viele Seiten für das Training Set zur Verfügung zu haben. Das ist jedoch nicht empfehlenswert, da das Training zu früh stoppen kann, wenn das Validation Set zu klein ist und zu wenig variiert. Das Validation Set sollte idealerweise die Vielfältigkeit des Training Sets möglichst gut abbilden. Eine Möglichkeit zur Optimierung des Trainingsprozesses selbst ist die Durchführung eines mehrstufigen Trainings. So kann ein Training abhängig von der Größe der Sammlung beispielsweise zunächst mit 50 Seiten Ground Truth begonnen werden. Mit dem daraus entstandenen Modell können die nächsten 20 Seiten automatisch transkribiert und anschließend korrigiert werden. Diese neu transkribierten Seiten können dann wiederum dem Ground Truth ihres Modells hinzugefügt werden. Wiederholen Sie diesen Prozess so lange, bis Sie keine Verbesserung im Sinne von zunehmend weniger Fehlern bei jeder neuen Runde der automatischen Transkription mehr merken. Nun wissen Sie, wie Sie Ihre Erkennungsergebnisse verbessern können. Im nächsten Video gehen wir auf die Suchfunktionalitäten im Transkribus Expert Client ein.