Neues Projekt an der Uni Passau: Handschriftenerkennung revolutioniert Forschung!
Passau, Deutschland - Ein neues Projekt an der Universität Passau, geleitet von Prof. Dr. Malte Rehbein und Prof. Dr. Alexander Werth, zielt darauf ab, die Herausforderungen der automatischen Handschriftenerkennung (HTR) besser zu verstehen. Mit dem Projekt namens „Methodology of the Inaccurate“, das im Rahmen der VolkswagenStiftung gefördert wird, wird von 2025 bis 2027 untersucht, inwieweit gute Wissenschaft auch mit fehlerhaften Daten umsetzbar ist. Hierbei werden historisch relevante Ratsprotokolle aus dem 17. bis 19. Jahrhundert analysiert, die mit einer automatischen Genauigkeit von etwa 90 % transkribiert wurden.
Das Ziel des Projekts ist die Nutzbarmachung dieser automatisch transkribierten Daten für die Forschung, insbesondere in der historischen Graphematik. Zum Vergleich werden die automatischen Transkriptionen mit manuell erstellten Daten verglichen, die eine Genauigkeit von 100 % aufweisen. Dieses Vorhaben ist Teil des neu gegründeten Wissenschaftszentrums „Methodikum“, das methodologische Grundlagenforschung in den Geisteswissenschaften anstrebt und Unterstützung für digitale Methoden bietet.
Herausforderungen bei der Handschriftenerkennung
Tobias Hodel vom Staatsarchiv Zürich bestätigt, dass die Menschen zwar gut in der Lage sind, Handschriften zu entziffern, Maschinen jedoch noch vor erheblichen Herausforderungen stehen. Dies wird besonders deutlich im Kontext des Projekts READ, das von der Europäischen Kommission gefördert wird und darauf abzielt, die Automatisierung der Handschriftenerkennung für große Mengen an Dokumenten voranzutreiben. Das Projekt läuft bis Mitte 2019 und nutzt die Software Transkribus, um den gesamten Workflow zu erleichtern, der die Erstellung von Trainingsdaten und die anschließende Transkription umfasst.
Die Archivdokumente, die oft als unkomprimierte Bilder gespeichert sind, müssen transkribiert werden, was zeitintensiv und kostspielig ist. In der HTR sind sowohl die Layout-Erkennung als auch die Handschriftenerkennung entscheidend. Diese Technologien arbeiten ähnlich wie die Optical Character Recognition (OCR), sie sind jedoch spezifisch auf den Umgang mit Handschriften ausgelegt. Hierbei sind Algorithmen, die auf künstlichen neuronalen Netzen basieren, notwendig, um die Lernfähigkeit der Maschinen zu gewährleisten.
Die Entwicklung der HTR-Technologie
In den letzten Jahren hat sich die HTR-Technologie durch die Verfügbarkeit von digitalisierten handschriftlichen Materialien und leistungsfähigeren Computern erheblich verbessert. Ein Beispiel dafür ist die analysierte Schrift von Johannes Gessner aus dem 18. Jahrhundert. Über 100 KI-Modelle stehen zur Verfügung, von denen 16 eine Character Error Rate (CER) von unter 1 % aufweisen. Diese Fortschritte zeigen, wie die Digitalisierung die Effizienz der Transkription steigern und die Anzahl verfügbaren historischer Quellen erhöhen kann.
Transkribus ermöglicht das Hochladen, Segmentieren, Transkribieren und Exportieren von Dokumenten in verschiedenen Formaten. Um eine akzeptable Fehlerquote zu erreichen, wird empfohlen, zwischen 5.000 und 15.000 Wörter als Trainingsdaten zu nutzen. Trotz aller Fortschritte bleibt eine Fehlerquote von 0 % nach wie vor unerreichbar. Aktuell liegt der akzeptable Grenzwert für menschliche Transkriptionen unter 10 %.
Zusammenfassend lässt sich sagen, dass die automatisierte Handschriftenerkennung ein bedeutendes Werkzeug für Archive, Bibliotheken und wissenschaftliche Institutionen darstellt, das in Zukunft noch weiter optimiert werden kann. Die Promotion effizienter Transkriptionsmethoden wird für die historische Forschung von zentraler Bedeutung sein, um den Zugang zu wertvollen handschriftlichen Dokumenten zu erleichtern.
Weitere Details zu den Fortschritten in der Handschriftenerkennung und zu den Forschungsprojekten finden Sie auf den Seiten von dhc.hypotheses und in der Publikation von BOP UniBE.
Details | |
---|---|
Vorfall | Sonstiges |
Ort | Passau, Deutschland |
Quellen |