Neuronale Ansätze zur semantischen Analyse handschriftlicher Dokumentenbilder
dc.contributor.advisor | Fink, Gernot A. | |
dc.contributor.author | Tüselmann, Oliver | |
dc.contributor.referee | Fischer, Andreas | |
dc.date.accepted | 2024-10-31 | |
dc.date.accessioned | 2024-11-27T15:19:49Z | |
dc.date.available | 2024-11-27T15:19:49Z | |
dc.date.issued | 2024 | |
dc.description.abstract | In den letzten Jahrzehnten hat die weltweite Digitalisierung physischer Dokumente eine wichtige Grundlage für die langfristige Bewahrung und Zugänglichkeit von Informationen geschaffen. Die aktuelle Herausforderung besteht darin, Technologien zu entwickeln, die eine effiziente Durchsuchung und semantische Analyse dieser großen Datenmengen ermöglichen. Insbesondere handschriftliche Dokumente stellen dabei besondere Anforderungen, da sie oft nur als Bilddaten vorliegen und eine hohe Variabilität aufweisen. Diese Arbeit vergleicht zwei Ansätze zur semantischen Analyse handschriftlicher Dokumentenbilder: einen traditionellen Ansatz, der auf der Kombination von Handschriftenerkennung und Textanalyse basiert, und einen Ende-zu-Ende Ansatz ohne explizite Texterkennung. Im ersten Verfahren werden handschriftliche Bilddaten in maschinenlesbare Text umgewandelt und anschließend semantisch analysiert, was jedoch das Risiko von Fehlerfortpflanzungen birgt. Der alternative Ende-zu-Ende Ansatz löst das Problem der Fehlerfortpflanzungen, nutzt jedoch nicht die jüngsten Fortschritte aus dem Natural Language Processing Bereich. In mehreren Benchmarks wird das Potenzial beider Ansätze zur Analyse handschriftlicher Dokumentenbilder systematisch untersucht. Ein Hauptproblem für Ansätze ohne Texterkennung ist das Fehlen vortrainierter semantischer Wortbildrepräsentationen. Zur Lösung wird ein Ansatz zur cross-modalen Wissensdestillation vorgestellt, der semantische Informationen aus maschinenlesbaren Texten auf handschriftliche Bilder überträgt. Dazu werden handschriftliche Wortbilder mithilfe eines neuronalen Faltungsnetzwerks in einen textuellen semantischen Vektorraum eingebettet. Die Ergebnisse zeigen, dass diese Methode entscheidend für Ende-zu-Ende Modelle zur Erreichung des aktuellen Leistungsniveaus in der semantischen Analyse von handschriftlichen Dokumenten ist. | de |
dc.identifier.uri | http://hdl.handle.net/2003/42955 | |
dc.identifier.uri | http://dx.doi.org/10.17877/DE290R-24788 | |
dc.language.iso | de | |
dc.subject | Dokumentenanalyse | de |
dc.subject | Wissensdestillation | de |
dc.subject | Dokumentenverständnis | de |
dc.subject.ddc | 004 | |
dc.subject.rswk | Wissensextraktion | de |
dc.title | Neuronale Ansätze zur semantischen Analyse handschriftlicher Dokumentenbilder | de |
dc.type | Text | |
dc.type.publicationtype | PhDThesis | |
dcterms.accessRights | open access | |
eldorado.secondarypublication | false |