Ein generischer Ansatz zur digitalen Layoutanalyse von Manuskripten

Herzog, Rainer

Titel:	Ein generischer Ansatz zur digitalen Layoutanalyse von Manuskripten
Sonstige Titel:	A Generic Approach to Digital Layout Analysis of Manuscripts
Sprache:	Deutsch
Autor*in:	Herzog, Rainer
Schlagwörter:	Gabor-Transformation; Textblocksegmentierung; Gabor transform; text block segmentation
GND-Schlagwörter:	BildverarbeitungGND Manuskript Dokumentanalyse Layout Frequenzanalyse
Erscheinungsdatum:	2018
Tag der mündlichen Prüfung:	2018-11-28
Zusammenfassung:	In dieser Arbeit wird ein Ansatz zur Layouterkennung von digitalisierten Manuskripten vorgestellt. Die Bestimmung des Layouts liefert einerseits Manuskriptforschern wertvolle Hinweise auf kulturelle Zusammenhänge, kann andererseits auch innerhalb einer Verarbeitungskette nützlich sein, die eine darüber hinausgehende computerbasierte Auswertung von Manuskripten erlaubt. Im Vergleich zu bisherigen Ansätzen liegt der Fokus dieser Arbeit auf der universellen Anwendbarkeit. Es werden keine Vorannahmen bezüglich Schreibsystem, Dokumentenformaten oder Layouteigenschaften, wie etwa der Annahme eines einzigen Haupttextbereichs, gemacht. Vor der Anwendung dieses Verfahrens auf beliebige Manuskriptseiten ist keine Trainingsphase vorgesehen. Dabei soll das Verfahren robust gegenüber Störungen wie Flecken oder Rissen sein, wie sie bei historischen Manuskripten häufig auftreten. Auf der theoretischen Basis der Gabor-Transformation wird experimentell untersucht, wie die grundlegende Eigenschaft von mehrzeiliger Schrift, die ein abwechselnd helles und dunkles streifenförmiges Muster darstellt, zur Layoutanalyse von Manuskripten geeignet ist. Die Gabor-Transformation lässt durch Anwendung einer Fensterfunktion eine lokal eingeschränkte Merkmalsextraktion einzelner Manuskriptregionen zu. Im hier entwickelten Verfahren wird die Antwort der Gabor-Transformation im Frequenzraum in drei Bänder unterteilt und durch eine Kombination ihrer Antworten werden die jeweiligen Vorteile dieser Bänder bezüglich Orts oder Frequenzauflösung vereint. Nach systematischer Verringerung der Auflösung der Manuskriptbilder sowie anschließender Analyse unter einheitlicher Fensterfunktion werden die Auswertungen zusammengefasst und lassen so eine Untersuchung von Regionen nahezu beliebiger Textgröße zu. Daraus werden die Abgrenzung von Schrift zum Hintergrund ermittelt, sowie die durchschnittliche Zeilenorientierung und der durchschnittliche Zeilenabstand von Textregionen. Eine Abgrenzung innerhalb der Textregionen hin zu einzelnen Textblöcken erfolgt darauf anhand lokaler Unterschiede der Zeilenstruktur, unter der Annahme, dass diese innerhalb eines Textblocks weitgehend einheitlich ist. Für jeden so ermittelten Textblock können Eigenschaften wie Position, Größe, Zeilenorientierung und Zeilenabstand bestimmt werden. Um eine Validierung des entwickelten Verfahrens im Sinne eines Vergleichs mit einer Ground Truth zu ermöglichen, wurde ein Testdatensatz von annotierten Manuskriptbildern benötigt. Dieser sollte die Anforderungen an das entwickelte System hinreichend überprüfen können, daher sollte er ein breites Spektrum an unterschiedlichen Herausforderungen enthalten. Da ein derartiger Testdatensatz nicht vorhanden war, wurde für die Validierung ein Datensatz erstellt, der aus 50 Manuskriptseiten besteht. Anhand des Testdatensatzes wurde das entwickelte Verfahren analysiert. Die Ergebnisse werden detailliert ausgewertet. This thesis is concerned with the layout analysis of digitized manuscripts. By determining layout features, scholars can derive valuable insights regarding the cultural and historic context of manuscripts. The approach developed in this thesis can also be installed within a process chain to support various kinds of advanced computer-assisted manuscript examinations. Compared to other existing approaches, the aim of this work is the versatile application on nearly all kinds of manuscripts. No assumptions are made regarding the writing system, the format of documents or its contents, like the incidence of one single main text area. Moreover, no training phase is considered necessary before applying this approach. The system is designed to be robust against deteriorations like stains or fissures, which are very likely to exist in many historical manuscripts. Multiple lines of text form a pattern of alternating light and dark stripes. As the Gabor Transform is predestined for a localized analysis of such a pattern, a main part of this work addresses the application of the Gabor Transform on text areas. The frequency spectrum is subdivided into three frequency bands, then the Gabor Transform responses from different bands are combined in a way to profit from their specific advantages regarding their spatial or frequency resolutions. By reducing the resolution of manuscript images in a stepwise way, while applying the Gabor Transform using the same window size for each step, the combination of the responses allow for a systematic examination of manuscript images featuring text areas of nearly arbitrary geometric dimensions. The responses are then used to separate text areas from the background, and to specify the line distance and orientation of text areas, allowing to separate text blocks against each other, while presuming that text blocks are formed by homogeneous text areas and that text blocks are discriminable by their line distance or line orientation. As a result, one can then obtain e.g. the position, size, line distance and orientation for each text block. Finally, the developed methods should be evaluated on a set of annotated manuscripts. As no adequate set of samples was available featuring the challenges completely different kinds of manuscripts would pose, a test set consisting of 50 annotated manuscripts was created. The techniques developed in this thesis were applied to this test set, followed by an in-depth analysis of the results.
URL:	https://ediss.sub.uni-hamburg.de/handle/ediss/6036
URN:	urn:nbn:de:gbv:18-100585
Dokumenttyp:	Dissertation
Betreuer*in:	Neumann, Bernd (Prof. PhD)
Enthalten in den Sammlungen:	Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:

Datei	Beschreibung	Prüfsumme	Größe	Format
Dissertation.pdf		7a0243afb06067b025d17cf0a90ab361	10.04 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Diese Publikation steht in elektronischer Form im Internet bereit und kann gelesen werden. Über den freien Zugang hinaus wurden durch die Urheberin / den Urheber keine weiteren Rechte eingeräumt. Nutzungshandlungen (wie zum Beispiel der Download, das Bearbeiten, das Weiterverbreiten) sind daher nur im Rahmen der gesetzlichen Erlaubnisse des Urheberrechtsgesetzes (UrhG) erlaubt. Dies gilt für die Publikation sowie für ihre einzelnen Bestandteile, soweit nichts Anderes ausgewiesen ist.

Info

Seitenansichten

704

Letzte Woche

Letzten Monat

geprüft am 23.04.2024

Download(s)

254

Letzte Woche

Letzten Monat

geprüft am 23.04.2024

Werkzeuge

Google Scholar^TM

Prüfe

Dateien zu dieser Ressource:

Seitenansichten

Download(s)

Google ScholarTM

Google Scholar^TM