FAQ
© 2019 Staats- und Universitätsbibliothek
Hamburg, Carl von Ossietzky

Öffnungszeiten heute09.00 bis 24.00 Uhr alle Öffnungszeiten

Eingang zum Volltext in OPUS

Hinweis zum Urheberrecht

Dissertation zugänglich unter
URN: urn:nbn:de:gbv:18-97304
URL: http://ediss.sub.uni-hamburg.de/volltexte/2019/9730/


Computational Analysis of Writing Style in Digitised Manuscripts

Computergestützte Analyse von Schreibstilen in digitalisierten Manuskripten

Mohammed, Hussein

pdf-Format:
 Dokument 1.pdf (5.237 KB) 
zip gepackt:
 HAT_2.zip (34,298 KB) 


Freie Schlagwörter (Englisch): Computational Document Analysis , Naive Bayes , Nearest-Neighbour , Computer Vision , Software Developement
Basisklassifikation: 54.74
Institut: Informatik
DDC-Sachgruppe: Informatik
Dokumentart: Dissertation
Hauptberichter: Stiehl, Hans Siegfried (Prof. Dr.-Ing.)
Sprache: Englisch
Tag der mündlichen Prüfung: 22.03.2019
Erstellungsjahr: 2018
Publikationsdatum: 23.05.2019
Kurzfassung auf Englisch: The goal of this dissertation is to develop a novel computational method capable of analysing the handwriting styles in digitised manuscripts in order to provide supporting information for the task of handwriting style identification.

We collected and analysed the requirements from selected sub-projects within the Sonderforschungsbereich SFB 950 “Manuscript Cultures in Asia, Africa and Europe” regarding the problem of handwriting style identification. Then we analysed the state-of-the-art methods to find a starting point for the development of a novel method in order to fulfil these requirements. In order to analyse the handwriting styles in digitised manuscripts, we developed a classifier for offline, text-independent, and segmentation-free writer identification based on the Local Na¨ıve Bayes Nearest-Neighbour (Local NBNN) classifier. Due to scarce data, our proposed method is a learning-free approach, which takes into consideration the particularity of handwriting patterns by adding a constraint to prevent the matching of irrelevant keypoints. Furthermore, a normalisation factor is proposed to cope with the prevalent problem of unbalanced data in our case of writing style analysis of digitised manuscripts.

The performance of our proposed method has been evaluated using several public datasets, both contemporary and historical, of different writing systems including musical scores. State-of-theart results were obtained in all experiments with a fixed parameter set. This evaluation helps to measure the discriminative power of our proposed method w.r.t. different handwriting styles in the datasets. Furthermore, some of these standard datasets offer handwriting styles from a large number of writers and/or in many different writing systems and script types.

Furthermore, the performance of the proposed method is analysed w.r.t. typical degradation found in digitised manuscripts using samples relevant to the data used by the selected sub-projects within the SFB. Historical manuscripts from a public dataset have been used in this analysis and have been selected jointly with scholars from Humanities within the SFB 950. The selection of degradation types was based on their prevalence in digitised manuscripts and their direct influence on parameter selection of the proposed method.

Finally, an easy-to-use implementation of the proposed method has been realised as a software tool with a user-friendly GUI (graphical user interface). It presents the results in an intuitive way so that it can be easily used by scholars from manuscript research in Humanities without the aid of experts from computer science. Our software tool implementation has been used by scholars from Humanities within the SFB 950 for their research yielding very satisfying results. Several experiments and tests have been carried out in order to address their actual research problems with regards to handwritings in digitised manuscripts.
Kurzfassung auf Deutsch: Ziel dieser Dissertation ist die Entwicklung einer neuen Berechnungsmethode, die eine Handschriftenanalyse in digitalisierten Manuskripten ermöglicht, um Indizien für die Identifizierung von verschiedenen Handschriftenstilen zu erbringen.

Im Sonderforschungsbereich SFB 950 "Manuskriptkulturen in Asien, Afrika und Europa" haben wir die Anforderungen ausgewählter Teilprojekte zur Problematik der Handschriftenidentifikation gesammelt und analysiert. Anschließend haben wir eine Analyse der modernsten Methoden vorgenommen, um einen Ausgangspunkt für die Entwicklung einer neuartigen Methode zu finden, die diese Anforderungen erfüllt.

Wir haben einen Klassifikator für die Offline-, textunabhängige und segmentierungsfreie Schreiberidentifikation auf Basis des „Local Naïve Bayes Nearest-Neighbour“ (Local NBNN) Klassifikators für die Handschriftenanalyse in digtalisierten Manuskripten entwickelt. Aufgrund der wenigen zur Verfügung stehenden Daten wurde für die hier vorgeschlagene Methode ein Ansatz ohne Lernen entwickelt, der die Besonderheiten von Handschriftenmustern berücksichtigt, indem er eine Einschränkung hinzufügt, um den Vergleich irrelevanter „Keypoints“ zu verhindern. Darüber hinaus wird ein Normalisierungsfaktor vorgeschlagen, um das weit verbreitete Problem unausgewogener Daten, in unserem Fall der Handschriftenanalyse von digitalisierten Manuskripten, zu lösen.

Die Leistungsbewertung unserer vorgeschlagenen Methode erfolgte mit Hilfe mehrerer öffentlicher, sowohl zeitgenössische als auch historische, Datensätze, von verschiedenen Schriftsystemen einschließlich Musikpartituren. In allen Experimenten wurden mit einem unveränderten Parametersatz Spitzenergebnisse erzielt. Diese Auswertung ermöglicht die Messung der diskriminierenden Wirkung unserer vorgeschlagenen Methode in Bezug auf verschiedene Handschriftarten in den Datensätzen. Darüber hinaus enthalten einige dieser Standarddatensätze Handschriftenstile von zahlreichen Schreibern und/oder in vielen verschiedenen Schriftsystemen und Schriftarten.

Darüber hinaus wird die Durchführung der vorgeschlagenen Methode im Hinblick auf die in digitalisierten Manuskripten typische Degradation anhand von Proben analysiert, die für die von den ausgewählten Teilprojekten innerhalb des SFB verwendeten Daten relevant sind. In dieser Analyse wurden historische Handschriften aus einem öffentlichen Datensatz verwendet und gemeinsam mit Geisteswissenschaftlern im Rahmen des SFB 950 ausgewählt. Die Auswahl der Degradationsarten basierte auf ihrer Prävalenz in digitalisierten Manuskripten und ihrem direkten Einfluss auf die Parameterauswahl der vorgeschlagenen Methode.

Schließlich wurde eine einfach zu bedienende Implementierung der vorgeschlagenen Methode als Softwaretool mit einer benutzerfreundlichen GUI (grafische Benutzeroberfläche) realisiert. Sie präsentiert die Ergebnisse intuitiv, so dass sie von Geisteswissenschaftlern in der Handschriftenforschung ohne die Hilfe von Informatikexperten genutzt werden kann. Unsere Softwaretool-Implementierung wurde von Geisteswissenschaftlern im SFB 950 für ihre Forschung mit sehr zufriedenstellenden Ergebnissen angewendet. Es wurden mehrere Experimente und Tests durchgeführt, um ihre eigentlichen Forschungsprobleme in Bezug auf Handschriften in digitalisierten Manuskripten zu lösen.

Zugriffsstatistik

keine Statistikdaten vorhanden
Legende