DC ElementWertSprache
dc.contributor.advisorWermter, Stefan-
dc.contributor.authorHinz, Tobias-
dc.date.accessioned2021-05-25T14:03:20Z-
dc.date.available2021-05-25T14:03:20Z-
dc.date.issued2021-
dc.identifier.urihttps://ediss.sub.uni-hamburg.de/handle/ediss/8995-
dc.description.abstractModern technology allows for access to large amounts of data. However, this data is only useful if we can structure it, extract information, and learn connections and relationships between different data points. To achieve this, it is essential to represent the data in a way that facilitates organization and knowledge extraction. Depending on what we want to do with the data, different characteristics of the chosen representation method may be more or less important. In this thesis, we develop approaches for learning image representations that possess certain desirable characteristics: disentanglement, compositionality, and specification. Disentanglement implies that the representation should model factors of variation of the underlying data generating process. Learning these factors will allow the representation to model different data points in a concise manner and potentially allows us to learn novel interrelations and dependencies. Compositionality postulates that representations are constructed from independent concepts in a hierarchical manner. Finally, specification means that we can focus our learning capabilities on a single task or goal, allowing us to spend the full representation capacity to model individual and complex objects in isolation. Our first approach introduces an approach utilizing a Generative Adversarial Network (GAN) to learn disentangled representations from visual data. Our model learns meaningful and interpretable concepts, e.g. object classes and characteristics, on its own without supervision. Adding a small amount of supervision allows for more control over the learned representations while still allowing the model to learn unlabeled concepts from the data itself. In our second approach, we learn compositional representations that allow a GAN to model complex visual scenes consisting of multiple different objects. Experiments show that the model generalizes to several novel settings such as more or fewer objects, novel object positions and sizes, and novel object-attribute combinations. We also identify several shortcomings of current evaluation methods for these kinds of visual scenes and introduce a novel evaluation metric that correlates well with human perception. Finally, we show how we can use GANs to learn object-specific representations from only a few data points. By making use of several implicit biases and specific data augmentation methods we can learn good representations from only a single example. We can learn even better representations if we have slightly more (e.g. 15) training examples available. The learned representations are, by design, highly specific to the given object but only need very limited training data. The models we introduce in this thesis each address one specific representation characteristic that we believe is useful for many different tasks. These representations can not only be used for knowledge discovery but also allow for a more structured approach to modeling complex environments or complex objects without access to large data sets. We highlight the connections between all three of our approaches and highlight several directions for future research. Specifically, we identify different ways to combine our approaches such that the resulting representations benefit from the advantages of the individual characteristics.en
dc.description.abstractModerne Technologien ermöglichen den Zugriff auf große Datenmengen. Diese sind jedoch nur nützlich, wenn daraus Strukturen und Beziehungen gelernt werden können. Um dies zu erreichen, müssen die Daten auf eine Weise repräsentiert werden, die die Wissensextraktion erleichtert. Je nach Anwendungsfeld können verschiedene Eigenschaften einer Repräsentationsmethode mehr oder weniger wichtig sein. Wir entwickeln Ansätze zum Lernen von Bildrepräsentationen, die bestimmte vorteilhafte Eigenschaften besitzen: Entflechtung, Kompositionalität und Spezifikation. Entflechtung bedeuted, dass die Repräsentation die Faktoren des zugrunde liegenden Datenerzeugungsprozesses modellieren sollte. Das Erlernen dieser Faktoren ermöglicht es der Repräsentation, verschiedene Datenpunkte auf prägnante Weise zu modellieren und erlaubt es neuartige Zusammenhänge und Abhängigkeiten zu erlernen. Kompositionalität postuliert, dass Repräsentationen aus unabhängigen Konzepten in einer hierarchischen Weise konstruiert werden. Spezifikation bedeutet, dass wir unsere Lernfähigkeiten unseres Modells auf ein einziges Ziel fokussieren können, was es uns ermöglicht, die volle Repräsentationskapazität für die Modellierung einzelner komplexer Objekte zu verwenden. Unser erstes Modell ist ein ``Generative Adversarial Network'' (GAN) das entflochtene Repräsentationen von visuellen Daten lernt. Unser Modell lernt sinnvolle und interpretierbare Konzepte, z.Bsp. Objektklassen und -eigenschaften ohne Überwachung. Das Hinzufügen einer kleinen Menge an Überwachung ermöglicht eine bessere Kontrolle über die gelernten Repräsentationen. In unserem zweiten Ansatz lernen wir kompositionelle Repräsentationen, die es einem GAN erlauben, komplexe visuelle Szenen zu modellieren, die aus mehreren verschiedenen Objekten bestehen. Experimente zeigen, dass das Modell zu verschiedenen neuartigen Kombinationen, wie neuartigen Objektpositionen und -größen sowie neuartigen Objekt-Attribut-Kombinationen, generalisiert. Wir identifizieren mehrere Schwachstellen aktueller Bewertungsmethoden für diese Art von visuellen Szenen und stellen eine neue Metrik vor, die stark mit der menschlichen Wahrnehmung korreliert. Schließlich zeigen wir, wie wir GANs verwenden können, um objektspezifische Repräsentationen aus nur wenigen Datenpunkten zu lernen. Indem wir das Modell durch einen Einfluss-induzierenden Bias unterschiedlich ausrichten und duch spezifische Methoden zur Datenerweiterung können wir gute Repräsentationen von wenigen oder einem einzigen Beispiel lernen. Die gelernten Repräsentationen sind hochspezifisch für das jeweilige Objekt, benötigen aber nur sehr wenige Trainingsdaten. Unsere entwickelten Modelle adressieren jeweils eine spezifische Eigenschaft von Repräsentationen, von der wir glauben, dass sie für viele verschiedene Aufgaben nützlich ist. Diese Repräsentationen können nicht nur zur Wissensentdeckung verwendet werden, sondern ermöglichen auch einen strukturierteren Ansatz zur Modellierung komplexer Umgebungen oder Objekte ohne Zugang zu großen Datensätzen. Wir zeigen Verbindungen zwischen unseren drei Ansätzen und zeigen mehrere Richtungen für zukünftige Forschung auf. Insbesondere präsentieren wir verschiedene Möglichkeiten, unsere Ansätze so zu kombinieren, dass die resultierenden Repräsentationen von den Vorteilen der einzelnen Merkmale profitieren.de
dc.language.isoende_DE
dc.publisherStaats- und Universitätsbibliothek Hamburg Carl von Ossietzkyde
dc.rightshttp://purl.org/coar/access_right/c_abf2de_DE
dc.subjectKünstliche Intelligenzde
dc.subjectMaschinelles Lernende
dc.subjectMaschinelles Sehende
dc.subjectArtificial Intelligenceen
dc.subjectMachine Learningen
dc.subjectComputer Visionde
dc.subjectGenerative Adversarial Networken
dc.subject.ddc004: Informatikde_DE
dc.titleDisentanglement, Compositionality, Specification: Representation Learning with Generative Adversarial Networksen
dc.typedoctoralThesisen
dcterms.dateAccepted2021-04-28-
dc.rights.cchttps://creativecommons.org/licenses/by/4.0/de_DE
dc.rights.rshttp://rightsstatements.org/vocab/InC/1.0/-
dc.subject.bcl54.72: Künstliche Intelligenzde_DE
dc.subject.bcl54.74: Maschinelles Sehende_DE
dc.type.casraiDissertation-
dc.type.dinidoctoralThesis-
dc.type.driverdoctoralThesis-
dc.type.statusinfo:eu-repo/semantics/publishedVersionde_DE
dc.type.thesisdoctoralThesisde_DE
tuhh.type.opusDissertation-
thesis.grantor.departmentInformatikde_DE
thesis.grantor.placeHamburg-
thesis.grantor.universityOrInstitutionUniversität Hamburgde_DE
dcterms.DCMITypeText-
dc.identifier.urnurn:nbn:de:gbv:18-ediss-92468-
item.advisorGNDWermter, Stefan-
item.grantfulltextopen-
item.languageiso639-1other-
item.fulltextWith Fulltext-
item.creatorOrcidHinz, Tobias-
item.creatorGNDHinz, Tobias-
Enthalten in den Sammlungen:Elektronische Dissertationen und Habilitationen
Dateien zu dieser Ressource:
Datei Prüfsumme GrößeFormat  
Thesis_Tobias_Hinz_Final_Signed_Small.pdf2d01e4f8746a5ae14dc6fe300480caae47.67 MBAdobe PDFÖffnen/Anzeigen
Zur Kurzanzeige

Info

Seitenansichten

959
Letzte Woche
Letzten Monat
geprüft am 27.03.2024

Download(s)

646
Letzte Woche
Letzten Monat
geprüft am 27.03.2024
Werkzeuge

Google ScholarTM

Prüfe