Disentanglement, Compositionality, Specification: Representation Learning with Generative Adversarial Networks

Hinz, Tobias

DC Element	Wert	Sprache
dc.contributor.advisor	Wermter, Stefan	-
dc.contributor.author	Hinz, Tobias	-
dc.date.accessioned	2021-05-25T14:03:20Z	-
dc.date.available	2021-05-25T14:03:20Z	-
dc.date.issued	2021	-
dc.identifier.uri	https://ediss.sub.uni-hamburg.de/handle/ediss/8995	-
dc.description.abstract	Modern technology allows for access to large amounts of data. However, this data is only useful if we can structure it, extract information, and learn connections and relationships between different data points. To achieve this, it is essential to represent the data in a way that facilitates organization and knowledge extraction. Depending on what we want to do with the data, different characteristics of the chosen representation method may be more or less important. In this thesis, we develop approaches for learning image representations that possess certain desirable characteristics: disentanglement, compositionality, and specification. Disentanglement implies that the representation should model factors of variation of the underlying data generating process. Learning these factors will allow the representation to model different data points in a concise manner and potentially allows us to learn novel interrelations and dependencies. Compositionality postulates that representations are constructed from independent concepts in a hierarchical manner. Finally, specification means that we can focus our learning capabilities on a single task or goal, allowing us to spend the full representation capacity to model individual and complex objects in isolation. Our first approach introduces an approach utilizing a Generative Adversarial Network (GAN) to learn disentangled representations from visual data. Our model learns meaningful and interpretable concepts, e.g. object classes and characteristics, on its own without supervision. Adding a small amount of supervision allows for more control over the learned representations while still allowing the model to learn unlabeled concepts from the data itself. In our second approach, we learn compositional representations that allow a GAN to model complex visual scenes consisting of multiple different objects. Experiments show that the model generalizes to several novel settings such as more or fewer objects, novel object positions and sizes, and novel object-attribute combinations. We also identify several shortcomings of current evaluation methods for these kinds of visual scenes and introduce a novel evaluation metric that correlates well with human perception. Finally, we show how we can use GANs to learn object-specific representations from only a few data points. By making use of several implicit biases and specific data augmentation methods we can learn good representations from only a single example. We can learn even better representations if we have slightly more (e.g. 15) training examples available. The learned representations are, by design, highly specific to the given object but only need very limited training data. The models we introduce in this thesis each address one specific representation characteristic that we believe is useful for many different tasks. These representations can not only be used for knowledge discovery but also allow for a more structured approach to modeling complex environments or complex objects without access to large data sets. We highlight the connections between all three of our approaches and highlight several directions for future research. Specifically, we identify different ways to combine our approaches such that the resulting representations benefit from the advantages of the individual characteristics.	en
dc.description.abstract	Moderne Technologien ermöglichen den Zugriff auf große Datenmengen. Diese sind jedoch nur nützlich, wenn daraus Strukturen und Beziehungen gelernt werden können. Um dies zu erreichen, müssen die Daten auf eine Weise repräsentiert werden, die die Wissensextraktion erleichtert. Je nach Anwendungsfeld können verschiedene Eigenschaften einer Repräsentationsmethode mehr oder weniger wichtig sein. Wir entwickeln Ansätze zum Lernen von Bildrepräsentationen, die bestimmte vorteilhafte Eigenschaften besitzen: Entflechtung, Kompositionalität und Spezifikation. Entflechtung bedeuted, dass die Repräsentation die Faktoren des zugrunde liegenden Datenerzeugungsprozesses modellieren sollte. Das Erlernen dieser Faktoren ermöglicht es der Repräsentation, verschiedene Datenpunkte auf prägnante Weise zu modellieren und erlaubt es neuartige Zusammenhänge und Abhängigkeiten zu erlernen. Kompositionalität postuliert, dass Repräsentationen aus unabhängigen Konzepten in einer hierarchischen Weise konstruiert werden. Spezifikation bedeutet, dass wir unsere Lernfähigkeiten unseres Modells auf ein einziges Ziel fokussieren können, was es uns ermöglicht, die volle Repräsentationskapazität für die Modellierung einzelner komplexer Objekte zu verwenden. Unser erstes Modell ist ein ``Generative Adversarial Network'' (GAN) das entflochtene Repräsentationen von visuellen Daten lernt. Unser Modell lernt sinnvolle und interpretierbare Konzepte, z.Bsp. Objektklassen und -eigenschaften ohne Überwachung. Das Hinzufügen einer kleinen Menge an Überwachung ermöglicht eine bessere Kontrolle über die gelernten Repräsentationen. In unserem zweiten Ansatz lernen wir kompositionelle Repräsentationen, die es einem GAN erlauben, komplexe visuelle Szenen zu modellieren, die aus mehreren verschiedenen Objekten bestehen. Experimente zeigen, dass das Modell zu verschiedenen neuartigen Kombinationen, wie neuartigen Objektpositionen und -größen sowie neuartigen Objekt-Attribut-Kombinationen, generalisiert. Wir identifizieren mehrere Schwachstellen aktueller Bewertungsmethoden für diese Art von visuellen Szenen und stellen eine neue Metrik vor, die stark mit der menschlichen Wahrnehmung korreliert. Schließlich zeigen wir, wie wir GANs verwenden können, um objektspezifische Repräsentationen aus nur wenigen Datenpunkten zu lernen. Indem wir das Modell durch einen Einfluss-induzierenden Bias unterschiedlich ausrichten und duch spezifische Methoden zur Datenerweiterung können wir gute Repräsentationen von wenigen oder einem einzigen Beispiel lernen. Die gelernten Repräsentationen sind hochspezifisch für das jeweilige Objekt, benötigen aber nur sehr wenige Trainingsdaten. Unsere entwickelten Modelle adressieren jeweils eine spezifische Eigenschaft von Repräsentationen, von der wir glauben, dass sie für viele verschiedene Aufgaben nützlich ist. Diese Repräsentationen können nicht nur zur Wissensentdeckung verwendet werden, sondern ermöglichen auch einen strukturierteren Ansatz zur Modellierung komplexer Umgebungen oder Objekte ohne Zugang zu großen Datensätzen. Wir zeigen Verbindungen zwischen unseren drei Ansätzen und zeigen mehrere Richtungen für zukünftige Forschung auf. Insbesondere präsentieren wir verschiedene Möglichkeiten, unsere Ansätze so zu kombinieren, dass die resultierenden Repräsentationen von den Vorteilen der einzelnen Merkmale profitieren.	de
dc.language.iso	en	de_DE
dc.publisher	Staats- und Universitätsbibliothek Hamburg Carl von Ossietzky	de
dc.rights	http://purl.org/coar/access_right/c_abf2	de_DE
dc.subject	Künstliche Intelligenz	de
dc.subject	Maschinelles Lernen	de
dc.subject	Maschinelles Sehen	de
dc.subject	Artificial Intelligence	en
dc.subject	Machine Learning	en
dc.subject	Computer Vision	de
dc.subject	Generative Adversarial Network	en
dc.subject.ddc	004: Informatik	de_DE
dc.title	Disentanglement, Compositionality, Specification: Representation Learning with Generative Adversarial Networks	en
dc.type	doctoralThesis	en
dcterms.dateAccepted	2021-04-28	-
dc.rights.cc	https://creativecommons.org/licenses/by/4.0/	de_DE
dc.rights.rs	http://rightsstatements.org/vocab/InC/1.0/	-
dc.subject.bcl	54.72: Künstliche Intelligenz	de_DE
dc.subject.bcl	54.74: Maschinelles Sehen	de_DE
dc.type.casrai	Dissertation	-
dc.type.dini	doctoralThesis	-
dc.type.driver	doctoralThesis	-
dc.type.status	info:eu-repo/semantics/publishedVersion	de_DE
dc.type.thesis	doctoralThesis	de_DE
tuhh.type.opus	Dissertation	-
thesis.grantor.department	Informatik	de_DE
thesis.grantor.place	Hamburg	-
thesis.grantor.universityOrInstitution	Universität Hamburg	de_DE
dcterms.DCMIType	Text	-
dc.identifier.urn	urn:nbn:de:gbv:18-ediss-92468	-
item.languageiso639-1	other	-
item.fulltext	With Fulltext	-
item.advisorGND	Wermter, Stefan	-
item.grantfulltext	open	-
item.creatorOrcid	Hinz, Tobias	-
item.creatorGND	Hinz, Tobias	-
Enthalten in den Sammlungen:	Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:

Datei	Prüfsumme	Größe	Format
Thesis_Tobias_Hinz_Final_Signed_Small.pdf	2d01e4f8746a5ae14dc6fe300480caae	47.67 MB	Adobe PDF	Öffnen/Anzeigen

Zur Kurzanzeige

Info

Seitenansichten

1.423

Letzte Woche

Letzten Monat

geprüft am 19.08.2025

Download(s)

973

Letzte Woche

Letzten Monat

geprüft am 19.08.2025

Werkzeuge

Google Scholar^TM

Prüfe

Dateien zu dieser Ressource:

Seitenansichten

Download(s)

Google ScholarTM

Google Scholar^TM