Titel: Disentanglement, Compositionality, Specification: Representation Learning with Generative Adversarial Networks
Sprache: Englisch
Autor*in: Hinz, Tobias
Schlagwörter: Künstliche Intelligenz; Maschinelles Lernen; Maschinelles Sehen; Artificial Intelligence; Machine Learning; Computer Vision; Generative Adversarial Network
Erscheinungsdatum: 2021
Tag der mündlichen Prüfung: 2021-04-28
Zusammenfassung: 
Modern technology allows for access to large amounts of data. However, this data is only useful if we can structure it, extract information, and learn connections and relationships between different data points. To achieve this, it is essential to represent the data in a way that facilitates organization and knowledge extraction. Depending on what we want to do with the data, different characteristics of the chosen representation method may be more or less important. In this thesis, we develop approaches for learning image representations that possess certain desirable characteristics: disentanglement, compositionality, and specification.

Disentanglement implies that the representation should model factors of variation of the underlying data generating process. Learning these factors will allow the representation to model different data points in a concise manner and potentially allows us to learn novel interrelations and dependencies. Compositionality postulates that representations are constructed from independent concepts in a hierarchical manner. Finally, specification means that we can focus our learning capabilities on a single task or goal, allowing us to spend the full representation capacity to model individual and complex objects in isolation.

Our first approach introduces an approach utilizing a Generative Adversarial Network (GAN) to learn disentangled representations from visual data. Our model learns meaningful and interpretable concepts, e.g. object classes and characteristics, on its own without supervision. Adding a small amount of supervision allows for more control over the learned representations while still allowing the model to learn unlabeled concepts from the data itself. In our second approach, we learn compositional representations that allow a GAN to model complex visual scenes consisting of multiple different objects. Experiments show that the model generalizes to several novel settings such as more or fewer objects, novel object positions and sizes, and novel object-attribute combinations. We also identify several shortcomings of current evaluation methods for these kinds of visual scenes and introduce a novel evaluation metric that correlates well with human perception. Finally, we show how we can use GANs to learn object-specific representations from only a few data points.
By making use of several implicit biases and specific data augmentation methods we can learn good representations from only a single example. We can learn even better representations if we have slightly more (e.g. 15) training examples available. The learned representations are, by design, highly specific to the given object but only need very limited training data.

The models we introduce in this thesis each address one specific representation characteristic that we believe is useful for many different tasks. These representations can not only be used for knowledge discovery but also allow for a more structured approach to modeling complex environments or complex objects without access to large data sets. We highlight the connections between all three of our approaches and highlight several directions for future research. Specifically, we identify different ways to combine our approaches such that the resulting representations benefit from the advantages of the individual characteristics.

Moderne Technologien ermöglichen den Zugriff auf große Datenmengen. Diese sind jedoch nur nützlich, wenn daraus Strukturen und Beziehungen gelernt werden können. Um dies zu erreichen, müssen die Daten auf eine Weise repräsentiert werden, die die Wissensextraktion erleichtert. Je nach Anwendungsfeld können verschiedene Eigenschaften einer Repräsentationsmethode mehr oder weniger wichtig sein. Wir entwickeln Ansätze zum Lernen von Bildrepräsentationen, die bestimmte vorteilhafte Eigenschaften besitzen: Entflechtung, Kompositionalität und Spezifikation.

Entflechtung bedeuted, dass die Repräsentation die Faktoren des zugrunde liegenden Datenerzeugungsprozesses modellieren sollte. Das Erlernen dieser Faktoren ermöglicht es der Repräsentation, verschiedene Datenpunkte auf prägnante Weise zu modellieren und erlaubt es neuartige Zusammenhänge und Abhängigkeiten zu erlernen. Kompositionalität postuliert, dass Repräsentationen aus unabhängigen Konzepten in einer hierarchischen Weise konstruiert werden. Spezifikation bedeutet, dass wir unsere Lernfähigkeiten unseres Modells auf ein einziges Ziel fokussieren können, was es uns ermöglicht, die volle Repräsentationskapazität für die Modellierung einzelner komplexer Objekte zu verwenden.

Unser erstes Modell ist ein ``Generative Adversarial Network'' (GAN) das entflochtene Repräsentationen von visuellen Daten lernt. Unser Modell lernt sinnvolle und interpretierbare Konzepte, z.Bsp. Objektklassen und -eigenschaften ohne Überwachung. Das Hinzufügen einer kleinen Menge an Überwachung ermöglicht eine bessere Kontrolle über die gelernten Repräsentationen. In unserem zweiten Ansatz lernen wir kompositionelle Repräsentationen, die es einem GAN erlauben, komplexe visuelle Szenen zu modellieren, die aus mehreren verschiedenen Objekten bestehen. Experimente zeigen, dass das Modell zu verschiedenen neuartigen Kombinationen, wie neuartigen Objektpositionen und -größen sowie neuartigen Objekt-Attribut-Kombinationen, generalisiert. Wir identifizieren mehrere Schwachstellen aktueller Bewertungsmethoden für diese Art von visuellen Szenen und stellen eine neue Metrik vor, die stark mit der menschlichen Wahrnehmung korreliert. Schließlich zeigen wir, wie wir GANs verwenden können, um objektspezifische Repräsentationen aus nur wenigen Datenpunkten zu lernen. Indem wir das Modell durch einen Einfluss-induzierenden Bias unterschiedlich ausrichten und duch spezifische Methoden zur Datenerweiterung können wir gute Repräsentationen von wenigen oder einem einzigen Beispiel lernen. Die gelernten Repräsentationen sind hochspezifisch für das jeweilige Objekt, benötigen aber nur sehr wenige Trainingsdaten.

Unsere entwickelten Modelle adressieren jeweils eine spezifische Eigenschaft von Repräsentationen, von der wir glauben, dass sie für viele verschiedene Aufgaben nützlich ist. Diese Repräsentationen können nicht nur zur Wissensentdeckung verwendet werden, sondern ermöglichen auch einen strukturierteren Ansatz zur Modellierung komplexer Umgebungen oder Objekte ohne Zugang zu großen Datensätzen. Wir zeigen Verbindungen zwischen unseren drei Ansätzen und zeigen mehrere Richtungen für zukünftige Forschung auf. Insbesondere präsentieren wir verschiedene Möglichkeiten, unsere Ansätze so zu kombinieren, dass die resultierenden Repräsentationen von den Vorteilen der einzelnen Merkmale profitieren.
URL: https://ediss.sub.uni-hamburg.de/handle/ediss/8995
URN: urn:nbn:de:gbv:18-ediss-92468
Dokumenttyp: Dissertation
Betreuer*in: Wermter, Stefan
Enthalten in den Sammlungen:Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:
Datei GrößeFormat  
Thesis_Tobias_Hinz_Final_Signed_Small.pdf47.67 MBAdobe PDFÖffnen/Anzeigen
Zur Langanzeige

Info

Seitenansichten

32
Letzte Woche
Letzten Monat
geprüft am 14.06.2021

Download(s)

25
Letzte Woche
Letzten Monat
geprüft am 14.06.2021
Werkzeuge

Google ScholarTM

Prüfe