Explore Objects and Categories in Unexplored Environments Based on Multimodal Data

Zhang, Jianhua

Titel:	Explore Objects and Categories in Unexplored Environments Based on Multimodal Data
Sonstige Titel:	Die Erforschung von Objekten und Kategorien in unerforschten Umgebungen auf der Grundlage multimodaler Daten
Sprache:	Englisch
Autor*in:	Zhang, Jianhua
Schlagwörter:	Cross-modal; Category-independent object detection; novel category discovery; Unexplored environments; Cognition
Erscheinungsdatum:	2012
Tag der mündlichen Prüfung:	2012-07-12
Zusammenfassung:	In abgeschlossenen Umgebungen basieren Objektdetektion und Identifizierung oft auf der Annahme, dass Objektkategorien vorab bekannt sind. Allerdings kann diese Annahme in unbekannten Umgebungen nicht erfüllt werden, da die Art und Anzahl der Objekte unbekannt ist. Aus diesem Grund wäre für die maschinelle Bildverarbeitung in solchen Umgebungen die Fähigkeit wichtig, unabhängig von bereits bekannten Kategorien Objekte im Bild zu detektieren und neue Objektkategorien zu entdecken. In dieser Arbeit wird eine Reihe neuer Methoden vorgestellt, um Objekte und Kategorien in unbekannten Umgebungen zu erforschen. Den ersten Schritt stellt hierbei die Detektion der Objekte dar. Es folgt die Klassifikation derjenigen Objekte, die zu den bekannten Kategorien gehören. Wenn unbekannte Objekte existieren, sollen für diese neue Kategorien entdeckt und mit den bereits bekannten Kategorien in Verbindung gebracht werden. Somit lassen sich die in dieser Arbeit behandelten Methoden in zwei Klassen unterteilen, zum Einen mit dem Ziel der Kategorie-unabhängigen Objekterkennung und zum Anderen mit dem Ziel der Entdeckung neuartiger Objektkategorien. Wenn eine Umgebung erkundet wird, sind neben den 2D-Informationen die 3D-Informationen unverzichtbar. Daher basieren die vorgestellten Methoden auf multimodalten Daten (2D-Bildern und 3D-Punktwolken). Im Hinblick auf die erste Problemstellung können die meisten bekannten Verfahren entweder nur ein Objekt pro Bild erkennen oder mehrere Objektinstanzen nur beim Erproben einer großen Anzahl von Regionen bestimmen. Diese Arbeit führt zuerst eine Reihe von neuen Kategorie-unabhängigen Objekteigenschaften ein, die ein Objekt unabhängig von dessen Kategorie als eine eigenständige Instanz beschreiben. Basierend auf diesen Merkmalen wird eine ,,intermodale” Segmentierungs-Methode vorgestellt, um gleichzeitig Bilddaten und 3D-Punktwolken zu verarbeiten. Diese werden durch RGB+D-Kameras erzeugt. Somit können mehrere Kategorie-unabhängige Objekt-Instanzen ohne die Erprobung zusätzlicher Regionen erkannt und zu lokalisiert werden. Es wird ein neues Entscheidungs-Modell entwickelt, das ,,Cross-Modal Higher-Order Conditional Random Field Model”. Dieses verwendet sowohl ,,uni-modale” als auch ,,intermodale” Merkmale. ,,Uni-modale” Merkmale beschreiben Potentiale verschiedener Ordnung, die von den entwickelten Kategorie-unabhängigen Merkmalen berechnet werden. ,,Intermodale” Merkmale definieren globale Bedingungen, um die Integrität der Daten im 2D-und 3D-Raum zu sichern. Die Kategorie-unabhängige Objekterkennung wird als Klassifizierungsvorgang der Regionen in drei Klassen (Objekt, Hintergrund und Grenze) behandelt. Unter Ausnutzung dieser Kennzeichnung können einzelne Objektinstanzen effizient aus der resultierenden Karte isoliert werden. Ein Vergleich mit den gängigen Methoden für diese Problemstellung zeigt die Leistungsfähigkeit des entwickelten Verfahrens. Dieser Vergleich erfolgt unter Verwendung eines öffentlich zugänglichen RGB + D Datensatzes. Im Hinblick auf die zweite Problemstellung wird nach der Lokalisierung von Objekten in einer unbekannten Umgebung eine dynamische Kategorie-Hierarchie zur Verbesserung Objekterkennung und zur Entdeckung neuer Kategorien eingeführt. Die 2D Merkmale werden zur Objektbeschreibung zu multimodalen Objektattributen erweitert, da diese eine sehr gute Generalisierbarkeit versprechen und somit auch neuartige Kategorien formuliert werden können. Die große Anzahl an Kategorien wird in einem ,,supervised hierarchical latent Dirichlet allocation model (shLDA)” organisiert. Eine Kategorie-Hierarchie ist eine inhärente Struktur des menschlichen Gehirns, die sich dynamisch ändert. Allerdings implementieren die bisherigen Methoden den Aufbau von statischer Kategorie-Hierarchien. In dieser Arbeit wird ein neuartiges Framework vorgestellt, um eine dynamische Hierarchie basiert auf den multimodalen Attributen und dem shLDA Modell zu erzeugen. Das Framework kann die zu bekannten Kategorien gehörenden Objekte effektiv erkennen und kann auch die zu unbekannten Kategorien gehörenden Objekte erkennen und unterscheiden. Nach der Entdeckung neuer Kategorien kann das Framework diese in die bestehende Hierarchie integrieren und eine neue erzeugen, wodurch eine dynamische Kategorien-Hierarchie entsteht. Experimente demonstrieren zuerst die Verbesserung der multimodalen Attribute gegenüber 2D-Merkmalen. Die Leistung der Objekterkennung und Entdeckung neuartiger Kategorien wird durch den Vergleich mit gängigen Methoden gezeigt. Darüber hinaus kann dieses neuartige Framwork die relevanten Objektattribute in einer kompakten Form beschreiben. In einem Fazit werden die Einschränkungen der beschriebenen Verfahren diskutiert und es wird ein Ausblick auf mögliche zukünftige Forschungsrichtungen gegeben. In deterministic environments object detection and recognition are based on the assumption that object categories are known. However, in unexplored environments these assumptions cannot be fulfilled since there is not enough prior information about what kinds of objects and how many objects there are. Thus the execution of computer vision tasks in such environments requires the ability of detecting category-independent objects and discovering novel object categories. In this thesis, a set of novel methods is presented to explore objects and categories in unexplored environments. The first step to achieve this is to detect objects, then to recognize objects belonging to known categories. If there are unknown objects, these object should be clustered as new categories, and be described and be related to known categories. Thus the proposed methods in this thesis can be separated into two parts that concern the problems of category-independent object detection and novel object category discovery, respectively. When humans explore an environment, 3D information is indispensable in addition to 2D information. Therefore, the presented methods are all based on multimodal data (i.e. the 2D images and 3D point clouds). Concerning the first problem, most existing methods either can only detect one object per image or need to sample a large number of regions to cover multiple object instances. This thesis first proposes a set of novel category-independent object features that describe an object on a stand-alone instance regardless of its category. Based on these features, a cross-modal co-segmentation method is proposed to simultaneously segment paired images and 3D point clouds which are obtained by RGB+D cameras, and to detect and localize multiple category-independent object instances without sampling extra regions. A new discriminative model is designed, namely cross-modal higher-order Conditional Random Field model, which consists of unimodal and cross-modal terms. Unimodal terms include unary, pair, and higher order potentials, which are computed from the new category-independent features. Cross-modal terms add global constraints that keep the cross-modal spatial consistency in both 2D and 3D space. The category-independent object detection is treated as a labeling process with three kinds of labels (i.e. the object, the background and the boundary). Taking advantage of these labels, single object instances can be separated efficiently from a resulting labeled map. By comparison with state-of-the-art methods, experimental results on a public RGB+D dataset show that the proposed method yields a promising performance. After localizing objects in an unexplored environment, a dynamic category hierarchy is proposed to improve object recognition and discover novel categories for the second problem. First, multimodal object attributes are extended from 2D ones to describe objects since they have excellent generalizability across categories, by which novel categories can also be depicted. Then a supervised hierarchical latent Dirichlet allocation model (shLDA) is presented to organize a large scale number of categories. A category hierarchy is an inherent structure in the human mind, and more importantly it can dynamically change. However, existing methods concern building static category hierarchies. In this thesis, a novel framework is presented to build such a dynamic hierarchy based on the multimodal attributes and the shLDA model. The framework can effectively recognize objects belonging to known categories and can detect and distinguish objects belonging to unknown categories. After discovering novel categories, the framework can integrate them into the hierarchy and construct a new one, thus forming a dynamic category hierarchy. Experiments first demonstrate the improvement of multimodal attributes with respect to 2D ones. Then they show the promising performance of object recognition and novel category discovery by comparing with state-of-the-art methods. Moreover, this novel framework can find the most representative object attributes to compactly describe objects. Finally we draw some conclusions, and discuss limitations of the presented work and suggest the directions for future work.
URL:	https://ediss.sub.uni-hamburg.de/handle/ediss/4558
URN:	urn:nbn:de:gbv:18-57652
Dokumenttyp:	Dissertation
Betreuer*in:	Stelldinger, Peer (Prof. Dr.)
Enthalten in den Sammlungen:	Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:

Datei	Beschreibung	Prüfsumme	Größe	Format
Dissertation.pdf		3d2e7fa537d7e1bc25b71a2f53f7bfb4	5.87 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Diese Publikation steht in elektronischer Form im Internet bereit und kann gelesen werden. Über den freien Zugang hinaus wurden durch die Urheberin / den Urheber keine weiteren Rechte eingeräumt. Nutzungshandlungen (wie zum Beispiel der Download, das Bearbeiten, das Weiterverbreiten) sind daher nur im Rahmen der gesetzlichen Erlaubnisse des Urheberrechtsgesetzes (UrhG) erlaubt. Dies gilt für die Publikation sowie für ihre einzelnen Bestandteile, soweit nichts Anderes ausgewiesen ist.

Info

Seitenansichten

568

Letzte Woche

Letzten Monat

geprüft am 05.07.2025

Download(s)

97

Letzte Woche

Letzten Monat

geprüft am 05.07.2025

Werkzeuge

Google Scholar^TM

Prüfe

Dateien zu dieser Ressource:

Seitenansichten

Download(s)

Google ScholarTM

Google Scholar^TM