Volltextdatei(en) vorhanden
Titel: Non-linear Spatial Filtering for Multi-channel Speech Enhancement and Separation
Sprache: Englisch
Autor*in: Tesch, Kristina
Schlagwörter: Sprachverarbeitung; Speech Processing; Multi-channel Speech Enhancement; Mehrkanalige Sprachverbesserung
GND-Schlagwörter: SignalverarbeitungGND
Maschinelles LernenGND
Deep learningGND
Erscheinungsdatum: 2023
Tag der mündlichen Prüfung: 2024-02-05
Zusammenfassung: 
A large part of human speech communication takes place in noisy environments and is supported by technical devices. For example, a hearing-impaired person might use a hearing aid to take part in a conversation in a busy restaurant. These devices, but also telecommunication in noisy environments or voiced-controlled assistants, make use of speech enhancement and separation algorithms that improve the quality and intelligibility of speech by separating speakers and suppressing background noise as well as other unwanted effects such as reverberation. If the devices are equipped with more than one microphone, which is very common nowadays, then multi-channel speech enhancement approaches can leverage spatial information in addition to single-channel tempo-spectral information to perform the task.

Traditionally, linear spatial filters, so-called beamformers, have been employed to suppress the signal components from other than the target direction and thereby enhance the desired speech signal. Since the noise reduction is insufficient in acoustically challenging scenarios, a beamformer for spatial filtering is often combined with a single-channel tempo-spectral post-filter. In single-channel speech enhancement and separation, approaches based on deep neural networks (DNNs) have been dominating the research landscape for some time. On the other hand, in multi-channel speech enhancement and separation, a change is currently taking place. Initially, DNNs were only integrated into multi-channel systems for tempo-spectral modeling, e.g., for estimating the beamformer parameters, but the spatial processing continued to be performed with a linear beamformer. Today, however, the number of publications that propose to replace the traditional pipeline with end-to-end trained DNNs is steadily increasing. With such an approach, DNNs can be used to realize a filter that integrates both spatial and temporal-spectral processing into a single non-linear operation. Such joint spatial and tempo-spectral non-linear filters are the subject of this thesis and referred to as non-linear spatial filters.

The first part of the thesis aims to clarify the benefits that an analytic non-linear spatial filter can offer compared to the traditional beamformer plus post-filter pipeline from a statistical perspective. A better understanding of the properties of non-linear spatial filters helps to decide if and in which situation a (DNN-based) non-linear spatial filter should replace the traditional approaches. Based on analytical estimators, we show that a non-linear spatial filter outperforms a beamformer plus post-filter approach if the noise distribution is non-Gaussian. Furthermore, by means of experiments, we demonstrate that the non-linear spatial filter enables a more powerful spatial processing that is not bound to the theoretical limits of a linear approach.

The second part focuses on the design and analysis of DNN-based joint spatial and tempo-spectral non-linear filters. We analyze the dependencies between the three available sources of information (spatial, spectral, and temporal) and find that the correlations between the frequency bands are particularly important for achieving a high spatial selectivity. Regarding the network architecture, this implies that spatial and spectral information should be processed together at an early stage. The DNN-based non-linear spatial filter designed according to this principle significantly outperforms an oracle beamformer plus DNN-based post-filter in difficult scenarios with a high number of interfering speakers and a low number of microphones.

In the third part of the thesis, we add a steering mechanism to the DNN-based non-linear spatial filter so that it can be steered in a chosen target direction. We apply the steerable filter to speech separation tasks and find that the explicit focus on the spatial selectivity of the filter during training is not only beneficial for the overall separation performance but also leads to an improved generalization ability compared to a similar network trained based on permutation invariant training (PIT).

As a result, this thesis not only contributes to a better theoretical understanding of non-linear spatial filters and their performance potential, but it also investigates various aspects of a practical implementation using DNNs. The research ultimately culminates in the development of a real-time demonstration of a DNN-based non-linear spatial filter.

Ein großer Teil der menschlichen Sprachkommunikation findet in lauten Umgebungen statt und wird durch technische Hilfsmittel ermöglicht. So kann beispielsweise eine hörgeschädigte Person ein Hörgerät benutzen, um an einem Gespräch in einem belebten Restaurant teilhaben zu können. Diese Geräte, aber auch Telekommunikation in lauten Umgebungen oder sprachgesteuerte Assistenten, nutzen Algorithmen zur Sprachverbesserung und Sprechertrennung. Diese verbessern die Sprachqualität und -verständlichkeit, indem sie die Sprecher separieren und Hintergrundgeräusche sowie andere unerwünschte Effekte wie Nachhall unterdrücken. Wenn die Geräte mit mehr als einem Mikrofon ausgestattet sind, was heutzutage sehr häufig der Fall ist, dann können Ansätze zur mehrkanaligen Sprachverbesserung und Sprechertrennung zusätzlich zu den einkanaligen tempo-spektralen Informationen auch räumliche Informationen nutzen.

Traditionell wurden lineare räumliche Filter, so genannte Beamformer, eingesetzt, um die Signalanteile aus anderen Richtungen als der Zielrichtung zu unterdrücken und so das Sprachsignal zu verbessern. Da die Rauschunterdrückung in akustisch herausfordernden Szenarien meist unzureichend ist, wird ein Beamformer zur räumlichen Filterung oft mit einem einkanaligen tempo-spektralen Post-Filter kombiniert. Im Bereich der einkanaligen Sprachverbesserung und Sprechertrennung dominieren seit einiger Zeit Ansätze auf Basis von tiefen neuronalen Netzen (engl. deep neural networks (DNNs)) die Forschungslandschaft. Im Bereich der mehrkanaligen Sprachverbesserung und Sprechertrennung hingegen findet derzeit ein Umbruch statt. Ursprünglich wurden DNNs nur als tempo-spektrale Modelle in mehrkanalige Systeme integriert, z.B. für die Schätzung der Beamformer-Parameter, aber die räumliche Verarbeitung wurde weiterhin mit einem linearen Beamformer durchgeführt. Heute nimmt jedoch die Zahl der Veröffentlichungen stetig zu, welche die traditionellen Ansätze vollständig durch ein DNN ersetzen. In diesem Fall kann mit dem DNN ein Filter realisiert werden, welches sowohl die räumliche als auch die zeitlich-spektrale Verarbeitung in eine einzige nicht-lineare Operation zusammenfasst. Solche kombiniert räumlich und tempo-spektralen nicht-linearen Filter sind der Forschungsgegenstand dieser Arbeit und werden im Folgenden verkürzend als nicht-lineare räumliche Filter bezeichnet.

Der erste Teil der Arbeit untersucht die Vorteile eines analytischen nicht-linearen räumlichen Filters im Vergleich zu einer traditionellen Verkettung aus Beamformer und Post-Filter aus einer statistischen Perspektive. Ein besseres Verständnis der Eigenschaften nicht-linearer räumlicher Filter hilft bei der Entscheidung, ob und in welchen Situationen ein (DNN-basiertes) nicht-lineares räumliches Filter die traditionellen Ansätze ersetzen sollte. Basierend auf analytischen Schätzern zeigen wir, dass ein nicht-lineares räumliches Filter einen Beamformer in Kombination mit einem Post-Filter übertrifft, wenn das Rauschen nicht gaußverteilt ist. Darüber hinaus zeigen wir anhand von Experimenten, dass das nicht-lineare räumliche Filter eine leistungsfähigere räumliche Verarbeitung ermöglicht, die nicht an die theoretischen Grenzen eines linearen Ansatzes gebunden ist.

Der zweite Teil konzentriert sich auf den Entwurf und die Analyse von DNN-basierten kombiniert räumlich und tempo-spektralen nicht-linearen Filtern. Wir analysieren die Abhängigkeiten zwischen den drei verfügbaren Informationsquellen (räumlich, spektral und zeitlich) und stellen fest, dass die Abhängigkeiten zwischen den Frequenzbändern sehr wichtig sind, um eine hohe räumliche Selektivität zu erreichen. Im Hinblick auf die Netzwerkarchitektur bedeutet dies, dass räumliche und spektrale Informationen zu einem frühen Zeitpunkt gemeinsam verarbeitet werden sollten. Unser DNN-basiertes nicht-lineares räumliches Filter, das nach diesem Prinzip entworfen wurde, übertrifft in schwierigen Szenarien mit einer hohen Anzahl von störenden Sprechern und einer geringen Anzahl von Mikrofonen deutlich die Leistung eines Orakel-Beamformers kombiniert mit einem DNN-basierten Post-Filter.

Im dritten Teil der Arbeit fügen wir dem DNN-basierten nicht-linearen räumlichen Filter einen Steuerungsmechanismus hinzu, so dass es in eine bestimmte Zielrichtung ausgerichtet werden kann. Wir verwenden das steuerbare Filter für die Sprechertrennung und stellen fest, dass der explizite Fokus auf die räumliche Selektivität des Filters während des Trainings nicht nur vorteilhaft für die Gesamtleistung ist, sondern auch zu einer verbesserten Generalisierungsfähigkeit im Vergleich zu einem ähnlichen Netzwerk führt, das mit Hilfe einer permutations-invarianten Verlustfunktion trainiert wurde.

Im Ergebnis leistet diese Arbeit damit nicht nur einen Beitrag zu einem besseren theoretischen Verständnis nicht-linearer räumlicher Filter und ihres Leistungspotenzials, sondern untersucht auch verschiedene Aspekte einer praktischen Umsetzung mit DNNs. Die Forschung gipfelt schließlich in der Entwicklung einer Echtzeit-Demonstration eines DNN-basierten nicht-linearen räumlichen Filters.
URL: https://ediss.sub.uni-hamburg.de/handle/ediss/10740
URN: urn:nbn:de:gbv:18-ediss-115590
Dokumenttyp: Dissertation
Betreuer*in: Gerkmann, Timo
Enthalten in den Sammlungen:Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:
Datei Beschreibung Prüfsumme GrößeFormat  
dissertation.pdf625ce0d4d1b565e471dd9547d4674c023.97 MBAdobe PDFÖffnen/Anzeigen
Zur Langanzeige

Diese Publikation steht in elektronischer Form im Internet bereit und kann gelesen werden. Über den freien Zugang hinaus wurden durch die Urheberin / den Urheber keine weiteren Rechte eingeräumt. Nutzungshandlungen (wie zum Beispiel der Download, das Bearbeiten, das Weiterverbreiten) sind daher nur im Rahmen der gesetzlichen Erlaubnisse des Urheberrechtsgesetzes (UrhG) erlaubt. Dies gilt für die Publikation sowie für ihre einzelnen Bestandteile, soweit nichts Anderes ausgewiesen ist.

Info

Seitenansichten

Letzte Woche
Letzten Monat
geprüft am null

Download(s)

Letzte Woche
Letzten Monat
geprüft am null
Werkzeuge

Google ScholarTM

Prüfe