FAQ
© 2019 Staats- und Universitätsbibliothek
Hamburg, Carl von Ossietzky

Öffnungszeiten heute09.00 bis 24.00 Uhr alle Öffnungszeiten

Eingang zum Volltext in OPUS

Hinweis zum Urheberrecht

Dissertation zugänglich unter
URN: urn:nbn:de:gbv:18-95021
URL: http://ediss.sub.uni-hamburg.de/volltexte/2019/9502/


Robust Speech Enhancement Using Statistical Signal Processing and Machine-Learning

Robuste Sprachverbesserung mittels statistischer Signalverarbeitung und maschinellem Lernen

Rehr, Robert

pdf-Format:
 Dokument 1.pdf (3.839 KB) 


SWD-Schlagwörter: Signalverarbeitung , Sprachverarbeitung , Geräuschminderung , Bayes-Verfahren , Maschinelles Lernen , Deep learning , Neuronales Netz
Freie Schlagwörter (Englisch): speech enhancement , noise reduction , signal processing , Bayesian statistics , machine learning
Basisklassifikation: 54.75 , 53.70
Institut: Informatik
DDC-Sachgruppe: Informatik
Dokumentart: Dissertation
Hauptberichter: Gerkmann, Timo (Prof. Dr.-Ing.)
Sprache: Englisch
Tag der mündlichen Prüfung: 27.04.2018
Erstellungsjahr: 2018
Publikationsdatum: 10.01.2019
Kurzfassung auf Englisch: With the availability of powerful mobile electronic devices, speech communication plays an important role in many applications such as telecommunications, hearing aids and voice-controlled devices. Due to their mobility, such devices are often used in noisy acoustic environments. In such situations, the microphones do not only capture the desired speech signal but also undesired background noises. This degrades the perceived quality and the intelligibility of the speech signal. Further, the performance of subsequent speech processing algorithms may be impaired by background noises. To restore the quality and possibly also the intelligibility of noise corrupted speech, speech enhancement algorithms are employed.

In this thesis, single-channel speech enhancement algorithms that either process the signal captured by a single microphone or the output of a spatial filtering algorithm are considered. The aim of this thesis is to increase the robustness of machine-learning (ML)-based and non-ML-based single-channel speech enhancement algorithms by exploiting synergies between both approaches. In conventional non-ML-based speech enhancement such as Wiener filtering based approaches, spectral gain functions are applied to the complex coefficients of the short-time Fourier spectra to enhance the noisy input signal. These gain functions are derived in a statistical framework where the clean speech and the noise Fourier coefficients are modeled using parametric probability density functions (PDFs). The parameters of the PDFs are estimated blindly from the noisy observation. Contrarily, ML-based algorithms use representative examples to learn the statistics of speech and noise which are then used for the enhancement. Often, ML-based approaches are motivated by the fact that conventional approaches are unable to follow highly non-stationary background noise types. However, it is still unclear how well ML-based approaches generalize unseen acoustic conditions.

The first part of this thesis deals with non-ML-based noise power spectral density (PSD) estimators that rely on first-order recursive smoothing filter structures. In contrast to usual linear smoothing filters, the considered noise PSD estimators adaptively change the smoothing factor based on the previously estimated noise PSD and the noisy input. We show that such noise PSD estimators are generally biased and present approaches to analytically quantify and compensate for the bias.

Second, we address a specific group of speech enhancement approaches where the speech PSD estimates are obtained using ML techniques. As the considered techniques only represent coarse spectral envelopes of speech, we refer to them as machine-learning spectral envelope (MLSE)-based approaches. The coarse speech PSD estimates of an MLSE approach result in an overestimation of the speech PSD between speech spectral harmonics. As a consequence, noise between these harmonics is not suppressed, if Gaussian speech enhancement filters, e.g., the Wiener filter, are employed. As a result, the enhanced signal exhibits noise bursts in speech active segments which reduce the perceived quality. Our analysis shows that super-Gaussian estimators are able to suppress the background noise even if the speech PSD is overestimated. Correspondingly, we propose to use these estimators to improve the quality of MLSE speech enhancement approaches. Further, an alternative approach to suppress the noise between speech spectral harmonics is proposed. Instead of using super-Gaussian models, an ML and a non-ML-based approach are combined.

In the last part of the thesis, the generalization of unseen noise conditions of deep neural network (DNN)-based enhancement schemes is considered. To make the ML approach more robust to unseen noise conditions, it is proposed to use normalized features based on speech and noise PSD estimates obtained from conventional non-ML-based enhancement algorithms. More specifically, we propose to use the a priori signal-to-noise ratio (SNR), i.e., the ratio between the speech PSD and the noise PSD, and the a posteriori SNR, i.e., the ratio between the noisy periodogram and the noise PSD, as input features. In comparison to the already existing noise aware training approaches, where an estimate of the noise PSD is appended to the features extracted from the noisy observation, the proposed approach has two major advantages: First, the proposed features are scale-invariant, i.e., their value is not influenced by the overall level of the input signal. As a result, also the performance of the DNN-based speech enhancement scheme becomes independent of the overall signal level. Second, the results show that the proposed features generally outperform noise aware training features in terms of enhancement quality in unseen noise conditions.
Kurzfassung auf Deutsch: Durch die Verfügbarkeit von leistungsfähigen, elektronischen Mobilgeräten spielt Sprachkommunikation eine immer wichtigere Rolle, inbesondere in Anwendungen wie Telekommunikation, Hörhilfen und sprachgesteuerten Geräte. Aufgrund ihrer Mobilität werden solche Geräte oft in akustischen Umgebungen eingesetzt, in denen Hintergrundgeräusche auftreten. In solchen Situationen nehmen die Mikrofone nicht nur das gewünschte Sprachsignal sondern auch die ungewünschten Geräusche auf. Dies verschlechtert die wahrgenommene Qualität und Verständlichkeit des Sprachsignals. Außerdem kann die Leistungsfähigkeit von nachfolgenden Sprachverarbeitungsalgorithmen durch die Störgeräusche verschlechtert werden. Um die Qualität und, wenn möglich, auch die Verständlichkeit der gestörten Sprache wiederherzustellen, werden Sprachverbesserungsalgorithmen eingesetzt.

In dieser Arbeit werden einkanalige Sprachverbesserungsalgorithmen betrachtet, die entweder das Signal eines einzelnen Mikrofons oder den Ausgang eines räumlichen Filters verarbeiten. Das Ziel dieser Arbeit ist es, die Robustheit einkanaliger, maschinenlernbasierter (ML-basiert) Verfahren und nicht-maschinenlernbasierte (nicht-ML-basiert) Sprachverbesserungsalgorithmen durch das Ausnutzen von Synergien zu erhöhen. In konventioneller nicht-ML-basierter Sprachverbesserung, z. B. Ansätze, die auf Wiener-Filterung basieren, werden spektrale Gewichtungsfunktionen auf die komplexen Koeffizienten der Kurzzeit-Fourier-Transformation angewendet, um das verrauschte Eingangssignal zu verbessern. Diese Gewichtungsfunktionen werden in einem statistischen Rahmenwerk hergeleitet, in dem die Koeffizienten der unverrauschten Sprache und des Rauschens durch parametrische Wahrscheinlichkeitsdichten modelliert werden. Die Parameter der Verteilungen werden blind aus den verrauschten Beobachtungen geschätzt. Im Gegensatz dazu nutzen ML-basierte Algorithmen repräsentative Beispiele, um die statistischen Eigenschaften der Sprache und des Rauschens zu lernen, die anschließend für die Verbesserung verwendet werden. Häufig sind ML-basierte Ansätze dadurch motiviert, dass konventionelle Ansätze nicht in der Lage sind, hochinstationären Geräuschtypen zu folgen. Allerdings ist weiterhin unklar, wie gut ML-basierte Ansätze ungesehene akustische Konditionen generalisieren können.

Im ersten Teil dieser Arbeit geht es um nicht-ML-basierte Geräuschleistungsdichteschätzer, die auf Glättungsfilter erster Ordnung basieren. Im Gegensatz zu herkömmlichen linearen Glättungsfiltern verändern die betrachteten Geräuschleistungsdichteschätzer den Glättungsparameter adaptiv basierend auf der zuvor geschätzten Geräuschleistungsdichte und dem verrauschten Eingang. Wir zeigen, dass die Schätzung solcher Geräuschleistungsdichteschätzer im Allgemeinen fehlerbehaftet ist, und stellen Ansätze zur analytischen Bestimmung und zur Kompensation des Fehlers vor.

Als zweites wird eine spezifische Gruppe von Sprachverbesserungsansätzen adressiert, bei denen die Sprachleistungsdichtespektren durch ML-basierte Verfahren bestimmt werdenDa die betrachteten Methoden nur grobe spektrale Einhüllende der Sprache abbilden, bezeichnen wir diese als ML-basierte Spracheinhüllendenverfahren. Die groben Sprachleistungsdichteschätzungen der ML-basierten Spracheinhüllendenverfahren führen zu einer Überschätzung der Sprachleistungsdichte zwischen den spektralen Harmonischen der Sprache. Dadurch wird das Geräusch zwischen diesen Harmonischen nicht unterdrückt, wenn gaußsche Sprachverbesserungsfilter, z. B. das Wiener Filter, eingesetzt werden. Infolgedessen ist die Geräuschreduktion in sprachaktiven Segmenten stark begrenzt, wodurch die wahrgenommene Qualität reduziert wird. Unsere Analyse zeigt, dass supergaußsche Schätzer in der Lage sind, das Geräusch zu reduzieren, auch wenn die Sprachleistungsdichte überschätzt wird. Dementsprechend schlagen wir vor, diese Art von Schätzer zur Verbesserung der Signalqualität bei ML-basierten Verbesserungsalgorithmen einzusetzen, die nur die Spracheinhüllende abbilden. Zusätzlich, schlagen wir einen alternativen Ansatz vor, um das Geräusch zwischen den spektralen Harmonischen der Sprache zu unterdrücken. Bei diesem Ansatz werden ML- und nicht-ML-basierte Ansätze miteinander kombiniert, anstatt supergaußsche Sprachmodelle zu verwenden.

Im letzten Teil dieser Arbeit wird die Generalisierbarkeit eines ML-basierten Verbesserungsverfahrens, das auf tiefen neuronalen Netzwerken (DNNs) basiert, in ungesehenen Geräuschtypen betrachtet. Um den ML-basierten Ansatz robuster gegen ungesehene Geräuschkonditionen zu machen, werden normalisierte Merkmale basierend auf der Sprach- und Geräuschleistungsdichte vorgeschlagen, die durch konventionelle, nicht-ML-basierte Verbesserungsalgorithmen bestimmt werden. Im Speziellen schlagen wir vor, das a priori Signal-zu-Rauschverhältnis (SNR), also das Verhältnis zwischen Sprach- und Rauschleistungsdichte, und das a posteriori SNR, also das Verhältnis zwischen dem verrauschten Eingangsperiodogram und der Geräuschleistungsdichte, als Eingangsmerkmale einzusetzen. Im Vergleich zu den zuvor vorgeschlagenen Ansätzen zum geräuschbewusstem Training, bei denen eine Schätzung der Geräuschleistungsdichte an die Merkmale, die aus der verrauschten Beobachtung extrahiert wurden, angehängt werden, hat der vorgeschlagene Ansatz zwei wesentliche Vorteile: Erstens sind die vorgeschlagenen Merkmale skalierungsinvariant, d.h., dass ihr Wert nicht durch den Gesamtpegel des Eingangssignals beeinflusst wird. Aufgrund dessen ist die Verbesserungsleistung des DNN-basierten Sprachverbesserungsverfahrens entsprechend unabhängig vom Gesamtpegel. Zweitens zeigen die Ergebnisse, dass die vorgeschlagenen Merkmale das geräuschbewusste Training im Hinblick auf die Verbesserungsqualität in ungesehenen Geräuschkonditionen schlagen.

Zugriffsstatistik

keine Statistikdaten vorhanden
Legende