| Titel: | Generative Speech Enhancement in Multimodal Applications | Sprache: | Englisch | Autor*in: | Richter, Julius | Schlagwörter: | speech enhancement; diffusion models; audio-visual; dereverberation; speech dataset | GND-Schlagwörter: | SprachverarbeitungGND DiffusionsmodellGND Generative KIGND SignalverarbeitungGND Maschinelles LernenGND Audiovisuelle MedienGND | Erscheinungsdatum: | 2025 | Tag der mündlichen Prüfung: | 2025-09-12 | Zusammenfassung: | This dissertation advances generative speech enhancement by investigating both unsupervised and supervised machine learning approaches, with a focus on integrating visual information to improve robustness. The work is organized into three main contributions: The first contribution focuses on unsupervised generative speech enhancement. We explore a Bayesian framework combining variational autoencoders (VAEs) trained on clean speech with a non-negative matrix factorization (NMF) noise model. We propose to use stochastic temporal convolutional networks (STCNs) with temporal and hierarchical latent variables to capture the dynamic structure of speech. We employ a Monte Carlo expectation-maximization algorithm for joint optimization of speech and noise parameters. Replacing the VAE with an STCN in the VAE-NMF framework enables us to learn a more expressive generative model for speech, leading to improved performance in speech enhancement. To incorporate visual cues, we propose a disentanglement learning approach for the latent variables, which allows the VAE to be conditioned on voice activity labels inferred from an audio-visual classifier. Conditioning on visual features enables the model to learn a more robust speech representation, improving the quality of the enhanced speech. The second contribution pertains to supervised generative speech enhancement. We investigate diffusion models for high-quality speech restoration, introducing score-based generative models for speech enhancement (SGMSE), a novel method that adapts the diffusion process to learn clean speech posteriors conditioned on corrupted inputs. Notably, SGMSE is not limited to addressing additive corruptions; it is also suitable for restoring general speech communication artifacts, effectively handling diverse distortions such as background noise, reverberation, bandwidth limitation, codec artifacts, and packet loss. We provide a comprehensive review of diffusion models for audio restoration, highlighting their data-driven nature while also discussing their potential for integration into model-based approaches. We extend SGMSE to audio-visual speech enhancement by conditioning on visual features, and propose causal processing by adapting the network architecture. Additionally, we explore alternative diffusion processes, including the Schrödinger bridge, to improve efficiency and perceptual quality. The third contribution of this dissertation is an analysis of generative speech enhancement methods in comparison to predictive approaches. We conduct evaluations of generative methods against predictive methods using the Expressive Anechoic Recordings of Speech (EARS) dataset, a high-quality 48 kHz speech corpus we curated, which encompasses a variety of speaking styles, emotional prosody, and conversational speech.To facilitate this evaluation, we create two speech enhancement benchmarks based on the EARS dataset, with controlled background noise and reverberation, respectively. Our improved model SGMSE+ consistently outperforms all baseline methods on these benchmarks across both objective measures and subjective listening evaluations. By addressing critical research questions within unsupervised, supervised, and audio-visual frameworks, this work demonstrates the use of generative models as a powerful paradigm for speech enhancement, with significant implications for reliable communication and audio restoration. In dieser Dissertation wird die generative Sprachverbesserung weiterentwickelt, indem sowohl unüberwachte als auch überwachte Ansätze des maschinellen Lernens untersucht werden. Ein Schwerpunkt liegt dabei auf der Integration visueller Informationen zur Verbesserung der Robustheit. Die Arbeit gliedert sich in drei Hauptbeiträge: Der erste Beitrag konzentriert sich auf die unüberwachte generative Sprachverbesserung. Wir untersuchen einen Bayes'schen Ansatz, der Variational Autoencoder (VAEs), die auf sauberer Sprache trainiert werden, mit einem nichtnegativen Matrixfaktorisierungs (NMF)-Rauschmodell kombiniert. Wir schlagen vor, Stochastic Temporal Convolutional Networks (STCNs) mit zeitlichen und hierarchischen latenten Variablen zu verwenden, um die dynamische Struktur von Sprache zu erfassen. Wir verwenden einen Monte-Carlo Erwartungs-Maximierungs-Algorithmus für die gemeinsame Optimierung von Sprach- und Rauschparametern. Das Ersetzen des VAEs durch ein STCN im VAE-NMF-Framework ermöglicht es uns, ein aussagekräftigeres generatives Modell für Sprache zu lernen, was zu einer verbesserten Leistung bei der Sprachverbesserung führt. Um visuelle Hinweise einzubeziehen, schlagen wir einen Disentanglement Learning-Ansatz für die latenten Variablen vor, der es ermöglicht, den VAE auf Sprachaktivitäts-Labels zu konditionieren, die von einem audiovisuellen Klassifikator abgeleitet werden. Die Konditionierung auf visuelle Merkmale ermöglicht es dem Modell, eine robustere Sprachrepräsentation zu erlernen und so die Qualität der Sprache zu verbessern. Der zweite Beitrag bezieht sich auf die überwachte generative Sprachverbesserung. Wir untersuchen Diffusionsmodelle für eine qualitativ hochwertige Sprach-Restauriering und führen Score-basierte generative Modelle für die Sprachverbesserung (SGMSE) ein, eine neuartige Methode, die den Diffusionsprozess anpasst, um saubere Sprachposteriori zu erlernen, die von beschädigten Eingaben abhängen. Insbesondere ist SGMSE nicht auf die Bearbeitung additiver Störungen beschränkt, sondern eignet sich auch für die Restaurierung allgemeiner Artefakte in der Sprachkommunikation, wobei verschiedene Störungen wie Hintergrundgeräusche, Nachhall, Bandbreitenbeschränkung, Codec-Artefakte und Paketverluste effektiv behandelt werden. Wir geben einen umfassenden Überblick über Diffusionsmodelle für die Audiorestauration, wobei wir ihre datengesteuerte Natur hervorheben und gleichzeitig ihr Potenzial für die Integration in modellbasierte Ansätze diskutieren. Wir erweitern SGMSE zur audiovisuellen Sprachverbesserung durch Konditionierung auf visuelle Merkmale und schlagen eine kausale Verarbeitung durch Anpassung der Netzwerkarchitektur vor. Darüber hinaus untersuchen wir alternative Diffusionsprozesse, einschließlich der Schrödinger-Brücke, um die Effizienz und Wahrnehmungsqualität zu verbessern. Der dritte Beitrag dieser Dissertation beinhaltet die Analyse generativer Sprachverbesserung im Vergleich zu prädiktiven Ansätzen. Wir evaluieren generative Methoden im Vergleich zu prädiktiven Methoden anhand des Expressive Anechoic Recordings of Speech (EARS)-Datensatzes, einem von uns kuratierten hochwertigen 48 kHz-Sprachkorpus, der eine Vielzahl von Sprechstilen, emotionaler Prosodie und Konversationssprache umfasst. Zur Evaluierung erstellen wir zwei Sprachverbesserungs-Benchmarks auf der Grundlage des EARS-Datensatzes, jeweils mit kontrolliertem Hintergrundrauschen und Nachhall. Unser verbessertes Modell SGMSE+ übertrifft alle Baseline Methoden bei diesen Benchmarks sowohl bei objektiven Messungen als auch bei subjektiven Hörbewertungen. Durch die Auseinandersetzung mit kritischen Forschungsfragen in unüberwachten, überwachten und audiovisuellen Rahmenwerken demonstriert diese Arbeit die Verwendung generativer Modelle als ein überzeugendes Paradigma für die Sprachverbesserung, mit bedeutenden Auswirkungen auf zuverlässige Kommunikation und Audiorestauration. | URL: | https://ediss.sub.uni-hamburg.de/handle/ediss/11999 | URN: | urn:nbn:de:gbv:18-ediss-132377 | Dokumenttyp: | Dissertation | Betreuer*in: | Gerkmann, Timo | 
| Enthalten in den Sammlungen: | Elektronische Dissertationen und Habilitationen | 
Dateien zu dieser Ressource:
| Datei | Beschreibung | Prüfsumme | Größe | Format | |
|---|---|---|---|---|---|
| 18-ediss-132377.pdf | e6904f1cbbdc9355e8f4fdf3beef0eaa | 23.48 MB | Adobe PDF |  Öffnen/Anzeigen | 
                Info
            
            Seitenansichten
                                    Letzte Woche
                                    
                                    
                                        
                                            
                                                
                                                    
                                                
                                                
                                            
                                        
                                        
                                    
                                
                                
                                    Letzten Monat
                                    
                                    
                                        
                                            
                                                
                                                    
                                                
                                                
                                            
                                        
                                        
                                    
                                
                            
                                    geprüft am null
                                
                            Download(s)
                                    Letzte Woche
                                    
                                    
                                        
                                            
                                                
                                                    
                                                
                                                
                                            
                                        
                                        
                                    
                                
                                
                                    Letzten Monat
                                    
                                    
                                        
                                            
                                                
                                                    
                                                
                                                
                                            
                                        
                                        
                                    
                                
                            
                                    geprüft am null
                                
                            
                Werkzeuge
            
            
