Titel: Challenges and Solutions for the Protection of Training Data of Machine Learning Models
Sprache: Englisch
Autor*in: Stock, Joshua Lukas
Schlagwörter: Property Inference; Federated Learning
GND-Schlagwörter: Maschinelles LernenGND
TrainingsdatenGND
DatenschutzGND
Neuronales NetzGND
PrivatsphäreGND
Künstliche IntelligenzGND
Erscheinungsdatum: 2025-03-30
Tag der mündlichen Prüfung: 2025-07-09
Zusammenfassung: 
Few technologies have had as great an impact on society in recent years as machine learning (ML) algorithms, and their influence continues to grow. Many applications, such as voice assistants, self-driving vehicles, and advanced chatbots, would not be possible without ML models at their core. Before being deployed, these models go through a training phase where they are optimized using a training dataset. This automated process is the key to the popularity of ML models: Models can answer complex questions represented by data in different forms – including image, audio and tabular data. Successful model training often requires vast amounts of training data. The increasing digitization of business processes has led many organizations to collect and store data on large scales, which can be used for ML training. However, this data may contain sensitive information, such as personal information or trade secrets. Using it for training and publishing a trained model afterwards does not come without risks.
As numerous publications have shown, ML models often store more sensitive information of their training data than intended, even if this is not necessary for the fulfillment of their tasks. In particular, so-called inference attacks aim at recovering such sensitive information from models after their training process. This dissertation fills a research gap regarding the reconstruction of statistical training data properties from ML models – the property inference attack (PIA). Both the white-box threat model, where the attacker has access to the model’s internal parameters, and the black-box threat model, where the attacker can only compute model outputs through an interface, are examined. For the white-box variant, a defense mechanism is introduced and evaluated. Outlining its limitations, the functionality of the attack is analyzed, revealing severe traces of training data properties in the trained parameters of ML models. For the black-box scenario of the PIA, a new attack framed as a regression problem is proposed. Its performance is tested in experiments and compared to a white-box benchmark, exhibiting strong R² test values of up to 0.86. To defend against this attack, a promising adversarial learning defense strategy is presented and experimentally evaluated.
When training data is spread across multiple parties, distributed training algorithms such as federated learning (FL) enable the collaborative training of ML models without the transmission of training data. This dissertation examines the benefits and practical limitations of FL through a case study in official statistics. Simulations across three use cases – medical insurance, fine dust pollution, and mobile radio coverage – demonstrate its strong potential for producing official statistics. FL is particularly advantageous when data owners wish to retain control over their data while still benefiting from a collaboratively trained model. A common privacy concern in FL is the potential leakage of sensitive information through data exchanged during the training process. To prevent leaked information from being linked to individual participants, a novel FL protocol that enhances client anonymity is also presented in this dissertation. An independent dealer party is introduced to facilitate an efficient cryptographic masking mechanism, reducing runtimes by up to 87.8% compared to related work. The security of the protocol is validated by a mathematical proof and its performance is assessed in various experiments.
As ML algorithms continue to gain relevance, this dissertation aims to contribute to an understanding and improvement of training data privacy, both for PIAs on trained models and distributed FL training processes.

Die gesellschaftliche Relevanz von Algorithmen des maschinellen Lernens (ML) ist in den letzten Jahren stetig gestiegen. Moderne Anwendungen wie Sprachassistenten, selbstfahrende Fahrzeuge und Chatbots basieren zunehmend auf leistungsfähigen ML-Modellen. Bevor solche Modelle eingesetzt werden können, durchlaufen sie eine Trainingsphase, in der sie schrittweise an einen Trainingsdatensatz angepasst bzw. dafür optimiert werden. Dieser algorithmengesteuerte Anpassungsprozess ist von entscheidender Bedeutung für den Erfolg der Technologie: Er ermöglicht es den ML-Modellen, komplexe Problemlösungen aus den vorliegenden Daten abzuleiten. Diese Daten können in verschiedenen Formaten vorliegen, etwa als tabellarische Daten, Bild- oder Audiodateien. Für ein erfolgreiches Training sind oftmals große Mengen an Daten erforderlich. Begünstigt durch die fortschreitende Digitalisierung fallen in vielen Bereichen enorme Mengen an Daten an, die zum Training von ML-Modellen genutzt werden können. Allerdings enthalten viele dieser Datensätze auch schützenswerte Informationen, etwa Geschäftsgeheimnisse oder personenbezogene Daten, die nicht für die Öffentlichkeit bestimmt sind. Der Einsatz solcher Datensätze zum Training eines ML Modells und dessen anschließende Veröffentlichung können Gefahren für den Datenschutz mit sich bringen.
Wie in zahlreichen wissenschaftlichen Arbeiten gezeigt werden konnte, beinhalten trainierte ML-Modelle oft mehr sensible Informationen aus den Trainingsdaten als notwendig. Sogenannte Inferenzangriffe zielen darauf ab, diese sensiblen Informationen aus den trainierten Modellen zu extrahieren. Die vorliegende Dissertation schließt eine Forschungslücke im Bereich der Rekonstruktion von statistischen Trainingsdateneigenschaften – der sogenannten Property Inference. Dabei werden sowohl das White-Box-Angreifermodell, bei dem Angreifende Zugriff auf die internen Modellparameter haben, als auch das Black-Box-Angreifermodell, bei dem lediglich über eine Schnittstelle Modellausgaben berechnen werden können, untersucht. Für das White-Box-Modell wird ein neuer Verteidigungsmechanismus vorgestellt und evaluiert, wobei festgestellt wird, dass seine Wirksamkeit auf bestimmte Instanzen von Property Inference Angreifern, die zum Zeitpunkt der Verteidigung bekannt sein müssen, limitiert ist. Die Analyse jener Einschränkung führt zu einer tiefergehenden Untersuchung der Funktionsweise von White-Box Property Inference. Dabei wird gezeigt, dass die Spuren statistischer Eigenschaften der Trainingsdaten über weite Teile der trainierten Modellparameter hinweg verteilt sind und häufig deutlich erkennbar sind. Im Black-Box-Angreifermodell wird eine neue Version des Angriffs vorgestellt, bei der Property Inference nicht wie herkömmlich als Klassifikations-, sondern als Regressionsproblem betrachtet wird. In eigens durchgeführten Experimenten wird die Leistungsfähigkeit dieses Angriffs mit einem R²-Wert von bis zu 0,86 demonstriert, und mit einem entsprechenden White-Box-Angriff verglichen. Ein vielversprechender Verteidigungsmechanismus gegen diesen Black-Box-Angriff, der auf adversarial learning basiert, wird ebenfalls eingeführt und in Experimenten auf seine Wirksamkeit hin evaluiert.
In der Praxis sind Trainingsdaten oftmals nicht an einem zentralen Ort gebündelt, sondern auf mehrere Parteien verteilt. Verteilte Trainingsalgorithmen wie Federated Learning (FL) ermöglichen es, ein gemeinsames Modell zu trainieren, ohne dass die Trainingsdaten selbst übertragen werden müssen. Diese Dissertation enthält eine Analyse der Vorteile und der praktischen Herausforderungen von FL, die aus einer simulierten Fallstudie zum Potenzial von FL für die amtliche Statistik abgeleitet wird. Die Simulationen beziehen sich auf Themen, die für die amtliche Statistik von Bedeutung sind, nämlich Luftverschmutzung, Kosten von Krankenversicherungen und die Empfangsabdeckung für den Mobilfunk. Die Ergebnisse dieser Simulationen zeigen, dass FL in Bezug auf die Modellleistung mit herkömmlichen Trainingsalgorithmen konkurrieren kann. Daher bietet FL besonders in Szenarien, in denen Besitzer von Trainingsdaten ihre Datenhoheit nicht aufgeben möchten, ein großes Potenzial. Allerdings bergen auch FL-Trainingsalgorithmen Risiken für die Geheimhaltung sensibler Informationen aus den Trainingsdaten. Denn das Training durch FL beinhaltet regelmäßige Übertragungen von trainierten Modellen zwischen einer zentralen Partei und den Teilnehmern – den sogenannten Clients. Um zu verhindern, dass sensible Informationen einzelnen Clients zugeordnet werden können, wird in dieser Dissertation ein neuartiges Protokoll vorgestellt, das eine verbesserte Anonymität der Teilnehmer ermöglicht. Dazu wird eine unabhängige Dealer-Partei eingeführt, die rechenintensive kryptografische Operationen übernimmt und somit einen effizienten Algorithmus zur Maskierung der Client-Updates ermöglicht. Im Vergleich zu verwandten Arbeiten kann die Laufzeit des Protokolls um bis zu 87,8% reduziert werden. Experimente belegen sowohl die Effizienz als auch die Skalierbarkeit des neuen Protokolls, dessen Sicherheit zudem mathematisch bewiesen wird.
Mit der stetig wachsenden Relevanz von ML-Algorithmen zielt diese Dissertation darauf ab, einen Beitrag zum Verständnis und zum Schutz der Privatsphäre von Trainingsdaten zu leisten – sowohl in Bezug auf Property Inference bei bereits trainierten Modellen als auch während verteilter Trainingsprozesse.
URL: https://ediss.sub.uni-hamburg.de/handle/ediss/11809
URN: urn:nbn:de:gbv:18-ediss-129149
Dokumenttyp: Dissertation
Betreuer*in: Federrath, Hannes
Enthalten in den Sammlungen:Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:
Datei Beschreibung Prüfsumme GrößeFormat  
dissertation-publication.pdfd51d12992a2ba97ed82a02a26d8aeb722.81 MBAdobe PDFÖffnen/Anzeigen
Zur Langanzeige

Info

Seitenansichten

Letzte Woche
Letzten Monat
geprüft am null

Download(s)

Letzte Woche
Letzten Monat
geprüft am null
Werkzeuge

Google ScholarTM

Prüfe