Robust and trustworthy deep learning-based disease detection and risk assessment on MRI and histopathological images that exceeds predictive performance of human experts

Westhäußer, Fabian

Titel:	Robust and trustworthy deep learning-based disease detection and risk assessment on MRI and histopathological images that exceeds predictive performance of human experts
Sprache:	Englisch
Autor*in:	Westhäußer, Fabian
Schlagwörter:	Robustness; Trustworthiness; Interpretability; Clinical Decision Support; Histopathology
GND-Schlagwörter:	Deep learningGND PathologieGND KernspintomografieGND Maschinelles LernenGND RisikoanalyseGND
Erscheinungsdatum:	2024-05
Tag der mündlichen Prüfung:	2024-10-08
Zusammenfassung:	AI-based models for medical image analysis show great potential to assist medical practitioners in their clinical practice, improving diagnostic accuracy, efficiency, and ultimately patient outcome. However, being applicable in a sensitive field such as healthcare comes with several specific challenges and requirements that many existing AI-based models do not meet. These encompass, besides others, a performance that matches those of the human practitioners, robustness to data variance and trustworthiness. Human-level performance builds the foundational incentive to employ an AI-based system for clinical decision support. However, this performance needs to be reliable when confronted with high data variance in clinical practice, caused by factors such as different processing protocols or acquisition devices. Many current models struggle to generalize to data outside of their known training distribution. Finally, practitioners and patients need to be able to put trust into model predictions. While a high predictive accuracy on a validation cohort provides statistical foundation to the models aptitude, the black box character inherent to deep learning models makes interpretation and assessment of individual cases difficult. To this end, this thesis proposes two deep learning models in the field of medical image processing that aim to tackle the previously mentioned requirements of clinical applicability, namely human-level performance, robustness and trustworthiness. The first model, DeePSC, is a convolutional neural network-based ensemble classifier that detects primary schlerosing cholangitis, an autoimmune liver disease, on magnetic resonance images. It is specifically designed to process MRI images taken from seven angular views around the patient. By comparing against four experienced radiologists, it is shown that DeePSC outperforms the average human rater on two datasets acquired with different magnetic field strengths by 5.5 and 10.3 percentage points in terms of accuracy. Robustness is assessed by showing high predictive accuracy of 92.4% on an external validation cohort acquired at a different scanner device. To further mitigate the black box character of the network and build trust in its predictions, GradCAM activation mappings are employed, which reveal salient regions in the input images in the biologically relevant areas of the biliary tree. Lastly, an extensive technical analysis on multiple aggregation strategies to combine information of the seven angular images of the MRI data is conducted. The second model, PCAI, is an end-to-end risk prediction network that quantifies the aggressiveness of prostate cancer and the associated risk of patients based on histopathological microscopy images of prostate tissue. It is trained on one of the largest and most heterogeneous histopathological prostate datasets collected to date, encompassing six cohorts with over 25,591 patients, 83,864 images, and five years of median follow-up from five different centers and three countries. This heterogeneity is utilized by training PCAI in a domain adversarial fashion on digitized tissue microarray spots extracted after operative removal of the prostate. By including further algorithmic extensions such as credibility estimation, color adaptation and cancer indication, PCAI outperforms a separately trained baseline model on eight highly variant internal and external datasets, proving its robustness to distribution shifts encountered in clinical practice. PCAI further systematically outperforms ISUP annotations of multiple highly skilled human experts, which represents the current gold-standard for evaluating cancer aggressiveness, on an unseen spot dataset as well as two pre-operative biopsy datasets by up to 22.3 percentage points in terms of concordance index. Especially the high predictive accuracy on the latter is of great clinical relevance. Finally, the model quantifies its confidence in a prediction by a separate credibility score and highlights cancerous regions on the input images for potential re-evaluation, aiming to build trust and interpetability. By performing a thorough analysis and evaluation of both proposed models with respect to the initially defined requirements and their aptitude as a clinical decision support system, this thesis aims to contribute to the state of the art of deep learning-based medical image analysis and provide a potential blueprint for decision support systems in clinic practice. KI-basierte Modelle für die medizinische Bildanalyse weisen ein beträchtliches Potenzial auf, Ärzte in der klinischen Praxis zu unterstützen, die diagnostische Genauigkeit, die Effizienz und letztendlich den Therapieerfolg der Patienten zu verbessern. Die Anwendbarkeit in einem sensiblen Bereich wie dem Gesundheitswesen ist jedoch mit verschiedenen spezfifischen Herausforderungen und Anforderungen verbunden, denen viele KI-basierte Modelle in der Literatur noch nicht gerecht werden. Dazu gehören u. a. eine prädiktive Genaugigkeit, die der des menschlichen Arztes entspricht, Robustheit gegenüber Varianz in den verarbeiteten Daten und Vertrauenswürdigkeit. Die Leistung auf menschlichem Niveau stellt den grundlegenden Anreiz für den Einsatz eines KI-basierten Systems zur klinischen Entscheidungsunterstützungs dar. Die Zuverlässigkeit der prädiktiven Genauigkeit muss jedoch gewährleistet sein, wenn die KI mit Daten konfrontiert wird, welche die in der klinischen Praxis auftretende Varianz widerspiegeln, die durch Faktoren wie unterschiedliche Verarbeitungsprotokolle oder Aufnahmegeräte verursacht wird. Viele KI-basierte Modelle in der Literatur haben Probleme mit der Generalisierbarkeit auf Daten außerhalb ihrer bekannten Trainingsverteilung. Darüber hinaus müssen Ärzte und Patienten in der Lage sein, den Vorhersagen des Modells zu vertrauen. Eine hohe Vorhersagegenauigkeit in einer Validierungskohorte stellt zwar eine statistische Grundlage für die prinzipielle Eignung des Modells dar, jedoch erschwert der Black-Box-Charakter von Deep-Learning-Modellen deren Interpretation und Bewertung von Einzelfällen. Die vorliegende Arbeit präsentiert zwei Deep-Learning-Modelle im Bereich der medizinischen Bildverarbeitung, welche die zuvor genannten Anforderungen an die klinische Anwendbarkeit erfüllen sollen. Dazu zählen die prädiktive Genauigkeit auf menschlichem Niveau, Robustheit und Vertrauenswürdigkeit. Das erste Modell, DeePSC, ist ein Ensemble-Klassifikator auf der Basis eines Convolutional Neural Networks, der primär sklerondierende Cholangitis, eine Autoimmunerkrankung der Leber, auf Magnetresonanztomographiebildern erkennt und speziell für die Verarbeitung von MRT-Bildern aus sieben Winkelansichten um den Patienten herum konzipiert ist. Ein Vergleich mit vier erfahrenen Radiologen zeigt, dass DeePSC bei zwei Datensätzen, die bei unterschiedlichen Magnetfeldstärken aufgenommen wurden, eine um 5.5 und 10.3 Prozentpunkte höhere Genauigkeit aufweist als der durchschnittliche menschliche Experte. Die Robustheit wird durch eine hohe Vorhersagegenauigkeit auf einer externen Validierungskohorte bewiesen, die mit einem anderen Scannergerät erfasst wurde. Um den Black-Box-Charakter des Netzwerks zu reduzieren und Vertrauen in die Vorhersagen zu schaffen, werden GradCAM-Aktivierungsmappings verwendet, die auffällige Regionen in den Eingabebildern in den biologisch relevanten Bereichen der Gallenwege aufzeigen. Schließlich wird eine umfassende technische Analyse mehrerer Aggregationsstrategien zur Kombination von Informationen aus den sieben Winkelbildern der MRT-Daten durchgeführt. Das zweite Modell PCAI ist ein End-to-End-Risikovorhersagenetzwerk, welches die Aggressivität von Prostatakrebs und das damit verbundene Risiko von Patienten auf der Grundlage von mikroskopischen Bildern von Prostatagewebe quantifiziert. Es wird auf einem der größten und heterogensten histopathologischen Prostatadatensätze trainiert, die bis heute gesammelt wurden. Dieser umfasst sechs Kohorten mit über 25.591 Patienten, 83.864 Bildern und einem durchschnittlichen Follow-up von fünf Jahren aus fünf verschiedenen Zentren und drei Ländern. Die Heterogenität des Datensatzes wird mithilfe eines Domain-Adversarial Trainingsregime von PCAI mit digitalisierten Spots von Multigewebeblöcken genutzt, die nach der operativen Entfernung der Prostata prozessiert wurden. Mithilfe weiterer algorithmischer Erweiterungen wie Credibility-Schätzung, Farbanpassung und Krebsindikation übertrifft PCAI ein separat trainiertes Referenzmodell auf acht hochgradig variierenden internen und externen Datensätzen und demonstriert damit seine Robustheit gegenüber Varianz in den verarbeiteten Daten, die in der klinischen Praxis auftritt. Darüber hinaus übertrifft PCAI die ISUP-Annotationen mehrerer hochqualifizierter menschlicher Experten, welche den derzeitigen Goldstandard für die Bewertung der Krebsaggressivität darstellen, sowohl auf einem ungesehenen Spot-Datensatz als auch auf zwei präoperativen Biopsiedatensätzen um bis zu 22.3 Prozentpunkte in Bezug auf den Concordance-Index. Insbesondere die hohe Vorhersagegenauigkeit bei letzterem ist von großer klinischer Relevanz. Darüber quantifiziert das Modell seine Konfidenz in eine Vorhersage durch einen separaten Credibility-Score und hebt karzinomatöse Regionen in den Eingabebildern für eine potenzielle Neubewertung hervor, um Vertrauen und Interpretierbarkeit aufzubauen. Die vorliegende Arbeit zielt darauf ab, durch eine detaillierte Analyse und Bewertung der beiden entwickelten Modelle im Hinblick auf die eingangs definierten Anforderungen sowie deren Eignung als klinisches Entscheidungsunterstützungssystem einen Beitrag zum aktuellen Stand der Technik von Deep Learning basierten Systemen zur medizinischen Bildanalyse zu leisten. Zudem soll sie als Blaupause für künftige Arbeiten dienen, die letztlich ihren Weg in die klinische Praxis finden.
URL:	https://ediss.sub.uni-hamburg.de/handle/ediss/11202
URN:	urn:nbn:de:gbv:18-ediss-121860
Dokumenttyp:	Dissertation
Betreuer*in:	Frintrop, Simone Bonn, Stefan
Enthalten in den Sammlungen:	Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:

Datei	Beschreibung	Prüfsumme	Größe	Format
PhD_Thesis.pdf		6a400686a89e7f9ff324d33e54d24509	46.14 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Info

Seitenansichten

242

Letzte Woche

Letzten Monat

geprüft am 03.07.2025

Download(s)

125

Letzte Woche

Letzten Monat

geprüft am 03.07.2025

Werkzeuge

Google Scholar^TM

Prüfe

Dateien zu dieser Ressource:

Seitenansichten

Download(s)

Google ScholarTM

Google Scholar^TM