Privacy Preserving Detection of COVID-19 in X-Ray Images

Type of thesis: Masterarbeit / location: Leipzig / Status of thesis: Finished theses

Zur Erkennung einer Infektion mit COVID-19 existiert ein guter und günstiger PCR-Test. Dieser Test hat jedoch den Nachteil, dass es mehrere Stunden dauert, bis das Testergebnis vorliegt. Auch kommt es vor, dass der PCR-Test trotz COVID-19 negativ ausfällt, da das Virus bereits vom Rachenbereich in die Lunge gewandert ist, und damit am Ort des Abstrichs nicht mehr nachweisbar ist. Aus diesen Gründen wird in einigen Anwendungsszenarien (z.B. bei der stationären Aufnahme von Patienten in Krankenhäusern) zusätzlich ein Röntgenbild erstellt, um COVID-19 sicher und schnell diagnostizieren zu können. Um die aktuell große Menge an Röntgenbildern auswerten und klassifizieren zu können, können maschinelle Lernverfahren unterstützend bei der Diagnostik zum Einsatz kommen. Deep Learning und Convolutional Neural Networks (CNNs) sind hierbei vielversprechende Ansätze, die in den letzten Jahren große Erfolge verzeichnen. Um Deep Learning erfolgreich durchführen zu können, benötigt man jedoch große Trainingsdatensätze. Auch wenn eigentlich ausreichend Bilder vorhanden sind, so liegen diese über viele Kliniken verteilt und können aus Gründen des Datenschutzes nicht einfach zusammengeführt werden.

Gerade bei der Zusammenführung und Auswertung medizinischer Daten gibt es große Datenschutzbedenken, da diese hochsensible Patienteninformationen enthalten, die vertraulich behandelt werden müssen. Die aktuelle Forschung hat gezeigt, dass es nicht ausreicht, nur die Originaldaten unter Verschluss zu halten, sondern dass auch auf diesen Daten generierte Klassifikationsmodelle selbst angreifbar sind und private Informationen über ihre Trainingsdaten leaken können. Um hilfreiche Anwendungen für die Medizin zu entwickeln und dabei gleichzeitig die Privatsphäre von Patient*innen zu schützen, werden daher Techniken aus dem Privatsphäre-erhaltenden maschinellen Lernen (PPML) eingesetzt. Aktuelle Trends aus diesem Bereich sind Methoden wie Federated Learning, Differential Privacy oder kryptographische Verfahren.

Hier setzt die ausgeschriebene Arbeit an. Im Rahmen der Masterarbeit soll zunächst ein Neuronales Netz zur Klassifikation von Röntgenbildern der Lunge trainiert und optimiert werden. Ziel dabei ist vor allem die Erkennung von COVID-19 mit einer hohen Klassifikationsrate. Als Trainingsdatensätze stehen dafür z.B. die frei verfügbaren Datensätze „ChestX-ray“ und „COVID-19 image data collection“ zur Verfügung.

Im zweiten Schritt geht es dann um den Privacy-Aspekt. Dabei soll mindestens ein PPML-Verfahren erprobt werden, um die privaten Trainingsdaten zu schützen. Dabei soll z.B. untersucht werden, ob es immer noch möglich ist, mit verrauschten Trainingsdaten einen Klassifikator zu trainieren. Wie stark können die Trainingsdaten verrauscht werden, ohne dass die Klassifikationsrate zu stark darunter leidet (Privacy-Accuracy-Tradeoff)? Die Privatsphäre soll dabei anhand einer geeigneten Privacy-Metrik bewertet werden.

Im letzten Schritt soll mit einer Model Inversion Attack getestet werden, in wieweit die Trainingsdaten bei einem Angriff auf das trainierte Netz rekonstruiert werden können. In wie weit ist dies möglich, wenn die Originaldaten zum Training verwendet werden? In wie weit verschlechtert sich die Rekonstruktion der Bilder oder wird ganz unmöglich, wenn die Trainingsdaten vorher verrauscht wurden?

Counterpart

Maja Schneider

Universität Leipzig

Standortdatenschutz, Datenschutzkonformes Maschinelles Lernen

TU
Universität
Max
Leibnitz-Institut
Helmholtz
Hemholtz
Institut
Fraunhofer-Institut
Fraunhofer-Institut
Max-Planck-Institut
Institute
Max-Plank-Institut