Privatsphäre-erhaltende Vorhersage der Überlebenszeiten von Magenkrebs-Patient*innen

Type of thesis: Masterarbeit / location: Leipzig / Status of thesis: Theses in progress

Gerade bei der Zusammenführung und Auswertung medizinischer Daten gibt es große Datenschutzbedenken, da diese hochsensible Patient*innen informationen enthalten, die vertraulich behandelt werden müssen. Die aktuelle Forschung hat gezeigt, dass es nicht ausreicht, nur die Originaldaten unter Verschluss zu halten, sondern dass auch auf diesen Daten generierte Klassifikationsmodelle selbst angreifbar sind und private Informationen über ihre Trainingsdaten leaken können. Um hilfreiche Anwendungen für die Medizin zu entwickeln und dabei gleichzeitig die Privatsphäre von Patient*innen zu schützen, werden daher Techniken aus dem Privatsphäre-erhaltenden maschinellen Lernen (PPML) eingesetzt. Aktuelle Trends aus diesem Bereich sind Methoden wie Federated Learning, Differential Privacy oder kryptographische Verfahren.

Hier setzt die ausgeschriebene Arbeit an. Im Rahmen der Masterarbeit soll zunächst ein geeignetes Modell zur Vorhersage von Überlebensraten trainiert und optimiert werden. Ansätze hierfür sind bspw. das Cox Regression Modell oder Random Forests. Als Trainingsdatensätze stehen dafür Magenkrebs-Daten von 440 Patienten (99% mit Informationen über Mutationen) des Cancer Genome Atlas Consortium zur Verfügung.

Im zweiten Schritt geht es dann um den Privacy-Aspekt. Dabei soll mindestens ein PPML-Verfahren erprobt werden, um die privaten Trainingsdaten zu schützen. Dabei soll z.B. untersucht werden, ob es immer noch möglich ist, mit verrauschten Trainingsdaten einen Klassifikator zu trainieren. Wie stark können die Trainingsdaten verrauscht werden, ohne dass die Klassifikationsrate zu stark darunter leidet (Privacy-Accuracy-Tradeoff)? Die Privatsphäre soll dabei anhand einer geeigneten Privacy-Metrik bewertet werden.

Im letzten Schritt soll mit einer Model Inversion Attack getestet werden, in wieweit die Trainingsdaten bei einem Angriff auf das trainierte Modell rekonstruiert werden können. In wie weit ist dies möglich, wenn die Originaldaten zum Training verwendet werden? In wie weit verschlechtert sich die Rekonstruktion der Patientendaten oder wird ganz unmöglich, wenn die Trainingsdaten vorher verrauscht wurden?

 

Counterpart

Maja Schneider

Universität Leipzig

Project DE4L/Privacy Preserving ML

Gergely Pogany

Universität Leipzig

GRAMMY - Precision medicine in gastric cancer

TU
Universität
Max
Leibnitz-Institut
Helmholtz
Hemholtz