Implementierung und Evaluation von parallelen Verfahren mit Flink zum Schutz personenbezogenener Daten beim Record Linkage

Type of thesis: Masterarbeit / location: Leipzig / Status of thesis: Finished theses

Record Linkage oder Entity Resolution ist der Prozess des Auffindens von Objekten in einer oder mehrerer Datenquellen, die dasselbe Realwelt-Objekt repräsentieren. Dafür werden die Datensätze anhand von Ähnlichkeitsfunktionen miteinander verglichen. Diese Funktionen berechnen zum Beispiel die Ähnlichkeit von zwei Eingabestrings. Da die Datenquellen sehr groß sein können und um die quadratische Komplexität des Problems zu entschärfen, werden so genannte Blocking-Verfahren verwendet.

Im Gegensatz zum klassischen Record Linkage, wird im „Privacy Preserving Record Linkage“ (PPRL) versucht die Daten zu schützen, die im Matching-Prozess verwendet werden. Diese Erweiterung ist wichtig wenn z.B. Patientendaten zwischen zwei Forschungsgruppen ausgetauscht werden müssen. Um bei diesem Prozess personenbezogene Daten zu Schützen werden die Daten mittels eines adaptierten Bloom-Filters anonymisiert und erst danach miteinander verglichen. Für die Skalierbarkeit werden entweder Filter-Techniken (Length, Prefix, and Overlap Filter) oder Metric Spaces verwendet, die unähnliche Datensätze frühzeitig von weiteren Vergleichen ausschließen.

Ziel der Abschlussarbeit ist die Untersuchung, Implementierung und Evaluierung von parallelen PPRL-Verfahren in Flink. Für das Blocking und die Verteilung der anonymisierten Daten auf die Rechner eines Clusters wird hauptsächlich das LSH (Locality Sensitive Hashing) Verfahren angewandt, das mit einem anderen Verfahren wie z.B. phonetische Blocking (Soudex) verglichen werden soll.

Bei Bedarf bieten wir auch die Möglichkeit der Mitarbeit als SHK im Vorfeld der Masterarbeit um das Themengebiet besser kennenzulernen. Wir ermöglichen eine engmaschige Betreuung der Arbeit im Big Data Zentrum der Universität Leipzig.

 

Wir suchen Studenten mit

  • Motivation zur Arbeit in einem interdisziplinären Projekt
  • Erfahrungen im Themenbereich Datenintegration (optional)
  • Gute Programmierkentnisse in Java
  • Erste Erfahrungen mit Flink sind wünschenswert, aber keine Voraussetzung

 

Kontakt:

Ziad Sehili (Mail: sehili@informatik.uni-leipzig.de)

Counterpart

Ziad Sehili

TU
Universität
Max
Leibnitz-Institut
Helmholtz
Hemholtz