Entwicklung von Techniken zur Datenintegration und Datenqualitätsverbesserung für die Graph-Processing-Platform GraDoop

Type of thesis: Masterarbeit / location: Leipzig / Status of thesis: Finished theses

Die Graph-basierte Speicherung und Verarbeitung großer Datenmengen gewinnt zunehmend an Bedeutung. Beispielsweise trifft man auf große Netzwerke von Interaktionen zwischen Genen, Proteinen und Prozessen in den Lebenswissenschaften, auf chemische Verbindungen und deren Reaktionen in der Chemie oder Informationsgraphen in der Geschäftswelt. Als besonders prominentes Beispiel bietet Facebook seinen Nutzer Zugriff auf Informationen des sozialen Netzwerks über eine Graph-Suche.

In einem aktuellen Projekt an der Universität Leipzig wird eine neuartige Graph-Processing-Platfom (GraDoop) entwickelt, die den kompletten Prozess der Erstellung eines Graphen, seiner Verarbeitung und der Analyse in einem Workflow beschreibbar macht. Diese Workflows werden dann mittels existierender Big Data Technologien wie zum Beispiel Apache Hadoop, Apache Giraph oder Google Pregel effizient und verteilt ausführt.

Wichtige initiale Schritte sind dabei die Erstellung von Graphen, die Verknüpfung verschiedener Graphen sowie die Verbesserung der Datenqualität mittels Duplikaterkennung und Datenbereinigung. Insbesondere zur Duplikaterkennung wurde an der Universität Leipzig bereits ein System names Dedoop entwickelt, das Duplikate in großen Objektmengen effizient mittels Map-Reduce identifizieren kann.

In einer Masterarbeit sollen existierende Techniken des Ladens von Daten in einen Graphen sowie die anschließende Qualitätsverbesserung mittels Duplikaterkennung in GraDoop integriert werden.

Dafür wird zunächst ein Überblick zu existierenden ETL-Techniken zur Erstellung von Graphen benötigt. In einem weiteren Schritt kann dann für eine kleine Auswahl von Operatoren  (aus dem Dedoop-Framework) ein Konzept zur Integration in GraDoop entwickelt und prototypisch implementiert werden. Zur Evaluation der entwickelten Lösung werden Graph-Daten von ACM und DBLP zur Verfügung gestellt. Wir versprechen eine engmaschige Betreuung durch Mitarbeiter des Kompetenzzentrums. Im Vorfeld der Arbeit wäre auch eine Anstellung als SHK zur Einarbeitung in das Themengebiet möglich.

 

Kontakt: 

Zeitraum:

Ab sofort.

Counterpart

Dr. Eric Peukert

Administration Director

Department of computer science

Leipzig University

TU
Universität
Max
Leibnitz-Institut
Helmholtz
Hemholtz
Institut
Fraunhofer-Institut
Fraunhofer-Institut
Max-Planck-Institut
Institute
Max-Plank-Institut