KI/ML für inkrementelles Schema Mapping auf heterogenen Datenquellen

Type of thesis: Masterarbeit / location: Leipzig / Status of thesis: Theses in progress

Die effiziente Verwaltung, Zusammenführung und Exploration von Daten aus multiplen heterogenen und dynamischen Datenquellen ist ein kritischer Erfolgsfaktor für viele Unternehmen geworden. Schema Mapping soll in diesem Zusammenhang semantisch äquivalente Datenpunkte über mehrere Quellen hinweg identifizieren und dadurch die Datenanalyse und die Erstellung von Datenprofilen verbessern. Im Rahmen eines Forschungsprojektes mit einem Industriepartner wird ein solches Schema Mapping implementiert und mittels Methoden der Künstlichen Intelligenz erweitert, um den Anwendende zu unterstützen und ein automatisiertes Matching zu ermöglichen. Die berechneten Matches sind außerdem Basis für den Aufbau eines (hierarchischen) Clustering der  Entitäten aus den Datenquellen. Weiterhin soll ein inkrementeller Ansatz die Performance des Mapping steigern, indem eine vollständige Neuberechnung bei Änderungen an einzelnen Datenquellen vermieden wird.

Aufgaben:

  • Implementierung des Schema Mapping zum Aufbau eines Datenquellen-übergreifenden Schema-Graphen
  • Recherche geeigneter KI/ML-Ansätze für das Schema Mapping
    • auf Attribute-, Entity-, Fragment-Level, …
    • Aufbau und Evaluation eines möglichst generalisierbaren Modells
    • Integration in den Schema Mapping Prozess
    • Überwachung des Modells
  • Implementierung eines inkrementellen Ansatzes, Aufbau eines Stores zur Wiederverwendung bereits berechneter Matches

 

Organisatorisches:

Die Arbeit erfolgt im Rahmen eines Forschungsprojektes am ScaDS.AI und soll im Mai 2021 begonnen werden. Die Arbeitsergebnisse werden regelmäßig auch mit dem Projektpartner abgestimmt. Es werden gute Programmierkenntnisse in z.B. Java oder Python vorausgesetzt, hilfreich ist ein hohes Interesse an der Einarbeitung in neue Themenbereiche oder bereits gesammelte Erfahrungen in u.a. Schema Mapping, KI/ML-Methoden, cloud-basierte Applikationen, etc.

 

Bearbeitungszeitraum: ab Mai 2021

Counterpart

Matthias Täschner

Service and Transfer Center

Universität Leipzig

Data Visualization, Graph Analysis, Machine Learning

TU
Universität
Max
Leibnitz-Institut
Helmholtz
Hemholtz