Skalierbare bildbasierte Deduplikation

Type of thesis: Masterarbeit / location: Leipzig / Status of thesis: Finished theses

Student:

Christopher Rost

Betreuer:

Dr. Eric Peukert (peukert@informatik.uni-leipzig.de)
Dipl. Medieninform. Christoph Müller (Check24 Vergleichsportal Reise GmbH)

Inhalt:

Digitale Bilder, die ein und dasselbe Realweltobjekt abbilden, werden als Duplikate bezeichnet. Sie können vom Menschen in kürzester Zeit als solche identifiziert werden, unterscheiden sich jedoch in binärer Form sehr stark voneinander. Die automatisierte Erkennung dieser Duplikate anhand von Bildeigenschaften, welche ausschließlich aus den Binärdaten generiert werden, ist schon seit vielen Jahren Forschungsgegenstand. Jedoch unterstützen aktuelle Deduplikationssysteme oftmals nur textuelle Daten im gesamten Matching-Prozess. Die vorliegende Masterarbeit stellt das Konzept eines Systems vor, welches auf einer verteilten Infrastruktur eine bildbasierte Deduplikation großer Mengen von Bildern ermöglicht. Diese Similar Image Matching Suite, kurz SIMaSu, wurde zudem prototypisch unter Verwendung der Nachrichten-basierten Middleware RabbitMQ implementiert. Weiterhin gibt die Arbeit einen Überblick über die aktuell zur Verfügung stehenden Verfahren zur Berechnung von Bildähnlichkeiten. Dazu zählen Perceptual Hash-Technologien, Feature-basierte Verfahren und ein Mean Square Error-Ansatz. Solche Metriken stellen den Kern einer bildbasierten Deduplikation dar. Zusätzlich wurde eine Ähnlichkeitsmetrik konzipiert, welche durch Anwendung der Feature-basierten Technologien SIFT, SURF und ORB einen Ähnlichkeitswert errechnet. In einer abschließenden Evaluation werden für elf ausgewählte Implementationen verschiedener Metriken die Laufzeiten evaluiert, die Invarianzen gegen Bildtransformationen untersucht, sowie die Effektivitäten verglichen. Durch diesen fairen Vergleich werden Entscheidungshilfen für oder gegen die Verwendung einer bestimmten Metrik, sowie der Wahl eines effektiven Grenzwertes zur Klassifikation eines Bildpaares geboten.

Counterpart

Dr.
Eric Peukert

Administration Director

Department of computer science

Universität Leipzig

TU
Universität
Max
Leibnitz-Institut
Helmholtz
Hemholtz