Interactive Exploration of Embedding Spaces

Type of thesis: Masterarbeit / location: Leipzig / Status of thesis: Theses in progress

Embeddings (distributed representations) sind ein mächtiges Werkzeug im Machine Learning, da sie komplexe Objekte (beispielsweise Wörter einer Sprache) in einen niedrig(er) dimensionalen Raum abbilden und zueinander ins Verhältnis setzen. Diese Repräsentation lässt sich als Input für weitere Algorithmen nutzen aber auch eigenständig untersuchen. Beispielsweise lässt sich in Word Embeddings zeigen, dass Länder und ihre Hauptstädte durch den selben Vektor verbunden sind. Die Frage „Welches ist die Haupstadt von X?“ lässt sich somit durch nachfolgen dieses Vektors ausgehend des Embeddings von X beantworten. Eine weitere Möglichkeit ist die Bestimmung von Achsen in dem Embedding Raum welche die Objekte nach bestimmten Konzepten separieren. Diese lassen sich z.B. nutzen um die Embeddings zu normalisieren und somit bias aus den Daten zu entfernen.

Diese Konzepte sollen auf den Fashion Bereich übertragen werden um eine Anwendung zu realisieren mit der ein (beispielhafter Produktkatalog) erkundet werden kann. Der*die Nutzer*in kann hierbei ein Produkt und eine Achse (bspw. Sommer – Winter) wählen und dann weitere auf dieser Achse liegende Produkte anzeigen lassen.

Konkret muss hierfür folgendes getan werden:

  • Recherche eines geeigneten Datensatzes
  • Recherche von existierenden ähnlichen Ansätzen (neben den gennanten aus dem bereich der Sprachverarbeitung)
  • Embedding der Produkte
  • Implementierung einer Methode zur Berechnung von thematischen Achsen
  • Implementierung einer (effizienten) Methode zum finden von Objekten entlang der Achse
  • Implementierung einer Client Anwendung zur Auswahl/Anzeige

Erfahrungen in folgenden Bereichen sind hierfür hilfreich aber können sich bei hohem Interesse auch im Laufe der Arbeit angeeignet werden:

  • Machine Learning, Deep Learning, Basics in linearer Algebra
  • Python, Tensorflow oder Pytorch
  • Javascript

Desweiteren sollen dokumentierter und lesbarer Code, die Verwendung von Versionkontrollsystemen sowie reproduzierbare Experimente angestrebt werden.

Counterpart

TU
Universität
Max
Leibnitz-Institut
Helmholtz
Hemholtz
Institut
Fraunhofer-Institut
Fraunhofer-Institut
Max-Planck-Institut
Institute
Max-Plank-Institut