ScaDS Ringvorlesung für Big Data (SS2017)

05.04.2017 // SCADS

Die TU Dresden und die Uni Leipzig bieten für das Sommersemester 2017 eine gemeinsame Big Data Ringvorlesung an. Einschreibung läuft! Ziel der Ringvorlesung für Big Data ist es, den Teilnehmenden einen Überblick über aktuelle Anforderungen und Lösungen zu Big Data Technologien und Anwendungen zu geben. Die Schwerpunkte liegen dabei in den im Big Data-Kompetenzzentrum ScaDS (Competence Center for Scalable Data Services and Solutions) Dresden/Leipzig bearbeiteten Gebieten. Referent:innen sind an ScaDS Dresden/Leipzig aktiv beteiligte Professor:innen. 

Die Veranstaltung findet in Blöcken von je 2 Vorträgen/Vorlesungen (jeweils etwa 1 h) abwechselnd an der Universität Leipzig und an der TU Dresden statt. Die Vorträge werden per Video-Streaming an den jeweils anderen Standort übertragen. Die Veranstaltung richtet sich an Studierende der Bachelor- und Masterstudiengänge der Informatik, Doktorand:innen und alle Interessent:innen.  Die Abrechnungsmodalitäten für Studierende werden standort-spezifisch gemäß den Rahmenbedingungen der jeweiligen Studiengänge geregelt.

ScaDS Ringvorlesung für Big Data im Sommersemester 2017

Gemeinsame Lehrveranstaltung an der TU Dresden und der Universität Leipzig
Koordinatoren: Prof. Dr. S. Gumhold (TU Dresden), Prof. Dr. E. Rahm (Uni Leipzig)

Ziel der ScaDS Ringvorlesung für Big Data ist es, den Teilnehmern einen Überblick über aktuelle Anforderungen und Lösungen zu Big Data Technologien und Anwendungen zu geben. Die Schwerpunkte liegen dabei in den im Big Data-Kompetenzzentrum ScaDS (Competence Center for Scalable Data Services and Solutions) Dresden/Leipzig bearbeiteten Gebieten. Referenten sind an ScaDS Dresden/Leipzig aktiv beteiligte Professoren (principal investigators). 

Die Veranstaltung findet in Blöcken von je 2 Vorträgen/Vorlesungen (jeweils etwa 1 h) abwechselnd an der Universität Leipzig (Hörsaal 8) und an der TU Dresden (Willersbau A317) statt. Die Vorträge werden am gleichen Tag per Video-Streaming an den jeweils anderen Standort übertragen und können im angegebenen Hörsall verfolgt werden. 

Die Veranstaltung richtet sich an Studierende der Bachelor- und Masterstudiengänge der Informatik, Doktoranden und alle Interessenten.  Die Abrechnungsmodalitäten für Studierende werden standort-spezifisch gemäß den Rahmenbedingungen der jeweiligen Studiengänge geregelt (s.u.). 

Die Vortragstermine sind jeweils donnerstags, ab 15:00 (s.t.). 

Terminplan

(Der zuerst genannte Ort stellt den Videostream zur Verfügung)

Block 1

Datum: 27. April 2017, 15 Uhr
Ort:  Universität Leipzig, Hörsaal 8; TU Dresden, Willersbau A317

  • Prof. Rahm:  Einführung in die Ringvorlesung für Big Data und ScaDS Dresden/Leipzig [PDF]
  • Prof. Rahm:  Graph-based Data Integration and Analysis for Big Data [PDF]
  • Prof. Scheuermann: Merkmalsbasierte visuelle Analyse großer wissenschaftlicher Daten [PDF]
  • ab 17:30 Vorstellung/Vergabe der praktischen Aufgaben 
Block 2

Datum: 11. Mai 2017, 15 Uhr
Ort:  TU Dresden, Willersbau A317; Universität Leipzig, Hörsaal 8

Block 3

Datum: 18. Mai 2017, 15 Uhr
Ort: Universität Leipzig, Hörsaal 8; TU Dresden, Willersbau A317

  • Prof. Stadler: Genome Annotation in the Age of Big Data [PDF]
  • Prof. Heyer: Big Data in den Digital Humanities? [PDF]
Block 4

Datum: 1. Juni 2017, 15 Uhr
Ort:  TU Dresden, Willersbau A317, Universität Leipzig, Hörsaal 8

Block 5

Datum: 22. Juni 2017, 15 Uhr
Ort: Universität Leipzig, Hörsaal 8; TU Dresden, Willersbau A317

  • Prof. Bogdan: Verbesserung der Sicherheit von Virtuellen Maschinen für Big Data Architekturen [PDF]
  • Prof. Franczyk: Prozesse treffen Big Data – Verbindung zwischen Data Science und Prozess Science [PDF]
Block 6

Datum: 29. Juni 2017, 15: Uhr
Ort: TU Dresden, Willersbau A317; Universität Leipzig, Hörsaal 8

Anrechnungsmöglichkeiten

Universität Leipzig

Im Bachelorstudiengang Informatik sowie  im Masterstudiengang Informatik kann die ScaDS Ringvorlesung für Big Data als fakultätsinterne Schlüsselqualifikation im Umfang von 5 Leistungspunkten angerechnet werden, insbesondere als Belegung zum Modul 10-202-2012 „Aktuelle Trends der Informatik“. Die Anmeldung erfolgt über Almaweb.

Neben der aktiven Teilnahme an den Vorträgen erfordert die Erlangung der Leistungspunkte eine schriftliche Ausarbeitung im Umfang von ca 15 Seiten zu drei der Vortragsthemen, darunter wenigstens zwei von Referenten der Universität Leipzig. Alternativ zu der Ausarbeitung kann eine der von Leipziger Dozenten vergebenen (praktischen Arbeiten) gelöst werden. Die praktische Arbeiten werden als Gruppenarbeit in 2er Teams bearbeitet.
Für die praktischen Arbeiten mit Datenbankbezug kann im Masterstudiengang Informatik alternativ zu der genannten Schlüsselqualifikation die Lehrveranstaltung als eine von drei Veranstaltungen für das Vertiefungsmodul 10-202-2214 „Anwendungsbezogene Datenbankkonzepte“ (10 LP) eingebracht werden. Auch hier ist eine Anmeldung über Almaweb erforderlich.

Technische Universität Dresden

Die ScaDS Ringvorlesung für Big Data kann mit 2/2/0 in die folgenden Module eingebracht werden:

  • Bachelor Informatik und Medieninformatik: INF-B-510, INF-B-520, INF-B-530, INF-B-540
  • Master Medieninformatik: INF-BAS7, INF-VMI-8
  • Master und Diplom Informatik: INF-BAS7, INF-VERT7

Zur Erlangung der Leistungspunkte ist neben der aktiven Teilnahme an den Vorträgen entweder eine Ausarbeitung im Umfang von ca. 15 Seiten zu drei der Vortragsthemen, darunter wenigstens zwei von Referenten der TU Dresden erforderlich. Alternativ kann eine der von Dresdnern Dozenten vergebenen praktischen Arbeiten gelöst werden. Die Modulprüfung erfolgt mündlich von einem prüfungsberechtigten Dresdner Dozenten der gewählten Vortragsthemen bzw. vom Dresdner Dozenten, der die praktische Arbeit ausgegeben hat wenn dieser prüfungsberechtigt ist, andernfalls von Prof. Gumhold. In den Modulen INF-B-510, INF-B-520, INF-B-530, INF-B-540 is die Prüfung 15min lang und unbenotet. In den anderen Modulen erfolgt eine benotete mündliche Prüfung gemäß der Modalitäten des jeweiligen Moduls.

Übersicht praktischer Arbeiten

Universität Leipzig
db1: Analytics of Development Project Data

Many development projects (commercial and open source) manage their tasks and reporting through JIRA. In this taks we would like to analyze the huge number of projects under https://issues.apache.org/jira/secure/BrowseProjects.jspa#all with a distributed graph-based approach. The taks is to use the JIRA REST API to export projects, tasks, assignees, project members and also log-entries and transform this to a graph-representation that can be consumed by Gradoop (www.gradoop.org ). In the second step we would like to analyze this graph with the help of simple Apache Flink and Gradoop-Scripts.

db2: Analytics of Git  Project Data

Many development projects (commercial and open source) manage code on Git. In this task we would like to analyze contents of git-repositories with a distributed graph-based approach. The taks is to use the JGIT-API to export commits, users,tags, and the complete history etc from git repositories and transform this to a graph-representation that can be consumed by Gradoop (www.gradoop.org ). In the second step we would like to analyze this graph with the help of simple Apache Flink and Gradoop-Scripts.

db3: Schema Graph Fusion for the Microsoft Academic Graph and DBLP Graph

Due to its diversity and different sources publication data is valuable input for Graph-ETL pipelines. The aim of this project is to bring the Microsoft Academic Graph (https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/) into GRADOOP and summarize its information with the help of the grouping operator.  Afterwards, the result is compared to the Grouping result of DBLP and both grouped Graphs are fused into a consolidated version of the graph. 

bioinf1: Supergenome data analysis in Flink and Gradoop

In the supergenome project of the Bioinformatik Lehrstuhl, the target is to create a common coordinate system out of a multiple genome alignment. These happened mostly in a graph data structure.  The complete project is written in java and use a third party graph library in it. Your task is to rewrite parts of the program to run on a cluster. The frameworks for this are Flink to do filter and other steps that need no graph representation. Then the graph operations are implemented in Gradoop. As a starting point a basic implementation of some things exists in Flink and Gelly. The students need to be able to write programs in Java. The syntax of Flink and Gradoop is the main learning point of this work.

bioinf2: Supergenome data saved in Neo4j

In the supergenome project of the Bioinformatik Lehrstuhl, the target is to create a common coordinate system out of a multiple genome alignment. These happened mostly in a graph data structure.  The complete project is written in java and use a third party graph library in it. The task is to write a connector to save the supergenome graph with all meta information in Neo4j. For this a schema of the databank must be created. Also a read direction should be written that can read the complete graph but have also the possibilities to read only parts.  The students need to be able to write programs in Java. The handling of Neo4j is the main learning point of this work.

ti1: Quantity and Quality of Random Numbers from shared TRNGs

Most modern server environments provide a hardware random number generator (true random number generator, TRNG) for cryptographic purposes. Unfortunately the TRNG often has to be shared between multiple virtual machines, especially in big data use cases. The task is to implement a small test environment and to collect data concerning the quantity and quality of random numbers regarding the combination of multiple virtual machines and a shared TRNG. Basic knowledge of Linux is essential, first experience with QEMU is advantageous.

ti2: Measuring the Quantity of Random Numbers under Linux

It is often desirable to know the amount of random numbers provided by the Linux kernel to the user space programs, e.g. to measure the effect of a hardware random number generator. Unfortunately there is no easy accessible way to get these numbers. The task is to design and implement a way to measure the quantity of random numbers provided by the Linux kernel during a specified time. Advanced knowledge of Linux is essential, C programming skills may be advantageous.

tm1: Preparing a Text Corpus for Canonical Text Services

A vast number of text corpora are freely available online but it is often not clear, how they can be automatially processed or analyzed. The task is to find interesting German and international text corpora and prepare them in such a way that they can be processed using the Canonical Text Service protocol. The result of this task should be a set of fresh text corpora as part of the CTS infrastructure. Further information about the issue can be found here: http://cts.informatik.uni-leipzig.de/. 

tm2: Converting LaTex documents into CTS compliant TEI/XML

LaTex is one of the major text editing formats in academic work environments and provides structured documents that can be included into the Canonical Text Infrastructure. The task is to implement a converter that provides compliant TEI/XML documents based on LaTex input documents. 

bd1: Implementing a data mining pipeline for predictive business analytics

In recent years new concepts and technologies evolved that allow organizations to get more detailed insights into operational business activities. By utilising the collected data for information about prospective events, business process management and decision support could be optimized and automated. The goal of this work is to identify appropriate process mining or data mining algorithm and adapt it to process data of a financial use case. Next the algorithm should be integrated in a data processing pipeine including preprocessing, analytics and visualization steps.

Technische Universität Dresden
cgv: Distributed Interactive Visualization

Interaktive Visualisierungen großer Daten und die Darstellung dieser auf großen Displays ist nur möglich indem mehrere Rechner und Graphikkarten gemeinsam die aufkommende Last bearbeiten. In diesem Projekt wird die verteilte Visualisierung wissenschaftlicher Daten auf einem großen Tiled-Display mit mehreren Rechnern umgesetzt. Ausgehend von einem Quellcodeskelett, welches grundlegende MPI-Kommunikation und Kamerasteuerung enthält, müssen die konkreten Rendering-Aufgaben implementiert werden. Ziel ist hybrid-verteiltes Rendering (Objektraum- und Bildraum-Unterteilung gleichzeitig). Hierfür sind die Teilung der Daten, Off-Screen-Rendering mit asymmetrischem Viewing-Frustum, Kommunikation von Teilbildern, und das Compositing des finalen Bildes zur Darstellung notwendig.

Dieses Projekt kann von mehreren Studenten getrennt bearbeitet werden. Die Grundaufgabe ist jeweils die selbe, unterscheidet sich jedoch in den zu visualisierenden Daten und damit in den Detailproblemen beim Rendering und Compositing. Mögliche Datensätze sind: große Geometrie-Daten, Volumen-Datensätze, Punktwolken, Partikel-Daten. Im Rahmen dieses Projekts werden nur statische Datensätze benutzt.

db: ERIS-Spark Integration

Apache Spark ist ein Standard-Framework zur Verarbeitung von großen Datenmengen im Kontext von Big Data. In dieser praktischen Arbeit soll daher zunächst der Umgang mit Apache Spark erlernt werden und es sollen beispielhafte Datenanalyse Szenarien mit Hilfe dieses Frameworks praktisch umgesetzt werden. Im weiteren Verlauf soll das Datenbanksystem ERIS, das vom Lehrstuhl für Datenbanken entwickelt wurde, als Verarbeitungsknoten in Apache Spark integriert werden. Dazu soll die entsprechende Data Source API von Spark seitens ERIS implementiert werden um Vergleichsmessungen zu anderen Datenknoten Implementation vorzunehmen.

zih: Data Analytics

Innerhalb konkreter praktischer Aufgaben sollen Methoden zur Datenanalyse erlernt und auf konkrete Beispiele angewendet werden. Zunächst erfolgt die Einarbeitung in ein generisches Framework aus dem Apache-Umfeld sowie die beispielhafte Anwendung von Datenanalysemethoden auf ausgewählte Datensätze. Ziel der praktischen Arbeiten ist dabei auch der Umgang mit der Analyse-Umgebung auf verschiedenen Hardware-Architekturen (Hochleistungsrechner, Cloud-Umgebung). Die Aufgabenstellung kann dabei angepasst werden, z.B.:

  • Zeitreihenanalyse mit Time-Series-Bibliothek in Apache Spark (spark-ts)
  • Stream-Processing mit Apache Flink
  • Offline-Batch Processing mit Cassandra-Storage

Check out more news about ScaDS.AI Dresden/Leipzig at our Blog.

TU
Universität
Max
Leibnitz-Institut
Helmholtz
Hemholtz
Institut
Fraunhofer-Institut
Fraunhofer-Institut
Max-Planck-Institut
Institute
Max-Plank-Institut