Home // Vergleich und Evaluation von SQL-on-Hadoop Lösungen
Type of thesis: Masterarbeit / location: Leipzig / Status of thesis: Finished theses
In den letzten Jahren wurden verschiedene Technologien zur Speicherung und Verarbeitung sehr großer Datenmengen wie Apache Hadoop, Spark oder Flink entwickelt. Die Entwicklung von Anwendungen auf Basis dieser Technologien und den zugrundeliegenden Programmiermodellen ist jedoch meist komplex. Viele Nutzer vermissen die weitestgehend standardisierte SQL-Schnittstelle die sie aus relationalen Datenbanksystemen gewöhnt sind. Schnell haben sich daher SQL-ähnliche Schnittstellen wie HIVE entwickelt die es erlauben SQL-ähnliche Anfragen zu formulieren die dann automatisch in Map-Reduce-Jobs übersetzt werden. Neuere Ansätze wie Cloudera Impala oder Presto kommen ohne eine Übersetzung in Map Reduce Jobs aus und bieten damit deutlich bessere Eigenschaften für interaktive Anwendungen.
Die Master/Bachelor-Arbeit untersucht existierende Ansätze hinsichtlich ihres Funktionsumfangs und ihrer Eigenschaften. Eine kleine Auswahl von Ansätzen soll auf einem Cluster installiert und hinsichtlich ihrer Performance mit Hilfe eines größeren Benchmarks verglichen werden.
Grundlage für die Arbeit sind gute SQL-Kenntnisse. Grundkenntnisse im Umgang mit Linux wären wünschenswert.
References:
http://blog.matthewrathbone.com/2014/06/08/sql-engines-for-hadoop.html
Administration Director
Department of computer science
Leipzig University
ScaDS.AI Dresden/Leipzig (Center for Scalable Data Analytics and Artificial Intelligence) is a center for Data Science, Artificial Intelligence and Big Data with locations in Dresden and Leipzig.
Bürokomplex Falkenbrunnen Chemnitzer Str. 46b, 2. Obergeschoss 01187 Dresden
Löhrs Carré Humboldtstraße 25, 3. Obergeschoss 04105 Leipzig Postal address Leipzig: Universität Leipzig Data Science Zentrum Internes Postfach: 212104 04081 Leipzig
Copyright 2023 © ScaDS.AI Dresden/Leipzig – All rights reserved.