Vortrag am 17.02.2017, 15:00 Uhr
Die Dozenten der Informatik-Institute der Technischen Universität Braunschweig laden im Rahmen des Informatik-Kolloquiums zu folgendem Vortrag ein.
Prof. Dr. Georg Lausen, Universität Freiburg, Technische Fakultät: SQL-on-Hadoop für das Web of Data
Beginn: 17.02.2017, 15:00 Uhr Ort: TU Braunschweig, Informatikzentrum, Mühlenpfordtstraße 23, 1. OG, Hörsaal M 161 Webseite: http://www.ibr.cs.tu-bs.de/cal/kolloq/2017-02-17-lausen.html Kontakt: Prof. Dr. Wolf-Tilo Balke
Apache Hadoop bietet eine Reihe von open-source Frameworks für verteilte Speicherung und Auswertung von Daten auf einem Cluster von Maschinen. Es bestehen keine besonderen Anforderungen an die Hardware so dass Hadoop mit vergleichsweise geringen Kosten zuverlässige und hochgradig skalierende verteilte Anwendungen ermöglicht. Hadoop hat sich als Softwarebasis für Big Data Anwendungen etabliert. Bekannte Beispiele hierfür zum Einsatz kommender Systeme sind Mahout (Maschinelles Lernen und Data Mining), Hive (Datawarehouse) und Spark SQL für strukturierte Daten.
Das Web of Data besteht aus den im Web durch unterschiedliche Quellen bereitgestellten Daten, üblicherweise genannt Linked Open Data. Das gewählte Datenformat ist der W3C-Standard RDF, mittels dem eine flexible Datenrepräsentation in Form von Subjekt-Prädikat-Objekt-Tripeln vorgenommen wird zu der eine intuitive Darstellung mittels eines kantenbeschrifteten gerichteten Graphen existiert. Um so strukturierte Daten mittels SQL effizient verarbeiten zu können sind in den letzten Jahren eine ganze Reihe von Vorschlägen gemacht worden.
Im Vortrag wird der Einsatz von Spark SQL zur Verarbeitung von großen RDF Datenbeständen behandelt. Es wird zunächst gezeigt, wie mittels Vorberechnung von Semi-Verbünden die Effizienz von Anfragen in der RDF-Anfragesprache SPARQL gesteigert werden kann. Es wird argumentiert, dass der zusätzliche Speicheraufwand vertretbar ist. Es wird dann eine Erweiterung von SPARQL um Pfadanfragen vorgestellt, die im Unterschied zu der üblichen existentiellen Semantik auch die Berechnung aller möglichen Pfade eines RDF-Graphen erlaubt.
participants (1)
-
Informatik-Kolloquium