Zurück

Wenn es wirklich Big wird – Datenanalyse und Machine Learning skalieren mit PySpark

Massive Datenströme aus industriellen IoT-Anwendungen führen schnell zu echten Big-Data-Problemen, deren Lösung verteiltes Rechnen auf einem Cluster erfordert. Wir stellen das Open-Source-Framework Apache Spark vor, um Datenanalyse- und Machine Learning-Workflows auf einem Cluster skalierbar zu machen.

Der Workshop steht unter dem Motto: Nicht reden, sondern machen! Wir stellen die wichtigsten Konzepte vor und ermöglichen den Teilnehmern Programmiererfahrung anhand von Praxisaufgaben zu sammeln. Wir arbeiten in der Cloud. Nur ein Laptop mit Internetzugang ist mitzubringen.

Vorkenntnisse

Die Besucher sollten ein Interesse an Big-Data-Themen mitbringen und bereits erste Erfahrungen mit Fragestellungen im Data-Science-Bereich gemacht haben. Da der Workshop einen großen Anteil an interaktiven Beispielen hat, sind Programmierkenntnisse erforderlich (Python wird empfohlen).

Lernziele

Die Teilnehmer erhalten einen breiten Einblick in Spark, lernen Anwendungsfälle zu erkennen und die Pros und Contras des Frameworks abzuschätzen. Es werden verschiedene praxisnahe Anwendungen vorgestellt und mit unserer Unterstützung interaktiv in IPython Notebooks von den Teilnehmern bearbeitet. Wir erleichtern den Einstieg in die Grundlagen von Spark (RDDs, Transformations & Actions…) und führen die Teilnehmer dann vom Datenimport über einfache Datenanalysen (mit Spark SQL & DataFrames) bis hin zu Machine Learning Pipelines (mit Spark ML für Predictive Analytics, Clustering, Recommender Engines). Für die Durchführung des Kurses gibt es keine besonderen technischen Voraussetzungen.

Agenda

ab 09.00 Uhr Registrierung und Begrüßungskaffee
10.00 Uhr: Beginn
10.00 Uhr: Impulsvortrag rund um Data Science, KI und ML – Was ist Hype und was ist wirklich möglich
10.45 Uhr: Einführung in die Datenanalyse mit Python und PySpark
12.00 Uhr: Mittagspause
13.00 Uhr: Grundlagen und Beispiele mit Spark selber umsetzen und ausprobieren
15.00 Uhr: Kaffeepause
15.30 Uhr: Deep Dive in die Machine Learning Pipelines
ca. 17.30 Uhr: Ende

Technische Anforderungen

Das Trainerteam wird wenige Tage vor dem Workshop weiter Informationen zur Verfügung stellen. Sie bekommen von uns diesbezüglich dann eine E-Mail. Bei Fragen zum Inhalt und Ablauf des Workshops melden Sie sich bei building-iot@point-8.de.

Speaker

Dr. Christian Staudt Als Freelance Data Scientist unterstützt Christian Auftraggeber bei Herausforderungen rund um Data Mining, Big Data und Machine Learning. Neben der Projektarbeit entwickelt er Trainings und coacht Teams in Sachen Methodik und Werkzeuge der Datenanalyse, die er schon während seiner Forschungstätigkeiten in der Informatik nutzte. Als Referent ist er in der Community um Python und Data Science aktiv.

Dr. Julian von der Ecken Julian ist Data Scientist bei der Point 8 GmbH. Durch seine Arbeit sowohl im Bereich von industriellen Kundenprojekten als auch in Trainings kann er auf ein breites Erfahrungsspektrum zurückgreifen und zusätzliche Fallbeispiele einbringen. Julian war zuvor langjährig in der Datenanalyse in der Physik und Strukturbiologie tätig und bringt damit oft den Querblick mit ins Projekt.