Full Digital
 
Fantom Tag

Schulung - PySpark - Big Data Analytics mit Apache Spark und Python

Verarbeitung und Analyse großer Datenmengen mit Apache Spark und Python praxisnah einsetzen.

  • Live Online Training
DURCHFÜHRUNG MIT TERMIN
Dauer
1 Tag (12 Stunden)

Preis ab
1.290,00 € netto
1.535,10 € inkl. 19% MwSt.

Nr.
54450
TERMIN UND ORT NACH ABSPRACHE
Dauer
1 Tag (12 Stunden)


Nr.
54450
On-demand Training
Sind Sie an diesem Thema interessiert?
Unsere Experten entwickeln Ihr individuell angepasstes Seminar!
Die Analyse und Verarbeitung großer Datenmengen ist heute ein entscheidender Erfolgsfaktor für datengetriebene Unternehmen. In diesem praxisorientierten Seminar lernen Sie, wie Sie mit Apache Spark und Python (PySpark) effizient Big Data analysieren und aufbereiten. Sie erhalten eine fundierte Einführung in die Grundlagen verteilter Datenverarbeitung, arbeiten mit realitätsnahen Beispielen und wenden moderne Methoden der Datenintegration, Transformation und Aggregation direkt an. Auch die Anwendungsmöglichkeiten von Machine Learning mit PySpark werden thematisiert.

Nach dem Seminar sind Sie in der Lage, große Datenmengen eigenständig zu laden, zu transformieren und gezielt auszuwerten. Sie kennen die Einsatzmöglichkeiten von PySpark im Kontext von Data Science und können fundierte Entscheidungen zur Datenverarbeitung in Big Data Projekten treffen.

 

Zielgruppe

Wer sollte teilnehmen:

Zielgruppe

  • Data Scientists und Data Analysts, die sich mit der Verarbeitung und Analyse großer Datenmengen mithilfe von Python und Apache Spark (PySpark) beschäftigen möchten.

Voraussetzungen

  • Grundlegende Kenntnisse in Programmierung und SQL sind erforderlich.
  • Erfahrungen in anderen Programmiersprachen sind von Vorteil, da sie den Einstieg in Python erleichtern.
  • Englischkenntnisse, insbesondere im Verständnis von englischen Texten, sind hilfreich, da viele Dokumentationen und Kursmaterialien auf Englisch verfügbar sind.
Trainingsprogramm

Trainingsprogramm

Einführung in Apache Spark Grundlagen:

  • Verortung und Kontext des Frameworks (Vergleich mit Pyspark, Hadoop und Kubernetes)
  • Grundlegende Prinzipien der verteilten Datenverarbeitung durch Apache Spark

Erste Schritte in der PySpark-Welt:

  • Essenzielle DataFrames-Grundlagen
  • Einbindung von JSON- und CSV-Daten
  • Einfache Datentransformationen (Projektionen, Filterung, grundlegende Funktionen...)

Weitere Datentransformationen erkunden:

  • Gruppierte Aggregationen verstehen
  • Sortierung von Daten
  • Joins von Datensätzen

UDF - User Defined Functions verwenden:

  • Effiziente Nutzung von Pandas UDFs in PySpark
  • Einsatzbereiche von UDFs

Datenhaltung und Speicherung:

  • Überblick über kompatible Dateiformate

Grundlagen des Maschinellen Lernens:

  • Modelltraining und -entwicklung
  • Einführung in Regressionsmodelle
  • Verwendung von Trainings- und Validierungsdaten
  • Bewertungsmetriken für Modellleistungen
  • Praktische Übung mit dem Datensatz des NYC Taxis

Vorbereitung der Daten:

  • Formatumwandlungen für beschleunigte Verarbeitung
  • Integration diverser Datenquellen

Datenexploration:

  • Anfängliche einfache Datenanalysen und -visualisierungen
  • Datenreduktion durch Aggregation

Modelltraining:

  • Maschinelles Lernen mit PySpark umsetzen

Verfeinerung des Modells:

  • Bewertung des Modells mittels geeigneter Metriken
  • Optimierung durch Integration neuer Eigenschaften
  • Austausch von Ideen zur weiteren Verbesserung
  •  
Schulungsmethode

Schulungsmethode

Dieses Big Data Seminar legt einen großen Fokus auf praktische Anwendungen. Die Konzepte werden während der Schulung anhand von Folien erklärt und durch Beispiele veranschaulicht. In den Übungseinheiten haben die Teilnehmer:innen die Möglichkeit, das Gelernte mithilfe der Programmiersprache Python in der Cloud mit Jupyter Notebooks umzusetzen. Die Trainer:innen stehen den Teilnehmenden bei verschiedenen Aufgaben zur Seite und begleiten sie bei Fragen.

Hinweis

Hinweis

Die Teilnehmer:innen benötigen zur Teilnahme einen eigenen Rechner, auf dem ein aktueller Browser (Chrome, Firefox, Edge) zur Teilnahme an der Video-Schulung installiert ist. Entsprechend sollten die Teilnehmer:innen auch über ein Mikrofon und Kopfhörer oder Lautsprecher verfügen. Eine Kamera für die Teilnehmer:innen ist optional und freiwillig, wäre aber sehr hilfreich.

Um ein möglichst realistisches Erlebnis zu ermöglichen, erhält jede:r Teilnehmende ein eigenes kleines Cluster innerhalb der Amazon Cloud, der Zugriff erfolgt über SSH und den Web-Browser. Damit wird neben einem Web-Browser auch keine weitere Software auf den Computern der Teilnehmenden benötigt.

Bitte prüfen Sie, ob Ihr Firmenlaptop Zugangsbeschränkungen im Internet hat. Die digitalen Unterlagen (Skript) werden im Seminar online zum Download zur Verfügung gestellt. Sie erhalten vor dem Seminar per E-Mail den Link zu einer Testdatei zum Download, um dies überprüfen zu können.

Sie sollten sich in firmenfremde WLAN-Netze registrieren können, um Zugang zum Internet am Veranstaltungsort zu haben. Einige Teilnehmer:innen können sich alternativ auch über Ihr Firmen-Handy ins Internet einwählen (WLAN-Tethering / Hotspot).

Als Backup Lösung ist es möglich, dass der USB-Port bei Ihrem Laptop freigeschaltet ist, um damit verwendete Dateien oder sonstige Unterlagen übertragen zu können.

Hinweis für Online-Schulungen:
Für ein optimales Lernerlebnis in unseren Online-Schulungen empfehlen wir Ihnen die Teilnahme mit einem zweiten Bildschirm. So können Sie die Schulungsinhalte verfolgen, Anwendungen öffnen und parallel an praktischen Übungen teilnehmen. 

Weitere Seminare aus dem Bereich Data Science, Machine Learning & KI

Häufig gestellte Fragen (FAQ)

Häufig gestellte Fragen (FAQ)

Für wen ist dieses Seminar geeignet?  

Der Kurs richtet sich primär an Data Scientists und Data Analysts, die große Datenmengen mit Python und Apache Spark (PySpark) verarbeiten und analysieren möchten.

Welche Voraussetzungen sollten die Teilnehmenden mitbringen?  

Teilnehmende sollten über grundlegende Kenntnisse in Programmierung und SQL verfügen. Englischkenntnisse sind hilfreich, da einige Materialien nur auf Englisch verfügbar sind.

Welche Vorteile bringt die Teilnahme an diesem Seminar?  

Die Teilnahme am Seminar ermöglicht es den Teilnehmenden, umfangreiche Kenntnisse in der Verarbeitung großer Datenmengen mit Apache Spark und Python zu erwerben. Dies kann die beruflichen Fähigkeiten erweitern und die Karrierechancen in der Data-Science-Branche verbessern. Das Seminar bietet den Teilnehmenden damit einen praxisnahen Einstieg in Big Data Analytics - auch für Einsteiger:innen ohne Spark-Erfahrung.  

Welche Lernmethoden kommen zum Einsatz?  

Das Seminar legt großen Wert auf praktische Anwendungen. Die behandelten Konzepte werden durch Folien und praktische Beispiele veranschaulicht, und die Teilnehmenden haben die Möglichkeit, das Gelernte mithilfe von Python in der Cloud mit Jupyter Notebooks umzusetzen.

Was ist der Unterschied zwischen PySpark und Apache Spark?

Apache Spark ist ein Framework zur verteilten Datenverarbeitung. PySpark ist das offizielle Python-Interface für Spark und ermöglicht es, Spark-Cluster mit Python-Syntax zu programmieren. So lassen sich große Datenmengen effizient analysieren, ohne Scala oder Java zu beherrschen.

Welche Vorteile bietet PySpark Data Scientists sowie Analystinnen und Analysten?

PySpark kombiniert die einfache Syntax von Python mit der hohen Performance von Spark. Damit können Sie Daten aus verschiedenen Quellen verarbeiten, Machine-Learning-Modelle trainieren und Analysen im Big-Data-Maßstab durchführen - alles in einer einheitlichen Entwicklungsumgebung.

Benötigt man Vorkenntnisse in Spark oder Hadoop, um an dem Seminar teilzunehmen?

Nein, das Seminar ist praxisnah für Einsteiger:innen konzipiert. Grundkenntnisse in Python und SQL sind ausreichend, um die Übungen und Beispiele erfolgreich umzusetzen. Spark- und Hadoop-Konzepte werden Schritt für Schritt eingeführt.

Wie praxisorientiert ist die Schulung?

Sehr praxisorientiert, da alle Teilnehmenden in einer Cloud-Umgebung mit eigenem Spark-Cluster arbeiten. Übungen und Projekte werden über Jupyter Notebooks umgesetzt - ideal, um reale Workflows aus Data-Science- und Big-Data-Projekten nachzuvollziehen.

Wird im Seminar auch Machine Learning mit PySpark behandelt?

Ja, Sie lernen, wie Sie Machine-Learning-Modelle mit PySpark MLlib erstellen, trainieren und evaluieren. Dabei werden typische Verfahren wie Regression, Klassifikation und Modellbewertung anhand realer Datensätze geübt.

Welche Vorteile bietet PySpark gegenüber Pandas oder reinen Python-Workflows?

Während Pandas für kleinere Datenmengen optimiert ist, kann PySpark gigantische Datenbestände verteilt auf Cluster verarbeiten. Es skaliert horizontal und eignet sich ideal für Big-Data- und Cloud-Analysen, ohne dass der Code manuell parallelisiert werden muss.

Wie können die Teilnehmenden nach dem Seminar weiter mit PySpark arbeiten?

Sie können Ihr Wissen direkt in Big-Data-Projekten anwenden oder aufbauende Kurse zu Data Engineering, Spark Streaming oder

Termine

  • 1.290,00 € Netto
    Noch freie Plätze
    Jetzt buchen
    Cegos Integrata GmbH Düsseldorf
    Grafenberger Allee 293
    40237 Düsseldorf
  • 1.290,00 € Netto
    Noch freie Plätze
    Jetzt buchen
    online Training
    Live Online Training
  • 1.290,00 € Netto
    Noch freie Plätze
    Jetzt buchen
    online Training
    Live Online Training
  • 1.290,00 € Netto
    Noch freie Plätze
    Jetzt buchen
    online Training
    Live Online Training
  • 1.290,00 € Netto
    Noch freie Plätze
    Jetzt buchen
    online Training
    Live Online Training
  • 1.290,00 € Netto
    Noch freie Plätze
    Jetzt buchen
    online Training
    Live Online Training
  • 1.290,00 € Netto
    Noch freie Plätze
    Jetzt buchen
    Cegos Integrata GmbH FrankfurtAirPark
    Bessie-Coleman-Straße 13
    60549 Frankfurt am Main
  • 1.290,00 € Netto
    Noch freie Plätze
    Jetzt buchen
    online Training
    Live Online Training
Schulung - PySpark - Big Data Analytics mit Apache Spark und Python