DURCHFÜHRUNG MIT TERMIN

Dauer

1 Tag (12 Stunden)

Preis ab

1.300,00 € netto
1.547,00 € inkl. 19% MwSt.

Nr.

54450

Termine und Orte anzeigen

Jetzt buchen

TERMIN UND ORT NACH ABSPRACHE

Dauer

1 Tag (12 Stunden)

Inhouse-Paket - Erfahren Sie mehr über unser Inhouse Seminarangebot

Auf Anfrage

Nr.

54450

Kontaktieren Sie uns für ein Angebot!

On-demand Training

Sind Sie an diesem Thema interessiert?
Unsere Experten entwickeln Ihr individuell angepasstes Seminar!

Kontaktieren Sie uns

Download als PDF

Zur Merkliste hinzufügen

Kontaktieren Sie uns

Die Analyse und Verarbeitung großer Datenmengen ist heute ein entscheidender Erfolgsfaktor für datengetriebene Unternehmen. In diesem praxisorientierten Seminar lernen Sie, wie Sie mit Apache Spark und Python (PySpark) effizient Big Data analysieren und aufbereiten. Sie erhalten eine fundierte Einführung in die Grundlagen verteilter Datenverarbeitung, arbeiten mit realitätsnahen Beispielen und wenden moderne Methoden der Datenintegration, Transformation und Aggregation direkt an. Auch die Anwendungsmöglichkeiten von Machine Learning mit PySpark werden thematisiert.

Nach dem Seminar sind Sie in der Lage, große Datenmengen eigenständig zu laden, zu transformieren und gezielt auszuwerten. Sie kennen die Einsatzmöglichkeiten von PySpark im Kontext von Data Science und können fundierte Entscheidungen zur Datenverarbeitung in Big Data Projekten treffen.

Zielgruppe

Wer sollte teilnehmen:

Zielgruppe

Data Scientists und Data Analysts, die sich mit der Verarbeitung und Analyse großer Datenmengen mithilfe von Python und Apache Spark (PySpark) beschäftigen möchten.

Voraussetzungen

Grundlegende Kenntnisse in Programmierung und SQL sind erforderlich.
Erfahrungen in anderen Programmiersprachen sind von Vorteil, da sie den Einstieg in Python erleichtern.
Englischkenntnisse, insbesondere im Verständnis von englischen Texten, sind hilfreich, da viele Dokumentationen und Kursmaterialien auf Englisch verfügbar sind.

Trainingsprogramm

Einführung in Apache Spark Grundlagen:

Verortung und Kontext des Frameworks (Vergleich mit Pyspark, Hadoop und Kubernetes)
Grundlegende Prinzipien der verteilten Datenverarbeitung durch Apache Spark

Erste Schritte in der PySpark-Welt:

Essenzielle DataFrames-Grundlagen
Einbindung von JSON- und CSV-Daten
Einfache Datentransformationen (Projektionen, Filterung, grundlegende Funktionen...)

Weitere Datentransformationen erkunden:

Gruppierte Aggregationen verstehen
Sortierung von Daten
Joins von Datensätzen

UDF - User Defined Functions verwenden:

Effiziente Nutzung von Pandas UDFs in PySpark
Einsatzbereiche von UDFs

Datenhaltung und Speicherung:

Überblick über kompatible Dateiformate

Grundlagen des Maschinellen Lernens:

Modelltraining und -entwicklung
Einführung in Regressionsmodelle
Verwendung von Trainings- und Validierungsdaten
Bewertungsmetriken für Modellleistungen
Praktische Übung mit dem Datensatz des NYC Taxis

Vorbereitung der Daten:

Formatumwandlungen für beschleunigte Verarbeitung
Integration diverser Datenquellen

Datenexploration:

Anfängliche einfache Datenanalysen und -visualisierungen
Datenreduktion durch Aggregation

Modelltraining:

Maschinelles Lernen mit PySpark umsetzen

Verfeinerung des Modells:

Bewertung des Modells mittels geeigneter Metriken
Optimierung durch Integration neuer Eigenschaften
Austausch von Ideen zur weiteren Verbesserung

Schulungsmethode

Dieses Big Data Seminar legt einen großen Fokus auf praktische Anwendungen. Die Konzepte werden während der Schulung anhand von Folien erklärt und durch Beispiele veranschaulicht. In den Übungseinheiten haben die Teilnehmer:innen die Möglichkeit, das Gelernte mithilfe der Programmiersprache Python in der Cloud mit Jupyter Notebooks umzusetzen. Die Trainer:innen stehen den Teilnehmenden bei verschiedenen Aufgaben zur Seite und begleiten sie bei Fragen.

Hinweis

Die Teilnehmer:innen benötigen zur Teilnahme einen eigenen Rechner, auf dem ein aktueller Browser (Chrome, Firefox, Edge) zur Teilnahme an der Video-Schulung installiert ist. Entsprechend sollten die Teilnehmer:innen auch über ein Mikrofon und Kopfhörer oder Lautsprecher verfügen. Eine Kamera für die Teilnehmer:innen ist optional und freiwillig, wäre aber sehr hilfreich.

Um ein möglichst realistisches Erlebnis zu ermöglichen, erhält jede:r Teilnehmende ein eigenes kleines Cluster innerhalb der Amazon Cloud, der Zugriff erfolgt über SSH und den Web-Browser. Damit wird neben einem Web-Browser auch keine weitere Software auf den Computern der Teilnehmenden benötigt.

Bitte prüfen Sie, ob Ihr Firmenlaptop Zugangsbeschränkungen im Internet hat. Die digitalen Unterlagen (Skript) werden im Seminar online zum Download zur Verfügung gestellt. Sie erhalten vor dem Seminar per E-Mail den Link zu einer Testdatei zum Download, um dies überprüfen zu können.

Sie sollten sich in firmenfremde WLAN-Netze registrieren können, um Zugang zum Internet am Veranstaltungsort zu haben. Einige Teilnehmer:innen können sich alternativ auch über Ihr Firmen-Handy ins Internet einwählen (WLAN-Tethering / Hotspot).

Als Backup Lösung ist es möglich, dass der USB-Port bei Ihrem Laptop freigeschaltet ist, um damit verwendete Dateien oder sonstige Unterlagen übertragen zu können.

Hinweis für Online-Schulungen:
Für ein optimales Lernerlebnis in unseren Online-Schulungen empfehlen wir Ihnen die Teilnahme mit einem zweiten Bildschirm. So können Sie die Schulungsinhalte verfolgen, Anwendungen öffnen und parallel an praktischen Übungen teilnehmen.

Weitere Seminare aus dem Bereich Data Science, Machine Learning & KI

Weiterführende Informationen: Eine Auswahl vertiefender Inhalte und praxisorientierter Beiträge zum Thema Datenkompetenz findet sich im Datenkompetenz‑Blog.

Häufig gestellte Fragen (FAQ)

Für wen ist dieses Seminar geeignet?

Der Kurs richtet sich primär an Data Scientists und Data Analysts, die große Datenmengen mit Python und Apache Spark (PySpark) verarbeiten und analysieren möchten.

Welche Voraussetzungen sollten die Teilnehmenden mitbringen?

Teilnehmende sollten über grundlegende Kenntnisse in Programmierung und SQL verfügen. Englischkenntnisse sind hilfreich, da einige Materialien nur auf Englisch verfügbar sind.

Welche Vorteile bringt die Teilnahme an diesem Seminar?

Die Teilnahme am Seminar ermöglicht es den Teilnehmenden, umfangreiche Kenntnisse in der Verarbeitung großer Datenmengen mit Apache Spark und Python zu erwerben. Dies kann die beruflichen Fähigkeiten erweitern und die Karrierechancen in der Data-Science-Branche verbessern. Das Seminar bietet den Teilnehmenden damit einen praxisnahen Einstieg in Big Data Analytics - auch für Einsteiger:innen ohne Spark-Erfahrung.

Welche Lernmethoden kommen zum Einsatz?

Das Seminar legt großen Wert auf praktische Anwendungen. Die behandelten Konzepte werden durch Folien und praktische Beispiele veranschaulicht, und die Teilnehmenden haben die Möglichkeit, das Gelernte mithilfe von Python in der Cloud mit Jupyter Notebooks umzusetzen.

Was ist der Unterschied zwischen PySpark und Apache Spark?

Apache Spark ist ein Framework zur verteilten Datenverarbeitung. PySpark ist das offizielle Python-Interface für Spark und ermöglicht es, Spark-Cluster mit Python-Syntax zu programmieren. So lassen sich große Datenmengen effizient analysieren, ohne Scala oder Java zu beherrschen.

Welche Vorteile bietet PySpark Data Scientists sowie Analystinnen und Analysten?

PySpark kombiniert die einfache Syntax von Python mit der hohen Performance von Spark. Damit können Sie Daten aus verschiedenen Quellen verarbeiten, Machine-Learning-Modelle trainieren und Analysen im Big-Data-Maßstab durchführen - alles in einer einheitlichen Entwicklungsumgebung.

Benötigt man Vorkenntnisse in Spark oder Hadoop, um an dem Seminar teilzunehmen?

Nein, das Seminar ist praxisnah für Einsteiger:innen konzipiert. Grundkenntnisse in Python und SQL sind ausreichend, um die Übungen und Beispiele erfolgreich umzusetzen. Spark- und Hadoop-Konzepte werden Schritt für Schritt eingeführt.

Wie praxisorientiert ist die Schulung?

Sehr praxisorientiert, da alle Teilnehmenden in einer Cloud-Umgebung mit eigenem Spark-Cluster arbeiten. Übungen und Projekte werden über Jupyter Notebooks umgesetzt - ideal, um reale Workflows aus Data-Science- und Big-Data-Projekten nachzuvollziehen.

Wird im Seminar auch Machine Learning mit PySpark behandelt?

Ja, Sie lernen, wie Sie Machine-Learning-Modelle mit PySpark MLlib erstellen, trainieren und evaluieren. Dabei werden typische Verfahren wie Regression, Klassifikation und Modellbewertung anhand realer Datensätze geübt.

Welche Vorteile bietet PySpark gegenüber Pandas oder reinen Python-Workflows?

Während Pandas für kleinere Datenmengen optimiert ist, kann PySpark gigantische Datenbestände verteilt auf Cluster verarbeiten. Es skaliert horizontal und eignet sich ideal für Big-Data- und Cloud-Analysen, ohne dass der Code manuell parallelisiert werden muss.

Wie können die Teilnehmenden nach dem Seminar weiter mit PySpark arbeiten?

Sie können Ihr Wissen direkt in Big-Data-Projekten anwenden oder aufbauende Kurse zu Data Engineering, Spark Streaming oder <

Termine

1.300,00 € Netto
Noch freie Plätze
Jetzt buchen
online Training
Live Online Training
1.300,00 € Netto
Noch freie Plätze
Jetzt buchen
online Training
Live Online Training
1.300,00 € Netto
Noch freie Plätze
Jetzt buchen
online Training
Live Online Training
1.300,00 € Netto
Noch freie Plätze
Jetzt buchen
Cegos Integrata GmbH FrankfurtAirPark
Bessie-Coleman-Straße 13
60549 Frankfurt am Main
1.300,00 € Netto
Noch freie Plätze
Jetzt buchen
online Training
Live Online Training

Schulung - PySpark - Big Data Analytics mit Apache Spark und Python

Inhouse Seminare

Sparen Sie Zeit und Geld mit den Inhouse Seminaren von Cegos Integrata

Alle Seminare aus unserem offenen Angebot können Sie auch als Inhouse-Veranstaltung buchen. Im Fokus steht Ihr Unternehmen und Ihre Mitarbeiter:innen. Wir bieten Ihnen die Möglichkeit, individuelle Anforderungen und Anpassungen der Inhalte an Ihr Unternehmen vorzunehmen.

Die individuelle Lösung:

Individueller Termin
Individueller Ort, entweder in unseren Trainingszentren oder in Ihren eigenen Räumen
Auf Wunsch, individuelle, auf Ihre Bedürfnisse zugeschnittene Inhalte

Inhouse Seminare

Das Inhouse-Paket umfasst:

- die Durchführung als Live Online, Hybrid oder Präsenz Training
- die Umsetzung durch praxiserprobte und branchenerfahrene Trainer

In Abhängigkeit von Teilnehmerzahl, Akkreditierung oder Lizenzgebühren können zusätzliche Kosten anfallen. Nicht im Preis enthalten sind dabei z.B. Raum- und Bewirtungskosten, ebenso Mehrkosten durch Seminarmaterialien.

Bitte sprechen Sie uns gerne dazu an und lassen Sie sich jetzt Ihr individuelles Angebot erstellen.

Recevoir le programme par email

Envoyer le programme à un collaborateur

Preis

Es entstehen keine zusätzlichen Liefer- & Versandkosten

Schulung - PySpark - Big Data Analytics mit Apache Spark und Python

Verarbeitung und Analyse großer Datenmengen mit Apache Spark und Python praxisnah einsetzen.

Wer sollte teilnehmen:

Zielgruppe

Voraussetzungen

Trainingsprogramm

Einführung in Apache Spark Grundlagen:

Erste Schritte in der PySpark-Welt:

Weitere Datentransformationen erkunden:

UDF - User Defined Functions verwenden:

Datenhaltung und Speicherung:

Grundlagen des Maschinellen Lernens:

Vorbereitung der Daten:

Datenexploration:

Modelltraining:

Verfeinerung des Modells:

Schulungsmethode

Hinweis

Häufig gestellte Fragen (FAQ)

Für wen ist dieses Seminar geeignet?

Welche Voraussetzungen sollten die Teilnehmenden mitbringen?

Welche Vorteile bringt die Teilnahme an diesem Seminar?

Welche Lernmethoden kommen zum Einsatz?

Was ist der Unterschied zwischen PySpark und Apache Spark?

Welche Vorteile bietet PySpark Data Scientists sowie Analystinnen und Analysten?

Benötigt man Vorkenntnisse in Spark oder Hadoop, um an dem Seminar teilzunehmen?

Wie praxisorientiert ist die Schulung?

Wird im Seminar auch Machine Learning mit PySpark behandelt?

Welche Vorteile bietet PySpark gegenüber Pandas oder reinen Python-Workflows?

Wie können die Teilnehmenden nach dem Seminar weiter mit PySpark arbeiten?

Termine

Inhouse Seminare

Inhouse Seminare

Recevoir le programme par email

Envoyer le programme à un collaborateur

Preis