Schulungsübersicht
- Einführung
- Hadoop Geschichte, Konzepte
- Ökosystem
- Verteilungen
- Hochrangige Architektur
- Hadoop Mythen
- Hadoop Herausforderungen (Hardware / Software)
- Labore: Diskussion von Big Data Projekten und Problemen
- Planung und Installation
- Auswahl der Software, Hadoop Verteilungen
- Skalierung des Clusters, Planung für Wachstum
- Auswahl von Hardware und Netzwerk
- Rack-Topologie
- Installation
- Mehrere Mandanten
- Verzeichnisstruktur, Protokolle
- Benchmarking
- Labore: Cluster-Installation, Ausführen von Performance-Benchmarks
- HDFS-Vorgänge
- Konzepte (horizontale Skalierung, Replication, Datennähe, Rack-Awareness)
- Knoten und Daemons (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Gesundheitsmonitoring
- Kommandozeilen- und Browser-basierte Verwaltung
- Hinzufügen von Speicher, Austausch defekter Laufwerke
- Labore: Bekanntwerden mit HDFS-Kommandos
- Datenverarbeitung
- Flume für Logs und andere Dateneingänge in das HDFS
- Sqoop zur Importierung aus SQL Datenbanken ins HDFS sowie Export zurück zu SQL
- Hadoop Data-Warehousing mit Hive
- Kopieren von Daten zwischen Clustern (distcp)
- Verwendung von S3 als Ergänzung zum HDFS
- Best Practices und Architekturen für Dateneingänge
- Labore: Einrichten und Benutzen von Flume, sowie Sqoop
- MapReduce-Vorgänge und Verwaltung
- Parallele Berechnung vor Mapreduce: Vergleich HPC vs Hadoop Verwaltung
- MapReduce-Cluster-Belastungen
- Knoten und Daemons (JobTracker, TaskTracker)
- Durchführung der MapReduce-Oberfläche
- Mapreduce-Konfiguration
- Jobkonfiguration
- Optimierung von MapReduce
- Fehlerfrei machen von MR: Was den Programmierern mitzuteilen ist
- Labore: Ausführen von MapReduce-Beispielen
- YARN: Neue Architektur und neue Fähigkeiten
- YARN-Gestaltungsziele und Implementierungsarchitektur
- Neue Akteure: ResourceManager, NodeManager, Application Master
- Installation von YARN
- Job-Planung unter YARN
- Labore: Untersuchung der Job-Planung
- Fortgeschrittene Themen
- Hardware-Monitoring
- Cluster-Monitoring
- Hinzufügen und Entfernen von Servern, Upgraden Hadoop
- Sicherung, Wiederherstellung und Geschäftskontinuitätsplanung
- Oozie-Job-Workflows
- Hadoop Hochverfügbarkeit (HA)
- Hadoop Federation
- Sicherung des Clusters mit Kerberos
- Labore: Einrichten von Monitoring
- Optionale Tracks
- Cloudera Manager für Cluster-Verwaltung, -Monitoring und Routine-Aufgaben; Installation, Nutzung. In diesem Track werden alle Übungen und Labore im Umfeld der Cloudera Distribution (CDH5) durchgeführt.
- Ambari für Cluster-Verwaltung, Monitoring und Routinetätigkeiten; Installation, Nutzung. In diesem Track werden alle Übungen und Labore innerhalb des Hortonworks Data Platforms (HDP 2.0) durchgeführt.
Voraussetzungen
- komfortabel mit der grundlegenden Systemverwaltung
- grundlegende Skriptfähigkeiten
Wissen über Hadoop und verteiltes Rechnen ist nicht erforderlich, wird aber im Kurs eingeführt und erklärt.
Lab-Umgebung
Zero Install : Es ist kein Hadoop-Software auf den Studentenrechnern zu installieren! Ein funktionierender Hadoop-Cluster wird für die Studierenden zur Verfügung gestellt.
Die Studierenden benötigen Folgendes
- einen SSH-Client (unter Linux und Mac sind ssh-Clients bereits integriert, für Windows wird Putty empfohlen)
- einen Browser zum Zugriff auf den Cluster. Wir empfehlen den Firefox-Browser mit der FoxyProxy-Erweiterung
Erfahrungsberichte (5)
Die Live-Beispiele
Ahmet Bolat - Accenture Industrial SS
Kurs - Python, Spark, and Hadoop for Big Data
Maschinelle Übersetzung
Während der Übungen erklärte James mir jeden Schritt detaillierter, wo immer ich festsaß. Ich war komplett neu in NIFI. Er erläuterte den tatsächlichen Zweck von NIFI, sogar die Grundlagen wie Open Source. Er ging alle Konzepte von NIFI von Anfänger- bis Entwickler-Level durch.
Firdous Hashim Ali - MOD A BLOCK
Kurs - Apache NiFi for Administrators
Maschinelle Übersetzung
Vorbereitung und Organisation des Trainers sowie die Qualität der bereitgestellten Materialien auf GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Kurs - Impala for Business Intelligence
Maschinelle Übersetzung
Dass ich es überhaupt hatte.
Peter Scales - CACI Ltd
Kurs - Apache NiFi for Developers
Maschinelle Übersetzung
praktische Dinge der Umsetzung, auch die Theorie wurde gut von Ajay vermittelt
Dominik Mazur - Capgemini Polska Sp. z o.o.
Kurs - Hadoop Administration on MapR
Maschinelle Übersetzung