Schulungsübersicht

  • Einführung
    • Hadoop Geschichte, Konzepte
    • Ökosystem
    • Verteilungen
    • Hochrangige Architektur
    • Hadoop Mythen
    • Hadoop Herausforderungen (Hardware / Software)
    • Labore: Diskussion von Big Data Projekten und Problemen
  • Planung und Installation
    • Auswahl der Software, Hadoop Verteilungen
    • Skalierung des Clusters, Planung für Wachstum
    • Auswahl von Hardware und Netzwerk
    • Rack-Topologie
    • Installation
    • Mehrere Mandanten
    • Verzeichnisstruktur, Protokolle
    • Benchmarking
    • Labore: Cluster-Installation, Ausführen von Performance-Benchmarks
  • HDFS-Vorgänge
    • Konzepte (horizontale Skalierung, Replication, Datennähe, Rack-Awareness)
    • Knoten und Daemons (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Gesundheitsmonitoring
    • Kommandozeilen- und Browser-basierte Verwaltung
    • Hinzufügen von Speicher, Austausch defekter Laufwerke
    • Labore: Bekanntwerden mit HDFS-Kommandos
  • Datenverarbeitung
    • Flume für Logs und andere Dateneingänge in das HDFS
    • Sqoop zur Importierung aus SQL Datenbanken ins HDFS sowie Export zurück zu SQL
    • Hadoop Data-Warehousing mit Hive
    • Kopieren von Daten zwischen Clustern (distcp)
    • Verwendung von S3 als Ergänzung zum HDFS
    • Best Practices und Architekturen für Dateneingänge
    • Labore: Einrichten und Benutzen von Flume, sowie Sqoop
  • MapReduce-Vorgänge und Verwaltung
    • Parallele Berechnung vor Mapreduce: Vergleich HPC vs Hadoop Verwaltung
    • MapReduce-Cluster-Belastungen
    • Knoten und Daemons (JobTracker, TaskTracker)
    • Durchführung der MapReduce-Oberfläche
    • Mapreduce-Konfiguration
    • Jobkonfiguration
    • Optimierung von MapReduce
    • Fehlerfrei machen von MR: Was den Programmierern mitzuteilen ist
    • Labore: Ausführen von MapReduce-Beispielen
  • YARN: Neue Architektur und neue Fähigkeiten
    • YARN-Gestaltungsziele und Implementierungsarchitektur
    • Neue Akteure: ResourceManager, NodeManager, Application Master
    • Installation von YARN
    • Job-Planung unter YARN
    • Labore: Untersuchung der Job-Planung
  • Fortgeschrittene Themen
    • Hardware-Monitoring
    • Cluster-Monitoring
    • Hinzufügen und Entfernen von Servern, Upgraden Hadoop
    • Sicherung, Wiederherstellung und Geschäftskontinuitätsplanung
    • Oozie-Job-Workflows
    • Hadoop Hochverfügbarkeit (HA)
    • Hadoop Federation
    • Sicherung des Clusters mit Kerberos
    • Labore: Einrichten von Monitoring
  • Optionale Tracks
    • Cloudera Manager für Cluster-Verwaltung, -Monitoring und Routine-Aufgaben; Installation, Nutzung. In diesem Track werden alle Übungen und Labore im Umfeld der Cloudera Distribution (CDH5) durchgeführt.
    • Ambari für Cluster-Verwaltung, Monitoring und Routinetätigkeiten; Installation, Nutzung. In diesem Track werden alle Übungen und Labore innerhalb des Hortonworks Data Platforms (HDP 2.0) durchgeführt.

Voraussetzungen

  • komfortabel mit der grundlegenden Systemverwaltung
  • grundlegende Skriptfähigkeiten

Wissen über Hadoop und verteiltes Rechnen ist nicht erforderlich, wird aber im Kurs eingeführt und erklärt.

Lab-Umgebung

Zero Install : Es ist kein Hadoop-Software auf den Studentenrechnern zu installieren! Ein funktionierender Hadoop-Cluster wird für die Studierenden zur Verfügung gestellt.

Die Studierenden benötigen Folgendes

  • einen SSH-Client (unter Linux und Mac sind ssh-Clients bereits integriert, für Windows wird Putty empfohlen)
  • einen Browser zum Zugriff auf den Cluster. Wir empfehlen den Firefox-Browser mit der FoxyProxy-Erweiterung
 21 Stunden

Teilnehmerzahl


Price per participant (excl. VAT)

Erfahrungsberichte (5)

Kommende Kurse

Verwandte Kategorien