Hadoop

Apache Hadoop ist ein Framework der Apache Software Foundation (ASF) für skalierbare, verteilt arbeitende Software. Ursprünglich von Open Source-Entwickler Doug Cutting geschaffen, wurde Hadoop im Januar 2008 zum Top-Level-Projekt der Apache Software Foundation, im September 2010 wurde Cutting zum Vorsitzenden der ASF gewählt.

Hadoop ermöglicht intensive Rechenprozesse mit umfangreichen Datenmengen, die im Bereich von Petabytes liegen. Auf der Grundlage von Java entwickelt, arbeitet Hadoop mit dem MapReduce-Algorithmus von Google mit konfigurierbaren Klassen für Map, Reduce und Combine-Phasen. Hadoop wird auch auf den Web-Plattformen von Facebook, IBM und Yahoo eingesetzt. Zu den Unternehmen, die Hadoop unterstützen, gehören EMC, Microsoft, SAP und Teradata.

Das Hadoop Distributed File System (HDFS) ist ein verteiltes Dateisystem mit einer hohen Fehlertoleranz gegenüber Hardwareausfällen. Es dient zur Speicherung von mehreren 100 Millionen Dateien auf mehreren Storage-Komponenten und Servern. Es teilt die Dateien in Datenblöcke mit fester Länge und verteilt sie auf die angeschlossene Hardware. Ein Masterknoten (NameNode) verarbeitet die eingehenden Abfragen und organisiert die Ablage der Metadaten von Dateien in den Slaves.

Zu Hadoop gehören mehrere Erweiterungen, darunter die Datenbank HBase, eine freie Implementierung von Google BigTable zur Verwaltung von mehreren Milliarden Zeilen innerhalb eines Hadoop-Clusters. Hive ermöglicht das Data Warehousing mit Hadoop. Diese Abfragesprache hat eine auf SQL-basierte Syntax und wurde von Facebook entwickelt. Weitere Erweiterungen sind Pig zur Entwicklung von MapReduce-Programmen in der Programmiersprache Pig Latin, ZooKeeper zur Konfiguration von verteilten Systemen sowie Chukwa zur Überwachung verteilter Systeme in Echtzeit.

Mit Apache Spark hat die Apache Software Foundation ein vielfach schnelleres Open-Source-Framework entwickelt.

Informationen zum Artikel
Deutsch: Hadoop
Englisch:
Veröffentlicht: 15.12.2017
Wörter: 257
Tags: Plattformen
Links: Abfrage, Apache, ASF (advanced streaming format), Data Warehouse, Datenbank