HDFS (Hadoop distributed file system)

Hadoop Distributed File System (HDFS) ist ein verteiltes Dateisystem mit einer hohen Fehlertoleranz gegenüber Hardwareausfällen. HDFS arbeitet im Master-Slave-Betrieb und speichert Metadaten auf dem Masterknoten, dem NameNode.


Die Metadaten des Dateisystems werden als Verzeichnisstrukturen verwaltet. Die Nutzdaten werden in den Slaves, die als DataNodes bezeichnet werden, abgelegt. Der NameNode verarbeitet die eingehenden Abfragen und organisiert die Ablage der Dateien in den Slaves.

Beim Konzept von HDFS wird das Auslesen optimiert, weil davon ausgegangen wird, dass Dateien nur einmal eingeschrieben, aber häufig gelesen werden. Die Leseoperation ist daher effizienter als das Einschreiben der Dateien.

Zur Erhöhung der Ausfallsicherheit arbeitet HDFS mit einer Replikation der Nutzdaten, die in Blöcke gleicher Größe aufgeteilt und vom NameNode auf mehrere DataNodes abgelegt werden. Standardmäßig werden die Datenblöcke dreifach repliziert und bei Ausfall eines Knoten wird der entsprechende Datenblock vom NameNode von einem anderen Cluster abgerufen. Um Datenverlust zu vermeiden, darf keine Datei auf nur einem Knoten gespeichert werden.

Informationen zum Artikel
Deutsch:
Englisch: Hadoop distributed file system - HDFS
Veröffentlicht: 13.10.2016
Wörter: 161
Tags: #Computer-Hardware
Links: Abfrage, Ausfallsicherheit, Cluster, Datenblock, Fehlertoleranz