Deduplizierung

Bei der Deduplizierung, Deduplication (DeDup), oder Daten-Deduplizierung, Data Deduplication (DDD), geht es darum, mehrfach bearbeitete und gespeicherte Dateien, die redundant sind oder sich nur geringfügig unterscheiden, zu erkennen und zu beseitigen. Ziel der Deduplizierung ist die Kapazitätsoptimierung von Speichermedien. Es geht darum das gespeicherte Datenvolumen zu reduzieren und Speicherplatz zu sparen.


Bei der Deduplizierung werden identische Dateien durch einen Pointer auf den originalen Datenblock weitergeleitet oder sie werden durch kleine Dateien, die die Rolle eines Platzhalters übernehmen, mit der Speicheradresse der Originaldateien ersetzt. Sie bilden somit die Referenz auf bereits erfasste Dateien. Weisen die Dateien nur geringfügige Unterschiede auf, dann werden nur die Unterschiede in den Dateien gespeichert. Bei den Deduplizierungstechniken gibt es zwei grundlegende Verfahren: Das Inline-Processing und das Post-Processing.

Beim Inline-Processing werden die Daten für die virtuellen Bandbibliotheken (VTL) kontinuierlich verarbeitet. Das kann dadurch erfolgen, dass kleinere Dateien auf Duplicated Content hin überprüft werden oder der Hashwert für diese Kleindateien ermittelt wird.

Anders ist es beim Post-Processing bei dem die Daten zuerst gespeichert und anschließend auf Duplikate untersucht werden. Diese Technik benötigt beim Abspeichern zuerst einen höheren Speicherbedarf, der sich nach der Überprüfung reduziert.

Die durch die Deduplizierung möglichen Einsparungen an Speicherbelegung, an Strom- und Bearbeitungskosten hängen von der Größe der Dateien, deren Anzahl und der Häufigkeit der Backups ab. Gerade in diesem Bereich tritt bei Unterscheidung zwischen gleichen, veränderten und neuen Dateien ein wesentlicher Spareffekt ein. Bei komplexeren Anwendungen kann sich die Deduplizierung auch auf einzelne Datenblöcke beziehen. Neben der klassischen Deduplizierung gibt es die globale Deduplizierung. Durch sie können Daten von mehreren Kopien gegeneinander verglichen und redundante Daten eliminiert werden.

Informationen zum Artikel
Deutsch: Deduplizierung
Englisch: deduplication - DeDup
Veröffentlicht: 17.09.2019
Wörter: 282
Tags: #Storage-Konzepte
Links: Datei, Daten, Datenblock, Duplicated Content, Globale Deduplizierung