"Weniger Gigabyte + weniger Kosten = mehr Effizienz"

Veröffentlicht in Aktuelles

Deduplizierung: Funktionsweise / Einsatzszenarien

Das Datenaufkommen in Firmen steigt nach wie vor rasant. Mit Deduplizierung lassen sich Neuinvestition vermeiden sowie Zeit und Geld beim unternehmensweiten Speichermanagement einsparen.

Einer Studie des Marktforschungsinstituts IDC zufolge steigt die Speicherkapazität in Unternehmen jährlich um 48 bis 50 Prozent. Üblicherweise reagieren IT-Verantwortliche darauf mit dem Zukauf neuer Speicherkapazitäten - und manövrieren sich damit langfristig ins Abseits: Rund 70 Prozent aller Daten sind redundant, im Durchschnitt greifen Anwender mehr als 90 Tage nicht auf sie zu, so IDC weiter.

Etwa die Hälfte aller elektronisch gesicherten Informationen wird sogar nie wieder benötigt. Oft wandern nämlich neben wichtigen Files auch jede Menge bedeutungsloser Daten auf die Backup-Medien. Es mangelt an einer Indizierung der gesicherten Informationen und somit an Transparenz darüber, welche Inhalte geschäftsrelevanten Charakter besitzen und welche Daten schlichtweg obsolet für die Unternehmenszukunft sind. Hinzu kommt, dass ein und dieselben Daten doppelt und dreifach in den Storage-Systemen gesichert werden. Gespeichert wird vorsorglich, Bit für Bit. Das Prinzip "doppelt hält besser" greift in diesem Fall allerdings nicht. Vielmehr führt das halbherzig verfolgte Speichermanagement zu einer zusätzlichen Steigerung der IT-Kosten - trotz sinkender Hardware-Preise. Schließlich fehlt es häufig an einer klaren Strategie, welche Daten für das Backup bestimmt sein sollen und welche eigentlich in ein Archiv gehören. Zu all dem passt eine weitere Studie von IDC, wonach die durchschnittliche Auslastung existierender Speichersysteme in einem SAN bei mageren 35 bis 40 Prozent liegt. Mit anderen Worten: Mindestens 60 Prozent des verfügbaren Speicherplatzes liegen brach.

Deduplizierung: Das Grundprinzip Dabei handelt es sich - einfach ausgedrückt - darum, mehrfach vorhandene Informationen zu identifizieren und nur ein einziges Mal zu speichern oder zu sichern. Im Zusammenhang mit einer Backup- und Recovery-Strategie ermöglicht es Deduplizierung, Sicherungen und Wiederherstellungen deutlich zu beschleunigen und die Effizienz von Anwendungen zu erhöhen. Konkret versteht sich Deduplizierung als ein Prozess, der Dateien in einzelne Segmente herunterbricht und anschließend sicherstellt, dass lediglich eine Kopie des jeweiligen Datenabschnitts auf den entsprechenden Media Servern gespeichert wird. Dabei spielt es keine Rolle, wie viele Clients am Backup-Prozess beteiligt sind. Bei einem Backup von fünf Clients beispielsweise wird lediglich eine Kopie eines Segments auf dem Server abgelegt, auch wenn dieselbe Information auf mehreren Arbeitsstationen vorhanden ist.

Eine Tracking-Datenbank fungiert als Kontrollinstanz: Sie enthält die Informationen darüber, welche Segmente von welchen Rechnern sich bereits auf dem Sicherungsmedium befinden, welche Daten erstmalig gespeichert werden und welche Files verändert wurden. Bei einem Recovery erfolgt die Rekonstruktion der Datei anhand der Informationen in der Tracking-Datenbank bevor ein Transfer an den Zielort stattfindet.

Tiefgehender und somit effizienter arbeiten Reduktionsverfahren auf dem Block- beziehungsweise Bit-Level. Als typisches Beispiel lässt sich eine Powerpoint-Datei heranziehen: Ändert der Autor der Datei nur eine Zahl auf seinem Slide, speichern Block- und Bit-basierte Techniken lediglich diese Änderung ab. Die Datei wird also später aus mehreren Bestandteilen zusammengesetzt, die für sich genommen die Änderungen seit der ersten Version widerspiegeln.

Deduplizierungs-Systeme arbeiten also auf Blocklevel und somit anders als klassische Kompressionsverfahren, die nur wenige Vergleichsmuster benutzen. Dadurch grenzen sie sich auch zum Single Instance Storage ab, das identische Dateien eliminiert (siehe auch inhaltsadressierte Speichersysteme, CAS). Eine wichtige Funktion der Deduplizierung ist das sogenannte Fingerprinting. Hier werden Dateien in so genannte Chunks (Datenblöcke) zerlegt. Auf Byte-Ebene wird dann analysiert, welche Segmente die höchste Wiederholrate bieten, um durch Referenzierung (Pointer) auf das Ursprungselement größtmögliche Datenreduzierung zu ermöglichen.

Sehr gerne helfen wir Ihnen weiter mehr Effizienz zu schaffen. Gemeinsam mit unserem Partner NetApp können wir Sie bei Ihrem vorhaben unterstützen.

 

logos