Michael Chen | Content Strategist | 14. Februar 2024
Der Prozess der Datendeduplizierung eliminiert systematisch redundante Kopien von Daten und Dateien, was dazu beitragen kann, die Speicherkosten zu senken und die Versionskontrolle zu verbessern. In einer Zeit, in der jedes Gerät Daten generiert und ganze Organisationen Dateien teilen, ist die Datendeduplizierung ein wesentlicher Bestandteil des IT-Betriebs. Es ist auch ein wesentlicher Bestandteil des Datenschutz- und Kontinuitätsprozesses. Wenn die Datendeduplizierung auf Backups angewendet wird, identifiziert und eliminiert sie doppelte Dateien und Blöcke, wobei nur eine Instanz jeder eindeutigen Information gespeichert wird. Dies kann nicht nur helfen, Geld zu sparen, sondern auch dazu beitragen, die Backup- und Wiederherstellungszeiten zu verbessern, da weniger Daten über das Netzwerk gesendet werden müssen.
Bei der Datendeduplizierung werden identische Dateien oder Blöcke aus Datenbanken und Datenspeicher entfernt. Dies kann auf einer Datei-für-Datei-, Block-für-Block- oder einzelnen Byte-Ebene oder irgendwo dazwischen geschehen, wie von einem Algorithmus vorgegeben. Die Ergebnisse werden oft anhand des sogenannten "Daten-Deduplizierungsverhältnisses" gemessen. Nach der Deduplizierung sollten Organisationen mehr freien Speicherplatz haben, obwohl sich nur die Menge unterscheidet, da einige Aktivitäten und Dateitypen anfälliger für Duplizierung sind als andere. Während IT-Abteilungen regelmäßig auf Duplikate prüfen sollten, variieren die Vorteile der häufigen Deduplizierung ebenfalls stark und hängen von mehreren Variablen ab.
Wichtige Erkenntnisse
Beim Datendeduplizierungsprozess scannt ein Tool Speicher-Volumes auf doppelte Daten und entfernt markierte Instanzen. Um Duplikate zu finden, vergleicht das System eindeutige Kennungen oder Hashes, die an jedes Datenelement angehängt sind. Wenn eine Übereinstimmung gefunden wird, wird nur eine Kopie der Daten gespeichert, und Duplikate werden durch Verweise auf die ursprüngliche Kopie ersetzt.
Das Deduplizierungssystem sucht im lokalen Speicher, in Managementtools wie Datenkatalogen sowie in Datenspeichern und scannt sowohl strukturierte als auch unstrukturierte Daten. Um vollständig zu verstehen, worum es geht, sind die folgenden Begriffe und Definitionen von entscheidender Bedeutung:
Die Datendeduplizierung kann dazu beitragen, Ressourcen zu sparen – Speicherplatz, Rechenleistung und Geld. Bei der Deduplizierung geht es im Grunde darum, Speicher-Volumes zu verkleinern. Wenn jedoch jedes Gerät massive Datenmengen erzeugt und Dateien ständig zwischen Abteilungen geteilt werden, hat die Auswirkung doppelter Daten weitreichende Konsequenzen. Beispielsweise kann es Prozesse verlangsamen, Hardwareressourcen verbrauchen, Redundanzen schaffen und Verwirrung stiften, wenn verschiedene Teams verschiedene redundante Dateien verwenden. Die Deduplizierung kann dazu beitragen, sich um all dies zu kümmern, weshalb viele Unternehmen es im Rahmen ihrer IT-Wartungsstrategien auf einem regelmäßig geplanten Intervall halten.
Da die Datendeduplizierung ein ressourcenintensiver Datenmanagementprozess ist, sollte das Timing von einer Reihe von Variablen abhängen, einschließlich des Designs des Netzwerks und des Zugriffs auf Dateien durch Mitarbeiter. Die folgenden Situationen sind am häufigsten, wenn die Datendeduplizierung verwendet wird:
General-Purpose-Dateiserver bieten Speicher und Dienste für eine Vielzahl von Daten, einschließlich der Caches von Dateien einzelner Mitarbeiter und freigegebener Abteilungsordner. Da diese Servertypen oft sowohl ein hohes Benutzeraufkommen als auch eine Vielzahl von Benutzerrollen aufweisen, gibt es in der Regel viele doppelte Dateien. Ursachen sind Backups von lokalen Festplatten, App-Installationen, Dateifreigabe und mehr.
Virtuelle Desktop-Infrastrukturtechnologie bietet zentralisiertes Hosting und Management virtualisierter Desktops für Remote-Zugriff. Das Problem ist, dass virtuelle Festplatten oft identisch sind und doppelte Dateien enthalten, die Speicher belegen. Darüber hinaus kann der anschließende "VDI-Bootsturm", wenn eine große Anzahl von Benutzern ihre virtuellen Maschinen gleichzeitig hochfährt, wie zum Beispiel zu Beginn des Arbeitstages, die Leistung zu einem Crawl schleifen, wenn nicht zu einem Stillstand. Die Deduplizierung kann dies erleichtern, indem sie einen In-Memory-Cache für einzelne Anwendungsressourcen verwendet, wie sie bei Bedarf aufgerufen werden.
Backups erstellen aus gutem Grund doppelte Versionen von Dateien. Die gleiche Datei muss jedoch nicht für immer kopiert werden. Stattdessen stellt die Datendeduplizierung sicher, dass eine saubere Backupdatei vorhanden ist, wobei andere Instanzen in neueren Backupversionen einfach auf die primäre Datei verweisen. Dies ermöglicht Redundanz und optimiert gleichzeitig Ressourcen und Speicherplatz.
Deduplizierungstools sorgen für einen effizienteren Datenübertragungsprozess. Anstatt eine Anfang-zu-Ende-Überschreibung durchzuführen, identifizieren Datendeduplizierungstools Dateien in Segmenten. Für den Dateiübertragungsprozess suchen die Tools nach aktualisierten Segmenten und verschieben Segmente nur nach Bedarf. Beispiel: Wenn jemand eine neue Version einer sehr großen Datei erhält und die neue Version nur ein paar Segmente aktualisierten Codes enthält, kann der Übertragungs-/Überschreibprozess schnell abgeschlossen werden, indem nur diese Segmente geschrieben werden.
Archivierungssysteme werden oft mit Backups verwechselt, da sie beide für die langfristige Datenspeicherung verwendet werden. Während Systeme jedoch Backups zum Zwecke der Disaster Recovery und Vorbereitung erstellen, verwenden Unternehmen Archivierungssysteme, um Daten zu erhalten, die nicht mehr aktiv verwendet werden. Duplikate können generiert werden, wenn Speicher-Volumes kombiniert oder neue Segmente zu einem Archivierungssystem hinzugefügt werden. Der Deduplizierungsprozess maximiert die Effizienz von Archiven.
Daten-Deduplizierungstools vergleichen Dateien oder Dateiblöcke für doppelte Identifizierungsfingerprints, die auch als Hashes bezeichnet werden. Wenn Duplikate bestätigt werden, werden sie protokolliert und eliminiert. Hier ist ein genauerer Blick auf die spezifischen Schritte im Prozess.
Chunking bezieht sich auf einen Deduplizierungsprozess, der Dateien in Segmente aufteilt, auch Chunks genannt. Die Größe dieser Segmente kann entweder algorithmisch berechnet oder anhand festgelegter Richtlinien festgelegt werden. Der Vorteil von Chunking besteht darin, dass es eine präzisere Deduplizierung ermöglicht, obwohl mehr Compute-Ressourcen erforderlich sind.
Wenn Daten von einem Deduplizierungstool verarbeitet werden, weist ein Hash-Algorithmus ihm einen Hash zu. Der Hash wird daraufhin geprüft, ob er bereits im Log der verarbeiteten Daten vorhanden ist. Wenn sie bereits vorhanden ist, werden die Daten als Duplikat kategorisiert und gelöscht, um Speicherplatz freizugeben.
Die Ergebnisse des Deduplizierungsprozesses werden in einer Referenztabelle gespeichert, die verfolgt, welche Segmente oder Dateien entfernt und welche dupliziert werden. Die Referenztabelle ermöglicht Transparenz und Rückverfolgbarkeit und bietet gleichzeitig ein umfassendes Archiv, aus welchen Quellen eine Datei auf einem Speicher-Volume referenziert wird.
Unternehmen können aus mehreren Ansätzen zur Datendeduplizierung wählen, je nachdem, was ihren Budget-, Bandbreiten- und Redundanzanforderungen am besten entspricht. Wo verarbeitet wird, wann verarbeitet wird und wie fein verarbeitet wird – all diese Faktoren sind flexibel kombinierbar und ermöglichen eine maßgeschneiderte Lösung für ein Unternehmen.
Diagramm zum Vergleich von Inline- zur Post-Processing-Deduplizierung:
Inline-Deduplizierung:
Deduplizierung nach der Verarbeitung
So wie beim Bearbeiten eines Dokuments sich wiederholende Wörter oder Ausdrücke entfernt werden, um den Inhalt prägnanter zu gestalten, optimiert die Deduplizierung die Daten eines Unternehmens und bietet potenzielle Auszahlungen wie niedrigere Speicherkosten, weniger Bandbreitenverbrauch und höhere Backup-Effizienz.
Wenn weniger Dateien vorhanden sind, verwenden Unternehmen weniger Speicher. Das ist einer der klarsten Vorteile der Datendeduplizierung, und es erstreckt sich auf andere Systeme. Unternehmen benötigen weniger Speicherplatz für Backups und verbrauchen weniger Rechen-/Bandbreitenressourcen für das Scannen und Sichern von Daten.
Da die Datendeduplizierung den Aufwand für die Ausführung von Backups reduziert, ist ein wichtiges Nebenprodukt eine schnellere und einfachere Disaster Recovery. Kleinere Backups werden effizienter erstellt, was bedeutet, dass weniger Ressourcen benötigt werden, um sie zu Recovery-Zwecken abzurufen.
Bei der Datendeduplizierung verringert sich der Footprint von Backupdateien, was zu einer geringeren Ressourcennutzung während Backupprozessen über Speicherplatz, Rechenleistung und Prozesszeit hinweg führt. All dies bietet Unternehmen mehr Flexibilität bei der Planung ihrer Backups.
Je weniger Dateien übertragen werden müssen, desto weniger Bandbreite ist erforderlich, was bedeutet, dass die Übertragung weniger Netzwerkressourcen benötigt. So kann die Datendeduplizierung die Netzwerkeffizienz verbessern, indem die Nachfrage in jedem Übertragungsprozess verringert wird, einschließlich des Transports von Backups zur Archivierung und Rückruf von Backups für die Disaster Recovery.
Die Explosion der Datenmengen hat zu einem schnellen Anstieg der Speicherausgaben in Unternehmen jeder Größe geführt. Die Deduplizierung kann dazu beitragen, Kosteneinsparungen zu erzielen, indem die Menge an Speicher reduziert wird, die sowohl für tägliche Aktivitäten als auch für Backups oder Archive erforderlich ist. Sekundäre Kosteneinsparungen resultieren aus einem geringeren Energie-, Rechen- und Bandbreitenbedarf und weniger Personalressourcen, die für die Verwaltung und Fehlerbehebung doppelter Dateien erforderlich sind.
Die Datendeduplizierung ist ein effektives Tool, um die Ressourcennutzung zu maximieren und Kosten zu senken. Diese Vorteile sind jedoch mit einigen Herausforderungen verbunden, von denen viele mit der Rechenleistung zusammenhängen, die für eine granulare Deduplizierung erforderlich ist. Die häufigsten Nachteile und Bedenken im Zusammenhang mit der Datendeduplizierung sind:
Die Datendeduplizierung ist ressourcenintensiv, insbesondere wenn sie auf Blockebene ausgeführt wird. IT-Teams müssen bei der Planung und Ausführung von Deduplizierungsprozessen nachdenklich sein, wobei die verfügbare Bandbreite, die organisatorischen Aktivitäten und Anforderungen, der Backup-Standort, die Fristen und andere Faktoren berücksichtigt werden müssen, die auf ihren einzigartigen Umgebungen basieren.
Hash-Kollisionen beziehen sich auf Instanzen, wenn sich zufällig generierte Hash-Werte überschneiden. Wenn der Deduplizierungsprozess einen Block-Level-Ansatz verwendet, werden Data Chunks Hashes zugewiesen, wodurch die Möglichkeit von Hash-Kollisionen besteht, die Daten beschädigen können. Bei der Verhinderung von Hash-Kollisionen wird entweder die Größe der Hash-Tabelle erhöht oder Kollisionsauflösungsmethoden wie Verkettung oder offene Adressierung implementiert. Bei der Verkettung werden mehrere Elemente mit demselben Hash-Schlüssel in einer verknüpften Liste oder einer anderen Datenstruktur gespeichert, während bei der offenen Adressierung eine alternative Position in der Hash-Tabelle zum Speichern des doppelten Elements gesucht wird. Jede Methode hat Vor- und Nachteile, sodass IT-Teams die Länge und Komplexität des Hashing-Algorithmus im Vergleich zur Verwendung von Workarounds berücksichtigen müssen.
Kein Verfahren ist absolut narrensicher – während der Deduplizierung besteht stets die Gefahr, dass versehentlich Daten gelöscht oder verändert werden, die in Wirklichkeit einzigartig und wichtig sind. Ursachen von Integritätsproblemen sind Hash-Kollisionen, beschädigte Quellblöcke, unterbrochene Prozesse von unerwarteten Ereignissen wie Datenträgerausfällen, manuellem Fehler oder Stromausfällen, ein erfolgreicher Cyberangriff oder ein einfacher Operatorfehler. Während Integritätsprobleme angesichts der Qualität der heutigen Tools und Protokolle zur Datendeduplizierung selten sind, bleiben sie eine Möglichkeit und können ernsthafte Kopfschmerzen verursachen.
Der Deduplizierungsprozess erstellt eine neue Metadatenebene für Änderungslogs und die digitalen Signaturen, die an jeden verarbeiteten Block angehängt sind. Dies wird als "Fingerprint-Datei" bezeichnet. Diese Metadaten erfordern nicht nur Speicherplatz, sondern können auch eigene Datenintegritätsprobleme verursachen. Wenn es beispielsweise beschädigt wird, wird der Wiederherstellungsprozess erheblich schwieriger.
Während die Datendeduplizierung auf lange Sicht durch geringeren Platzbedarf Geld spart, ist eine Vorabinvestition erforderlich. Diese Kosten umfassen das Deduplizierungstool selbst, das normalerweise auf der Grundlage der Anzahl der Datensätze berechnet wird, sowie die Zeit, die das IT-Personal benötigt, um den Deduplizierungsprozess zu entwerfen, auszuführen und zu verwalten.
Wie funktioniert die Datendeduplizierung in der realen Welt? Theoretisch ist es ein einfaches Data-Science-Konzept: Doppelte Daten eliminieren, um den Ressourcenverbrauch zu senken und Fehler zu minimieren, die entstehen, wenn mehrere Versionen einer Datei im Umlauf sind. Aber verschiedene Sektoren, Branchen und sogar Abteilungen haben einzigartige Ziele und Bedürfnisse. Hier sind einige gängige Anwendungsfälle.
Kundenbeziehungsmanagement: Innerhalb eines CRM-Systems können Kundendatensätze, Kontaktinformationen und Geschäfte anhand mehrerer Quellen, Detailebenen und Formate erfasst werden. Dies führt zu inkonsistenten Daten, bei denen ein Manager möglicherweise einen etwas anderen Datensatz als ein anderer hat. Beispiel: Wenn der Datensatz für eine Kontaktstelle in mehreren Daten-Repositorys gespeichert ist und nur ein Datensatz aktualisiert wird, nachdem er das Unternehmen verlassen hat, werden einige Mitarbeiter die veralteten Informationen wahrscheinlich weiterhin verwenden. Die Datendeduplizierung kann dazu beitragen, eine einzige Quelle genauer Kundeninformationen sicherzustellen, sodass jeder Einzelne und jede Gruppe die neuesten Daten verwenden kann, um Visualisierungen zu generieren oder Analysen auszuführen.
Datenintegration: Wenn zwei Organisationen zusammengeführt werden, können Daten, die in verschiedenen Instanzen derselben Anwendung enthalten sind, doppelte Datensätze erstellen, unabhängig davon, ob es sich um eine Erfassung oder ein internes Reshuffling handelt. Angenommen, ein größeres Unternehmen kauft einen kleineren Mitbewerber mit einer 40-prozentigen Überschneidung bei den Kunden, was sich in seinen ERP-Systemen widerspiegelt. Durch die Deduplizierung kann diese Redundanz eliminiert werden, wodurch Speicherplatz frei wird und gleichzeitig sichergestellt wird, dass jeder in der neu gebildeten Organisation nur die neueste Version jedes Datensatzes verwendet.
Virtual Computing: Wenn Sie virtuelle Desktops verwenden, z. B. zum Testen von Umgebungen oder zum virtuellen Zugriff auf spezialisierte Anwendungen oder interne Systeme, kann die Datendeduplizierung die Effizienz steigern – insbesondere bei starkem Benutzervolumen. Virtuelle Maschinen enthalten oft sehr ähnliche Daten, was viele doppelte Versionen von Dateien ausmacht. Die Datendeduplizierung löscht diese Duplikate, um sicherzustellen, dass der Speicher nicht mit Daten überlaufen wird, die von virtuellen Maschinen generiert werden.
Banking: Innerhalb eines Finanzinstituts können unterschiedliche Abteilungen oder Filialen doppelte Datensätze von Kundendaten speichern. Jeder doppelte Datensatz ist ein potenzieller Einstiegspunkt für Kriminelle, um Identitäten zu stehlen, betrügerische Transaktionen durchzuführen und andere rechtswidrige Aktivitäten durchzuführen. Und die Prüfung und Verarbeitung doppelter Daten zur Prüfung auf Betrug erfordert mehr Ressourcen. Die Datendeduplizierung kann dazu beitragen, die Effizienz und Sicherheit von Banken und Kreditgenossenschaften zu verbessern.
Dies ist nur eine Stichprobe von Anwendungsfällen. Jede Organisation, die viele Daten erstellt, kann von der Deduplizierung profitieren.
Zahlreiche Anbieter bieten Datendeduplizierungstools an, aber welches ist das Richtige für Ihr Unternehmen? Hier sind die wichtigsten Faktoren für Teams, die bei der Erstellung einer Shortlist berücksichtigt werden müssen.
Der beste Weg, um Probleme bei der Datendeduplizierung zu lösen, besteht darin, sie überhaupt zu minimieren. Oracle HeatWave hilft dabei, indem Transaktionen, Echtzeitanalysen über Data Warehouses und Data Lakes hinweg, maschinelles Lernen und generative KI in einem Cloud-Service kombiniert werden. HeatWave-Kunden müssen Daten aus einer Transaktionsdatenbank nicht zur Analyse in eine separate Analysedatenbank duplizieren, was mehrere Vorteile bietet.
Mit der integrierten HeatWave AutoML können Kunden Modelle für maschinelles Lernen in HeatWave erstellen, trainieren und erklären, ohne dass Daten in einen separaten ML-Service dupliziert werden müssen.
HeatWave GenAI bietet integrierte, automatisierte und sichere GenAI mit datenbankinternen großen Sprachmodellen (LLMs), einem automatisierten, datenbankinternen Vektorspeicher, Scale-out-Vektorverarbeitung und der Möglichkeit, kontextbezogene Konversationen in natürlicher Sprache durchzuführen. So können Kunden GenAI ohne KI-Kenntnisse nutzen und Daten nicht in eine separate Vektordatenbank verschieben.
Durch die Eliminierung von Datenduplizierung über mehrere Cloud-Services hinweg für Transaktionen, Analysen, maschinelles Lernen und GenAI ermöglicht HeatWave Kunden, ihre Dateninfrastrukturen zu vereinfachen, schnellere Entscheidungen zu treffen, die fundierter sind, die Produktivität zu steigern, die Sicherheit zu verbessern und Kosten zu senken. Darüber hinaus erhalten Kunden das beste Performance- und Preis-Leistungs-Verhältnis für Analyse-Workloads, wie öffentlich verfügbare Benchmarks zeigen.
KI kann CIOs dabei helfen, Daten zu analysieren, um die Cloud-Ausgaben zu optimieren und dem Architekten Code-Optimierungen vorzuschlagen, um den Datenverkehr zu minimieren. Erfahren Sie, wie Sie das Potenzial der künstlichen Intelligenz jetzt nutzen können, um Talente, Sicherheit und andere Herausforderungen anzugehen.
Ein Beispiel für die Deduplizierung kann die Ausführung von versionsbasierten Backups und Archiven der Daten einer Organisation sein. Jedes dieser Archive enthält viele Instanzen derselben unberührten Dateien. Durch die Deduplizierung wird der Backup-Prozess optimiert, indem eine neue Version eines Archivs ohne diese duplizierten Dateien erstellt wird. Stattdessen enthält die neue Version Zeiger auf die einzelne Quelle, so dass sie im Archiv vorhanden ist, ohne zusätzlichen Speicherplatz zu belegen.
Doppelte Datensätze belegen unnötig Speicherplatz. Dieser zusätzliche Speicherplatz benötigt während Prozessen wie Malware-Scans am Ende mehr Ressourcen, einschließlich Speichervolumen, Übertragungsbandbreite und Compute-Ressourcen. Die Deduplizierung reduziert das Volumen des belegten Speicherplatzes und verringert die gesamte Ressourcennutzung, sei es Bandbreite oder Speicherkapazität.
Duplikate können sowohl durch Datenduplizierung als auch durch Datenredundanz entstehen. Die Datenduplizierung bezieht sich auf Situationen, in denen ein Benutzer eine doppelte Datei zum System selbst hinzufügt. Datenredundanz bezieht sich auf Situationen, in denen Datenbanken mit einigen sich überschneidenden Dateien oder Datensätzen zusammengeführt werden, um Duplikate zu erstellen.
Die Deduplizierung kann Speicherplatz freigeben, um die Effizienz und Kosteneinsparungen langfristig zu steigern. Der tatsächliche Deduplizierungsprozess ist jedoch ressourcenintensiv und kann verschiedene Teile des Netzwerks verlangsamen, einschließlich der Rechenleistung und der Übertragungsbandbreite. Dies bedeutet, dass IT-Abteilungen strategisch über die Planung der Deduplizierung nachdenken müssen.