Was ist Datendeduplizierung? Methoden und Vorteile

Michael Chen | Content Strategist | 14. Februar 2024

Der Prozess der Datendeduplizierung eliminiert systematisch redundante Kopien von Daten und Dateien, was dazu beitragen kann, die Speicherkosten zu senken und die Versionskontrolle zu verbessern. In einer Zeit, in der jedes Gerät Daten generiert und ganze Organisationen Dateien teilen, ist die Datendeduplizierung ein wesentlicher Bestandteil des IT-Betriebs. Es ist auch ein wesentlicher Bestandteil des Datenschutz- und Kontinuitätsprozesses. Wenn die Datendeduplizierung auf Backups angewendet wird, identifiziert und eliminiert sie doppelte Dateien und Blöcke, wobei nur eine Instanz jeder eindeutigen Information gespeichert wird. Dies kann nicht nur helfen, Geld zu sparen, sondern auch dazu beitragen, die Backup- und Wiederherstellungszeiten zu verbessern, da weniger Daten über das Netzwerk gesendet werden müssen.

Was ist Datendeduplizierung?

Bei der Datendeduplizierung werden identische Dateien oder Blöcke aus Datenbanken und Datenspeicher entfernt. Dies kann auf einer Datei-für-Datei-, Block-für-Block- oder einzelnen Byte-Ebene oder irgendwo dazwischen geschehen, wie von einem Algorithmus vorgegeben. Die Ergebnisse werden oft anhand des sogenannten "Daten-Deduplizierungsverhältnisses" gemessen. Nach der Deduplizierung sollten Organisationen mehr freien Speicherplatz haben, obwohl sich nur die Menge unterscheidet, da einige Aktivitäten und Dateitypen anfälliger für Duplizierung sind als andere. Während IT-Abteilungen regelmäßig auf Duplikate prüfen sollten, variieren die Vorteile der häufigen Deduplizierung ebenfalls stark und hängen von mehreren Variablen ab.

Wichtige Erkenntnisse

  • Bei der Datendeduplizierung werden doppelte Daten gesucht und eliminiert.
  • Deduplizierungstools bieten eine Reihe von Genauigkeitsstufen, von Datei zu Datei Segment oder Block Deduplizierung.
  • Je genauer ein Deduplizierungsprozess ist, desto mehr Rechenleistung benötigt er.
  • Für Backups und Archivierung kann die Deduplizierung vor oder nach der Datenübertragung erfolgen. Ersteres verbraucht weniger Bandbreite, letzteres verbraucht mehr Bandbreite, aber weniger lokale Ressourcen.

Datendeduplizierung erklärt

Beim Datendeduplizierungsprozess scannt ein Tool Speicher-Volumes auf doppelte Daten und entfernt markierte Instanzen. Um Duplikate zu finden, vergleicht das System eindeutige Kennungen oder Hashes, die an jedes Datenelement angehängt sind. Wenn eine Übereinstimmung gefunden wird, wird nur eine Kopie der Daten gespeichert, und Duplikate werden durch Verweise auf die ursprüngliche Kopie ersetzt.

Das Deduplizierungssystem sucht im lokalen Speicher, in Managementtools wie Datenkatalogen sowie in Datenspeichern und scannt sowohl strukturierte als auch unstrukturierte Daten. Um vollständig zu verstehen, worum es geht, sind die folgenden Begriffe und Definitionen von entscheidender Bedeutung:

  • Verhältnis der Datendeduplizierung: Eine Metrik, mit der der Erfolg des Deduplizierungsprozesses gemessen wird. Dieses Verhältnis vergleicht die Größe des ursprünglichen Datenspeichers mit der Größe nach der Deduplizierung. Während ein hohes Verhältnis einen effektiven Prozess anzeigt, können Variablen wie die Häufigkeit der Deduplizierung, die Art der Daten und andere Faktoren das endgültige Verhältnis verzerren. Die Virtualisierungstechnologie erstellt beispielsweise virtuelle Maschinen, die einfach gesichert und repliziert werden können, wodurch mehrere Kopien von Daten bereitgestellt werden. Das Speichern einiger Kopien ist für Redundanz und Wiederherstellung nach Datenverlust wichtig.
  • Datenaufbewahrung: Die Dauer der Speicherung von Daten, die in der Regel durch die Policy definiert ist. Finanzberichte müssen länger aufbewahrt werden als beispielsweise E-Mails. In der Regel gilt: Je länger der Aufbewahrungszeitraum ist, desto größer ist die Wahrscheinlichkeit, dass Daten bei Backups, Übertragungen oder durch die Verwendung virtueller Maschinen dupliziert werden.
  • Datentyp: Das Format der im Speicher gespeicherten Daten. Typische Datentypen sind ausführbare Dateien, Dokumente und Mediendateien. Zweck, Kritikalität, Zugriffshäufigkeit und andere Faktoren definieren, ob die Datei dupliziert wird und wie lange sie aufbewahrt wird.
  • Änderungsrate: Eine Metrik, mit der die Häufigkeit gemessen wird, mit der eine Datei aktualisiert oder geändert wird. Dateien mit höheren Änderungsraten werden oft seltener dupliziert.
  • Speicherort: Die Ortungsdaten werden gespeichert. Doppelte Dateien stammen oft aus denselben exakten Dateien, die an mehreren Orten vorhanden sind, entweder absichtlich, wie bei einem Backup oder unbeabsichtigt über einen Cut-and-Paste-Prozess, der versehentlich einen Copy-and-Paste-Vorgang verwendet hat. In einigen Fällen enthalten virtuelle Maschinen, die an mehreren Speicherorten gespeichert sind, doppelte Dateien.

Warum ist die Datendeduplizierung nützlich?

Die Datendeduplizierung kann dazu beitragen, Ressourcen zu sparen – Speicherplatz, Rechenleistung und Geld. Bei der Deduplizierung geht es im Grunde darum, Speicher-Volumes zu verkleinern. Wenn jedoch jedes Gerät massive Datenmengen erzeugt und Dateien ständig zwischen Abteilungen geteilt werden, hat die Auswirkung doppelter Daten weitreichende Konsequenzen. Beispielsweise kann es Prozesse verlangsamen, Hardwareressourcen verbrauchen, Redundanzen schaffen und Verwirrung stiften, wenn verschiedene Teams verschiedene redundante Dateien verwenden. Die Deduplizierung kann dazu beitragen, sich um all dies zu kümmern, weshalb viele Unternehmen es im Rahmen ihrer IT-Wartungsstrategien auf einem regelmäßig geplanten Intervall halten.

Wann wird die Datendeduplizierung verwendet?

Da die Datendeduplizierung ein ressourcenintensiver Datenmanagementprozess ist, sollte das Timing von einer Reihe von Variablen abhängen, einschließlich des Designs des Netzwerks und des Zugriffs auf Dateien durch Mitarbeiter. Die folgenden Situationen sind am häufigsten, wenn die Datendeduplizierung verwendet wird:

Allgemeine Dateiserver

General-Purpose-Dateiserver bieten Speicher und Dienste für eine Vielzahl von Daten, einschließlich der Caches von Dateien einzelner Mitarbeiter und freigegebener Abteilungsordner. Da diese Servertypen oft sowohl ein hohes Benutzeraufkommen als auch eine Vielzahl von Benutzerrollen aufweisen, gibt es in der Regel viele doppelte Dateien. Ursachen sind Backups von lokalen Festplatten, App-Installationen, Dateifreigabe und mehr.

Virtual Desktop Infrastructure-(VDI-)Deployments

Virtuelle Desktop-Infrastrukturtechnologie bietet zentralisiertes Hosting und Management virtualisierter Desktops für Remote-Zugriff. Das Problem ist, dass virtuelle Festplatten oft identisch sind und doppelte Dateien enthalten, die Speicher belegen. Darüber hinaus kann der anschließende "VDI-Bootsturm", wenn eine große Anzahl von Benutzern ihre virtuellen Maschinen gleichzeitig hochfährt, wie zum Beispiel zu Beginn des Arbeitstages, die Leistung zu einem Crawl schleifen, wenn nicht zu einem Stillstand. Die Deduplizierung kann dies erleichtern, indem sie einen In-Memory-Cache für einzelne Anwendungsressourcen verwendet, wie sie bei Bedarf aufgerufen werden.

Speichersysteme und Backups

Backups erstellen aus gutem Grund doppelte Versionen von Dateien. Die gleiche Datei muss jedoch nicht für immer kopiert werden. Stattdessen stellt die Datendeduplizierung sicher, dass eine saubere Backupdatei vorhanden ist, wobei andere Instanzen in neueren Backupversionen einfach auf die primäre Datei verweisen. Dies ermöglicht Redundanz und optimiert gleichzeitig Ressourcen und Speicherplatz.

Datenübertragungen

Deduplizierungstools sorgen für einen effizienteren Datenübertragungsprozess. Anstatt eine Anfang-zu-Ende-Überschreibung durchzuführen, identifizieren Datendeduplizierungstools Dateien in Segmenten. Für den Dateiübertragungsprozess suchen die Tools nach aktualisierten Segmenten und verschieben Segmente nur nach Bedarf. Beispiel: Wenn jemand eine neue Version einer sehr großen Datei erhält und die neue Version nur ein paar Segmente aktualisierten Codes enthält, kann der Übertragungs-/Überschreibprozess schnell abgeschlossen werden, indem nur diese Segmente geschrieben werden.

Archivierungssysteme

Archivierungssysteme werden oft mit Backups verwechselt, da sie beide für die langfristige Datenspeicherung verwendet werden. Während Systeme jedoch Backups zum Zwecke der Disaster Recovery und Vorbereitung erstellen, verwenden Unternehmen Archivierungssysteme, um Daten zu erhalten, die nicht mehr aktiv verwendet werden. Duplikate können generiert werden, wenn Speicher-Volumes kombiniert oder neue Segmente zu einem Archivierungssystem hinzugefügt werden. Der Deduplizierungsprozess maximiert die Effizienz von Archiven.

Funktionsweise der Datendeduplizierung

Daten-Deduplizierungstools vergleichen Dateien oder Dateiblöcke für doppelte Identifizierungsfingerprints, die auch als Hashes bezeichnet werden. Wenn Duplikate bestätigt werden, werden sie protokolliert und eliminiert. Hier ist ein genauerer Blick auf die spezifischen Schritte im Prozess.

Blockerstellung

Chunking bezieht sich auf einen Deduplizierungsprozess, der Dateien in Segmente aufteilt, auch Chunks genannt. Die Größe dieser Segmente kann entweder algorithmisch berechnet oder anhand festgelegter Richtlinien festgelegt werden. Der Vorteil von Chunking besteht darin, dass es eine präzisere Deduplizierung ermöglicht, obwohl mehr Compute-Ressourcen erforderlich sind.

Hashing

Wenn Daten von einem Deduplizierungstool verarbeitet werden, weist ein Hash-Algorithmus ihm einen Hash zu. Der Hash wird daraufhin geprüft, ob er bereits im Log der verarbeiteten Daten vorhanden ist. Wenn sie bereits vorhanden ist, werden die Daten als Duplikat kategorisiert und gelöscht, um Speicherplatz freizugeben.

Referenztabellen

Die Ergebnisse des Deduplizierungsprozesses werden in einer Referenztabelle gespeichert, die verfolgt, welche Segmente oder Dateien entfernt und welche dupliziert werden. Die Referenztabelle ermöglicht Transparenz und Rückverfolgbarkeit und bietet gleichzeitig ein umfassendes Archiv, aus welchen Quellen eine Datei auf einem Speicher-Volume referenziert wird.

Ansätze zur Datendeduplizierung

Unternehmen können aus mehreren Ansätzen zur Datendeduplizierung wählen, je nachdem, was ihren Budget-, Bandbreiten- und Redundanzanforderungen am besten entspricht. Wo verarbeitet wird, wann verarbeitet wird und wie fein verarbeitet wird – all diese Faktoren sind flexibel kombinierbar und ermöglichen eine maßgeschneiderte Lösung für ein Unternehmen.

Eignet sich Inline- oder Post-Processing-Deduplizierung besser für Ihre Anforderungen? Hier sind die jeweiligen Vor- und Nachteile.

Diagramm zum Vergleich von Inline- zur Post-Processing-Deduplizierung:

Inline-Deduplizierung:

  • Eliminiert doppelte Daten, bevor sie in den Speicher geschrieben werden.
  • Die Optimierung der Datenkapazität wird reduziert, bevor Daten auf die Festplatte geschrieben werden.
  • Vorteile:
    • Reduziert den Speicherplatzbedarf, was die Kosten senkt.
    • Reduziert die Größe der Datenübertragung, was die Leistung verbessert.
  • Nachteile:
    • Mehr Rechenleistung wird benötigt, um doppelte Daten in Echtzeit zu eliminieren.
    • Bei ineffizienter Ausführung können die Vorgänge verlangsamt werden.

Deduplizierung nach der Verarbeitung

  • Tritt auf, nachdem Daten in den Speicher geschrieben wurden.
  • Rohdaten werden zunächst unverändert auf den Datenträger geschrieben.
  • Die Optimierung der Datenkapazität wird reduziert, nachdem Daten auf die Festplatte geschrieben wurden.
  • Vorteile:
    • Erfordert weniger Ressourcen.
    • Hat keine Auswirkung auf die Leistung, da die Deduplizierung ein separater Batchprozess ist.
  • Nachteile:
    • Doppelte Daten werden nicht in Echtzeit eliminiert, was zu weiteren Inkonsistenzen führen kann.
    • Die Batchverarbeitung kann die Identifizierung und Entfernung doppelter Daten verzögern.

Deduplizierungsmethoden

  • Deduplizierung auf Blockebene: Deduplizierungstools arbeiten auf Blockebene, indem sie diese Segmente auf Unterschiede in Blockfingerprints vergleichen und Duplikate entfernen. Dies ermöglicht eine genauere Deduplizierung, obwohl der Prozess ziemlich ressourcenintensiv ist und bei großen Volumes von physischem Speicher schwierig anzuwenden sein kann.
  • Deduplizierung mit variabler Länge: Die Deduplizierung mit variabler Länge verwendet einen Algorithmus, um die Größe von Datensegmenten in einer Datei zu bestimmen und anschließend auf Duplikate zu prüfen. Dieser Prozess ähnelt der Deduplizierung auf Blockebene, da er eine gute Präzision bietet, jedoch ohne die feste Größe einzelner Blöcke.
  • Deduplizierung auf Dateiebene: Anstatt eine Deduplizierung auf Blockebene durchzuführen, suchen Tools nach Duplikaten auf Dateibasis. Diese Methode funktioniert nicht mit der gleichen Granularität wie die Deduplizierung auf Blockebene, obwohl der Kompromiss ein schnellerer, weniger ressourcenintensiver Prozess ist, der auf Speicher jeder Größe angewendet werden kann.

Deduplizierungspunkte

  • Quelldeduplizierung: Bei dieser Methode wird der lokale Client als Speicherort für die Deduplizierung verwendet. Durch die Deduplizierung auf dem Client vor dem Backup werden Bandbreiten- und Übertragungskosten eingespart, obwohl die Ressourcen des Clients verbraucht werden.
  • Zieldeduplizierung: Diese Methode wartet, bis ein Backup zur Deduplizierung übertragen wurde. In diesem Fall ist der Kompromiss bei der Ressourcennutzung das Gegenteil des Kompromisses bei der Quellendeduplizierung: Es übt weniger Druck auf Clients aus, stellt jedoch eine größere Nachfrage nach Netzwerkbandbreite und Zielressourcen dar.

Deduplizierungszeitpunkt

  • Inline-Deduplizierung: Wenn die Deduplizierung inline ausgeführt wird, werden die Daten während der Ausführung des Prozesses in Echtzeit auf Duplikate gescannt. Bei dieser Methode werden mehr lokale Compute-Ressourcen verwendet, wodurch jedoch erheblicher Speicherplatz freigesetzt wird.
  • Deduplizierung nach der Verarbeitung: Die Deduplizierung nach der Verarbeitung führt Vergleichsprozesse aus und eliminiert sie, nachdem Daten an das Ziel gesendet wurden. Diese Methode erfordert mehr Speicherplatz im Zielspeicherort, verwendet jedoch weniger lokale Ressourcen vor der Übertragung.

Vorteile der Datendeduplizierung

So wie beim Bearbeiten eines Dokuments sich wiederholende Wörter oder Ausdrücke entfernt werden, um den Inhalt prägnanter zu gestalten, optimiert die Deduplizierung die Daten eines Unternehmens und bietet potenzielle Auszahlungen wie niedrigere Speicherkosten, weniger Bandbreitenverbrauch und höhere Backup-Effizienz.

Speichereinsparungen

Wenn weniger Dateien vorhanden sind, verwenden Unternehmen weniger Speicher. Das ist einer der klarsten Vorteile der Datendeduplizierung, und es erstreckt sich auf andere Systeme. Unternehmen benötigen weniger Speicherplatz für Backups und verbrauchen weniger Rechen-/Bandbreitenressourcen für das Scannen und Sichern von Daten.

Disaster Recovery

Da die Datendeduplizierung den Aufwand für die Ausführung von Backups reduziert, ist ein wichtiges Nebenprodukt eine schnellere und einfachere Disaster Recovery. Kleinere Backups werden effizienter erstellt, was bedeutet, dass weniger Ressourcen benötigt werden, um sie zu Recovery-Zwecken abzurufen.

Kleinere Backup-Fenster

Bei der Datendeduplizierung verringert sich der Footprint von Backupdateien, was zu einer geringeren Ressourcennutzung während Backupprozessen über Speicherplatz, Rechenleistung und Prozesszeit hinweg führt. All dies bietet Unternehmen mehr Flexibilität bei der Planung ihrer Backups.

Netzwerkeffizienz

Je weniger Dateien übertragen werden müssen, desto weniger Bandbreite ist erforderlich, was bedeutet, dass die Übertragung weniger Netzwerkressourcen benötigt. So kann die Datendeduplizierung die Netzwerkeffizienz verbessern, indem die Nachfrage in jedem Übertragungsprozess verringert wird, einschließlich des Transports von Backups zur Archivierung und Rückruf von Backups für die Disaster Recovery.

Wirtschaftliche Vorteile

Die Explosion der Datenmengen hat zu einem schnellen Anstieg der Speicherausgaben in Unternehmen jeder Größe geführt. Die Deduplizierung kann dazu beitragen, Kosteneinsparungen zu erzielen, indem die Menge an Speicher reduziert wird, die sowohl für tägliche Aktivitäten als auch für Backups oder Archive erforderlich ist. Sekundäre Kosteneinsparungen resultieren aus einem geringeren Energie-, Rechen- und Bandbreitenbedarf und weniger Personalressourcen, die für die Verwaltung und Fehlerbehebung doppelter Dateien erforderlich sind.

Nachteile und Bedenken bei der Datendeduplizierung

Die Datendeduplizierung ist ein effektives Tool, um die Ressourcennutzung zu maximieren und Kosten zu senken. Diese Vorteile sind jedoch mit einigen Herausforderungen verbunden, von denen viele mit der Rechenleistung zusammenhängen, die für eine granulare Deduplizierung erforderlich ist. Die häufigsten Nachteile und Bedenken im Zusammenhang mit der Datendeduplizierung sind:

Performance-Overhead

Die Datendeduplizierung ist ressourcenintensiv, insbesondere wenn sie auf Blockebene ausgeführt wird. IT-Teams müssen bei der Planung und Ausführung von Deduplizierungsprozessen nachdenklich sein, wobei die verfügbare Bandbreite, die organisatorischen Aktivitäten und Anforderungen, der Backup-Standort, die Fristen und andere Faktoren berücksichtigt werden müssen, die auf ihren einzigartigen Umgebungen basieren.

Haschenkollision

Hash-Kollisionen beziehen sich auf Instanzen, wenn sich zufällig generierte Hash-Werte überschneiden. Wenn der Deduplizierungsprozess einen Block-Level-Ansatz verwendet, werden Data Chunks Hashes zugewiesen, wodurch die Möglichkeit von Hash-Kollisionen besteht, die Daten beschädigen können. Bei der Verhinderung von Hash-Kollisionen wird entweder die Größe der Hash-Tabelle erhöht oder Kollisionsauflösungsmethoden wie Verkettung oder offene Adressierung implementiert. Bei der Verkettung werden mehrere Elemente mit demselben Hash-Schlüssel in einer verknüpften Liste oder einer anderen Datenstruktur gespeichert, während bei der offenen Adressierung eine alternative Position in der Hash-Tabelle zum Speichern des doppelten Elements gesucht wird. Jede Methode hat Vor- und Nachteile, sodass IT-Teams die Länge und Komplexität des Hashing-Algorithmus im Vergleich zur Verwendung von Workarounds berücksichtigen müssen.

Datenintegrität

Kein Verfahren ist absolut narrensicher – während der Deduplizierung besteht stets die Gefahr, dass versehentlich Daten gelöscht oder verändert werden, die in Wirklichkeit einzigartig und wichtig sind. Ursachen von Integritätsproblemen sind Hash-Kollisionen, beschädigte Quellblöcke, unterbrochene Prozesse von unerwarteten Ereignissen wie Datenträgerausfällen, manuellem Fehler oder Stromausfällen, ein erfolgreicher Cyberangriff oder ein einfacher Operatorfehler. Während Integritätsprobleme angesichts der Qualität der heutigen Tools und Protokolle zur Datendeduplizierung selten sind, bleiben sie eine Möglichkeit und können ernsthafte Kopfschmerzen verursachen.

Hinzugefügte Metadaten

Der Deduplizierungsprozess erstellt eine neue Metadatenebene für Änderungslogs und die digitalen Signaturen, die an jeden verarbeiteten Block angehängt sind. Dies wird als "Fingerprint-Datei" bezeichnet. Diese Metadaten erfordern nicht nur Speicherplatz, sondern können auch eigene Datenintegritätsprobleme verursachen. Wenn es beispielsweise beschädigt wird, wird der Wiederherstellungsprozess erheblich schwieriger.

Kosten der Umsetzung

Während die Datendeduplizierung auf lange Sicht durch geringeren Platzbedarf Geld spart, ist eine Vorabinvestition erforderlich. Diese Kosten umfassen das Deduplizierungstool selbst, das normalerweise auf der Grundlage der Anzahl der Datensätze berechnet wird, sowie die Zeit, die das IT-Personal benötigt, um den Deduplizierungsprozess zu entwerfen, auszuführen und zu verwalten.

Anwendungsfälle der Datendeduplizierung

Wie funktioniert die Datendeduplizierung in der realen Welt? Theoretisch ist es ein einfaches Data-Science-Konzept: Doppelte Daten eliminieren, um den Ressourcenverbrauch zu senken und Fehler zu minimieren, die entstehen, wenn mehrere Versionen einer Datei im Umlauf sind. Aber verschiedene Sektoren, Branchen und sogar Abteilungen haben einzigartige Ziele und Bedürfnisse. Hier sind einige gängige Anwendungsfälle.

Kundenbeziehungsmanagement: Innerhalb eines CRM-Systems können Kundendatensätze, Kontaktinformationen und Geschäfte anhand mehrerer Quellen, Detailebenen und Formate erfasst werden. Dies führt zu inkonsistenten Daten, bei denen ein Manager möglicherweise einen etwas anderen Datensatz als ein anderer hat. Beispiel: Wenn der Datensatz für eine Kontaktstelle in mehreren Daten-Repositorys gespeichert ist und nur ein Datensatz aktualisiert wird, nachdem er das Unternehmen verlassen hat, werden einige Mitarbeiter die veralteten Informationen wahrscheinlich weiterhin verwenden. Die Datendeduplizierung kann dazu beitragen, eine einzige Quelle genauer Kundeninformationen sicherzustellen, sodass jeder Einzelne und jede Gruppe die neuesten Daten verwenden kann, um Visualisierungen zu generieren oder Analysen auszuführen.

Datenintegration: Wenn zwei Organisationen zusammengeführt werden, können Daten, die in verschiedenen Instanzen derselben Anwendung enthalten sind, doppelte Datensätze erstellen, unabhängig davon, ob es sich um eine Erfassung oder ein internes Reshuffling handelt. Angenommen, ein größeres Unternehmen kauft einen kleineren Mitbewerber mit einer 40-prozentigen Überschneidung bei den Kunden, was sich in seinen ERP-Systemen widerspiegelt. Durch die Deduplizierung kann diese Redundanz eliminiert werden, wodurch Speicherplatz frei wird und gleichzeitig sichergestellt wird, dass jeder in der neu gebildeten Organisation nur die neueste Version jedes Datensatzes verwendet.

Virtual Computing: Wenn Sie virtuelle Desktops verwenden, z. B. zum Testen von Umgebungen oder zum virtuellen Zugriff auf spezialisierte Anwendungen oder interne Systeme, kann die Datendeduplizierung die Effizienz steigern – insbesondere bei starkem Benutzervolumen. Virtuelle Maschinen enthalten oft sehr ähnliche Daten, was viele doppelte Versionen von Dateien ausmacht. Die Datendeduplizierung löscht diese Duplikate, um sicherzustellen, dass der Speicher nicht mit Daten überlaufen wird, die von virtuellen Maschinen generiert werden.

Banking: Innerhalb eines Finanzinstituts können unterschiedliche Abteilungen oder Filialen doppelte Datensätze von Kundendaten speichern. Jeder doppelte Datensatz ist ein potenzieller Einstiegspunkt für Kriminelle, um Identitäten zu stehlen, betrügerische Transaktionen durchzuführen und andere rechtswidrige Aktivitäten durchzuführen. Und die Prüfung und Verarbeitung doppelter Daten zur Prüfung auf Betrug erfordert mehr Ressourcen. Die Datendeduplizierung kann dazu beitragen, die Effizienz und Sicherheit von Banken und Kreditgenossenschaften zu verbessern.

Dies ist nur eine Stichprobe von Anwendungsfällen. Jede Organisation, die viele Daten erstellt, kann von der Deduplizierung profitieren.

Was Sie bei der Auswahl einer Deduplizierungstechnologie beachten sollten

Zahlreiche Anbieter bieten Datendeduplizierungstools an, aber welches ist das Richtige für Ihr Unternehmen? Hier sind die wichtigsten Faktoren für Teams, die bei der Erstellung einer Shortlist berücksichtigt werden müssen.

  • Performance: Unterschiedliche Deduplizierungstypen erfordern unterschiedliche Ressourcen. Beispiel: Die Deduplizierung auf Blockebene, die an der Quelle in einem großen Netzwerk ausgeführt wird, belegt erhebliche Ressourcen im Vergleich zur Deduplizierung auf Dateiebene, die auf dem Ziel mit einem begrenzteren Geltungsbereich ausgeführt wird.
  • Skalierbarkeit: Skalierbarkeit und Performance gehen oft Hand in Hand, da Prozesse, die bei der Performance abfallen, schwer skalierbar sind. Dies gilt für die Deduplizierung, je ressourcenintensiver der Prozess ist, desto schwieriger ist es, nach Bedarf zu skalieren. Unternehmen mit umfassenden Skalierbarkeitsanforderungen müssen diese Kompromisse berücksichtigen, wenn sie sich für eine Deduplizierungstechnologie entscheiden.
  • Integration: Nicht verbundene Datenquellen können den Deduplizierungsprozess erschweren. Wenn beispielsweise Datenbanken in Silos vorhanden sind, ist die Wahrscheinlichkeit doppelt vorhandener Daten viel höher. In anderen Fällen kann ein großes Netzwerk mit mehreren Remote-Standorten vor der Deduplizierung ein strengeres Bereinigungs- und Transformationsprotokoll erfordern. Unternehmen müssen den Zustand ihrer Datenintegration bewerten, wenn sie überlegen, wie sie Deduplizierung implementieren.
  • Kosten: Deduplizierungstools variieren je nach Kosten aufgrund von Faktoren wie Komplexität und Fähigkeit. Preiserhöhungen basierend auf dem Volumen der verarbeiteten Datensätze. Unternehmen sollten eine Budgetschätzung auf der Grundlage von Branchenstandards und Angebotsraten erstellen und dann beurteilen, wie dies durch langfristige Einsparungen ausgeglichen wird.

Eliminieren Sie die Notwendigkeit der Datendeduplizierung mit Oracle HeatWave

Der beste Weg, um Probleme bei der Datendeduplizierung zu lösen, besteht darin, sie überhaupt zu minimieren. Oracle HeatWave hilft dabei, indem Transaktionen, Echtzeitanalysen über Data Warehouses und Data Lakes hinweg, maschinelles Lernen und generative KI in einem Cloud-Service kombiniert werden. HeatWave-Kunden müssen Daten aus einer Transaktionsdatenbank nicht zur Analyse in eine separate Analysedatenbank duplizieren, was mehrere Vorteile bietet.

  • Es ist nicht erforderlich, dieselben Daten für verschiedene Zwecke in mehreren Datenspeichern zu speichern.
  • Sie benötigen keine komplexen, zeitaufwendigen, kostspieligen und fehleranfälligen Extraktions-, Transformations- und Ladeprozesse, um Daten zwischen Datenspeichern zu verschieben.
  • Analyseabfragen greifen immer auf die aktuellsten Daten zu. Dies führt zu besseren Ergebnissen im Vergleich zur Analyse von Daten, die bis zu dem Zeitpunkt veraltet sein können, zu dem sie in einer separaten Analysedatenbank verfügbar sind.
  • Das Risiko, dass Daten während der Übertragung gefährdet werden, ist gering, da Daten nicht zwischen Datenbanken übertragen werden.
  • Mit HeatWave Lakehouse können Benutzer bis zu ein halbes Petabyte an Daten im Objektspeicher abfragen und optional mit Daten in einer MySQL-Datenbank kombinieren. Kunden können Transaktionsdaten in MySQL-Datenbanken, Daten in verschiedenen Formaten im Objektspeicher oder eine Kombination aus beiden mithilfe von MySQL-Standardbefehlen abfragen, ohne Daten aus dem Objektspeicher in die MySQL Database zu kopieren.

Mit der integrierten HeatWave AutoML können Kunden Modelle für maschinelles Lernen in HeatWave erstellen, trainieren und erklären, ohne dass Daten in einen separaten ML-Service dupliziert werden müssen.

HeatWave GenAI bietet integrierte, automatisierte und sichere GenAI mit datenbankinternen großen Sprachmodellen (LLMs), einem automatisierten, datenbankinternen Vektorspeicher, Scale-out-Vektorverarbeitung und der Möglichkeit, kontextbezogene Konversationen in natürlicher Sprache durchzuführen. So können Kunden GenAI ohne KI-Kenntnisse nutzen und Daten nicht in eine separate Vektordatenbank verschieben.

Durch die Eliminierung von Datenduplizierung über mehrere Cloud-Services hinweg für Transaktionen, Analysen, maschinelles Lernen und GenAI ermöglicht HeatWave Kunden, ihre Dateninfrastrukturen zu vereinfachen, schnellere Entscheidungen zu treffen, die fundierter sind, die Produktivität zu steigern, die Sicherheit zu verbessern und Kosten zu senken. Darüber hinaus erhalten Kunden das beste Performance- und Preis-Leistungs-Verhältnis für Analyse-Workloads, wie öffentlich verfügbare Benchmarks zeigen.

KI kann CIOs dabei helfen, Daten zu analysieren, um die Cloud-Ausgaben zu optimieren und dem Architekten Code-Optimierungen vorzuschlagen, um den Datenverkehr zu minimieren. Erfahren Sie, wie Sie das Potenzial der künstlichen Intelligenz jetzt nutzen können, um Talente, Sicherheit und andere Herausforderungen anzugehen.

Häufig gestellte Fragen zur Datendeduplizierung

Was ist ein Beispiel für Deduplizierung?

Ein Beispiel für die Deduplizierung kann die Ausführung von versionsbasierten Backups und Archiven der Daten einer Organisation sein. Jedes dieser Archive enthält viele Instanzen derselben unberührten Dateien. Durch die Deduplizierung wird der Backup-Prozess optimiert, indem eine neue Version eines Archivs ohne diese duplizierten Dateien erstellt wird. Stattdessen enthält die neue Version Zeiger auf die einzelne Quelle, so dass sie im Archiv vorhanden ist, ohne zusätzlichen Speicherplatz zu belegen.

Was ist der Grund für die Deduplizierung?

Doppelte Datensätze belegen unnötig Speicherplatz. Dieser zusätzliche Speicherplatz benötigt während Prozessen wie Malware-Scans am Ende mehr Ressourcen, einschließlich Speichervolumen, Übertragungsbandbreite und Compute-Ressourcen. Die Deduplizierung reduziert das Volumen des belegten Speicherplatzes und verringert die gesamte Ressourcennutzung, sei es Bandbreite oder Speicherkapazität.

Was ist Datenduplizierung?

Duplikate können sowohl durch Datenduplizierung als auch durch Datenredundanz entstehen. Die Datenduplizierung bezieht sich auf Situationen, in denen ein Benutzer eine doppelte Datei zum System selbst hinzufügt. Datenredundanz bezieht sich auf Situationen, in denen Datenbanken mit einigen sich überschneidenden Dateien oder Datensätzen zusammengeführt werden, um Duplikate zu erstellen.

Welche Nachteile bieten die Deduplizierung?

Die Deduplizierung kann Speicherplatz freigeben, um die Effizienz und Kosteneinsparungen langfristig zu steigern. Der tatsächliche Deduplizierungsprozess ist jedoch ressourcenintensiv und kann verschiedene Teile des Netzwerks verlangsamen, einschließlich der Rechenleistung und der Übertragungsbandbreite. Dies bedeutet, dass IT-Abteilungen strategisch über die Planung der Deduplizierung nachdenken müssen.