Michael Chen | Content Strategist | 14 février 2024
Le processus de déduplication des données élimine systématiquement les copies redondantes des données et des fichiers, ce qui peut aider à réduire les coûts de stockage et à améliorer le contrôle des versions. À une époque où chaque appareil génère des données et où des entreprises entières partagent des fichiers, la déduplication des données est un élément essentiel des opérations informatiques. C'est également un élément clé du processus de protection et de continuité des données. Lorsque la suppression des doublons de données est appliquée aux sauvegardes, elle identifie et élimine les fichiers et les blocs en double, en stockant une seule instance de chaque information unique. Cela peut non seulement aider à économiser de l'argent, mais peut également aider à améliorer les temps de sauvegarde et de récupération, car moins de données doivent être envoyées sur le réseau.
La suppression des doublons de données est le processus consistant à supprimer des fichiers ou des blocs identiques de bases de données et de stockage de données. Cela peut se produire sur un fichier par fichier, bloc par bloc, ou niveau d'octet individuel ou quelque part entre les deux, comme dicté par un algorithme. Les résultats sont souvent mesurés par ce qu'on appelle un "rapport de déduplication des données". Après la suppression des doublons, les organisations doivent disposer de plus d'espace libre, bien que la quantité varie, car certaines activités et certains types de fichiers sont plus sujets à la duplication que d'autres. Alors que les services informatiques doivent vérifier régulièrement les doublons, les avantages de la déduplication fréquente varient également considérablement et dépendent de plusieurs variables.
Principaux points à retenir
Dans le processus de déduplication des données, un outil analyse les volumes de stockage pour détecter les doublons et supprime les instances marquées. Pour rechercher des doublons, le système compare les identificateurs uniques, ou hachages, attachés à chaque donnée. Si une correspondance est trouvée, une seule copie des données est stockée et les doublons sont remplacés par des références à la copie d'origine.
Le système de déduplication effectue des recherches dans le stockage local, dans les outils de gestion tels que les catalogues de données, dans les banques de données et analyse les données structurées et non structurées. Pour bien comprendre ce qui est impliqué, les termes et définitions suivants sont essentiels :
La déduplication des données peut aider à économiser des ressources : espace de stockage, puissance de calcul et argent. La déduplication consiste à réduire les volumes de stockage. Mais lorsque chaque périphérique produit des quantités massives de données et que les fichiers sont constamment partagés entre les services, l'impact des données en double a des conséquences importantes. Par exemple, il peut ralentir les processus, consommer des ressources matérielles, créer des redondances et ajouter de la confusion lorsque différentes équipes utilisent différents fichiers redondants. La déduplication peut aider à s'occuper de tout cela, c'est pourquoi de nombreuses entreprises la maintiennent sur une cadence régulièrement programmée dans le cadre de leurs stratégies de maintenance informatique.
Comme la déduplication des données est un processus de gestion des données gourmand en ressources, le timing doit dépendre d'un certain nombre de variables, y compris la conception du réseau et le moment où les employés accèdent aux fichiers. Voici les situations les plus courantes dans lesquelles la suppression des doublons de données est utilisée :
Les serveurs de fichiers à usage général fournissent du stockage et des services pour une grande variété de données, y compris les caches de fichiers et les dossiers de service partagés des employés. Comme ces types de serveurs ont souvent à la fois un volume élevé d'utilisateurs et une diversité de rôles d'utilisateur, de nombreux fichiers en double ont tendance à exister. Les causes incluent les sauvegardes à partir de disques durs locaux, les installations d'applications, le partage de fichiers, etc.
La technologie d'infrastructure de bureau virtuel fournit un hébergement et une gestion centralisés des bureaux virtualisés pour l'accès à distance. Le problème est que les disques durs virtuels sont souvent identiques et contiennent des fichiers en double qui consomment du stockage. En outre, lorsqu'un volume élevé d'utilisateurs initialisent leurs machines virtuelles en même temps, comme au début de la journée de travail, la "tempête de démarrage VDI" qui s'ensuit peut réduire les performances à un crawl, sinon à un arrêt. La déduplication peut aider à résoudre ce problème en utilisant un cache en mémoire pour les ressources d'application individuelles lorsqu'elles sont appelées à la demande.
Les sauvegardes créent des versions de fichiers en double, pour une bonne raison. Cependant, le même fichier n'a pas besoin d'être copié à perpétuité. Au lieu de cela, la déduplication des données garantit l'existence d'un fichier de sauvegarde propre, d'autres instances dans des versions de sauvegarde plus récentes pointant simplement vers le fichier principal. Cela permet une redondance tout en optimisant les ressources et l'espace de stockage.
Les outils de déduplication permettent un processus de transfert de données plus efficace. Au lieu d'effectuer un remplacement de début à fin, les outils de déduplication des données identifient les fichiers dans les segments. Pour le processus de transfert de fichiers, les outils recherchent les segments mis à jour et déplacent les segments uniquement si nécessaire. Par exemple, si quelqu'un reçoit une nouvelle version d'un fichier très volumineux et que la nouvelle version n'a que quelques segments de code mis à jour, le processus de transfert/écrasement peut se terminer rapidement en écrivant uniquement sur ces segments.
Les systèmes d'archivage sont souvent confondus avec les sauvegardes car ils sont tous deux utilisés pour le stockage de données à long terme. Bien que les systèmes génèrent des sauvegardes à des fins de récupération après sinistre et de préparation, les entreprises utilisent des systèmes d'archivage pour préserver les données qui ne sont plus utilisées. Des doublons peuvent être générés lors de la combinaison de volumes de stockage ou de l'ajout de nouveaux segments à un système d'archivage. Le processus de déduplication optimise l'efficacité des archives.
Du point de vue global, les outils de déduplication des données comparent des fichiers ou des blocs de fichiers pour identifier les empreintes digitales en double, également appelées hachages. Si les doublons sont confirmés, ils sont consignés et éliminés. Voici un aperçu des étapes spécifiques du processus.
Le découpage en blocs fait référence à un processus de déduplication qui décompose les fichiers en segments, c'est-à-dire en blocs. La taille de ces segments peut être calculée par algorithme ou définie à l'aide des directives établies. L'avantage du découpage par bloc est qu'il permet une déduplication plus précise, bien qu'il nécessite davantage de ressources de calcul.
Lorsque des données sont traitées par un outil de déduplication, un algorithme de hachage lui en affecte un. Le hachage est ensuite vérifié pour voir s'il existe déjà dans le journal des données traitées. S'il existe déjà, les données sont classées en double et supprimées pour libérer de l'espace de stockage.
Les résultats du processus de déduplication sont stockés dans une table de référence qui suit les segments ou fichiers supprimés et les éléments dupliqués. La table de référence permet la transparence et la traçabilité, tout en fournissant une archive complète des sources référencées dans un volume de stockage.
Les entreprises peuvent choisir parmi plusieurs approches de déduplication des données en fonction de ce qui correspond le mieux à leurs budgets, à leur bande passante et à leurs besoins de redondance. Où traiter, quand traiter, comment traiter finement, toutes ces variables sont des variables mixtes qui sont utilisées pour créer une solution personnalisée pour une organisation.
Inline Vs. Diagramme de suppression des doublons post-traitement :
Suppression des doublons en ligne :
Suppression des doublons post-traitement
Tout comme la modification d'un document supprime les mots ou expressions répétitifs pour rendre le contenu plus concis, la déduplication rationalise les données d'une entreprise, offrant des avantages potentiels tels que des coûts de stockage réduits, une consommation de bande passante réduite et une efficacité de sauvegarde accrue.
Lorsqu'il existe moins de fichiers, les entreprises utilisent moins de stockage. C'est l'un des avantages les plus évidents de la déduplication des données, et il s'étend à d'autres systèmes. Les entreprises auront besoin de moins d'espace pour les sauvegardes et consommeront moins de ressources de calcul/bande passante pour l'analyse et la sauvegarde des données.
Etant donné que la déduplication des données réduit la charge de l'exécution des sauvegardes, un sous-produit clé est une récupération après sinistre plus rapide et plus facile. Les sauvegardes plus petites sont créées plus efficacement, ce qui signifie que moins de ressources sont nécessaires pour les extraire à des fins de récupération.
Avec la déduplication des données, l'empreinte des fichiers de sauvegarde diminue, ce qui réduit l'utilisation des ressources pendant les processus de sauvegarde dans l'espace de stockage, le calcul et la durée des processus. Les entreprises bénéficient ainsi d'une plus grande flexibilité dans la planification de leurs sauvegardes.
Moins les fichiers à transférer sont nombreux, moins la bande passante requise est importante, ce qui signifie que le transfert utilise moins de ressources réseau. Par conséquent, la suppression des doublons de données peut améliorer l'efficacité du réseau en réduisant la demande dans n'importe quel processus de transfert, y compris le transport des sauvegardes pour l'archivage et le rappel des sauvegardes pour la récupération après sinistre.
L'explosion des volumes de données a entraîné une augmentation rapide des dépenses de stockage dans les entreprises de toutes tailles. La déduplication peut permettre de réaliser des économies en réduisant la quantité de stockage nécessaire pour les activités quotidiennes et les sauvegardes ou archives. Les économies de coûts secondaires proviennent de la réduction des demandes d'énergie, de calcul et de bande passante, ainsi que de la réduction des ressources humaines nécessaires pour gérer et dépanner les fichiers duplicatifs.
La déduplication des données est un outil efficace pour optimiser l'utilisation des ressources et réduire les coûts. Cependant, ces avantages sont associés à certains défis, dont beaucoup sont liés à la puissance de calcul requise pour le déduplication granulaire. Les inconvénients et préoccupations les plus courants liés à la déduplication des données sont les suivants :
La suppression des doublons de données nécessite beaucoup de ressources, en particulier lorsqu'elle est effectuée au niveau des blocs. Les équipes informatiques doivent réfléchir lors de la planification et de l'exécution des processus de déduplication, en tenant compte de la bande passante disponible, des activités et des besoins organisationnels, de l'emplacement de sauvegarde, des délais et d'autres facteurs en fonction de leurs environnements uniques.
Les collisions de hachage font référence aux instances où les valeurs de hachage générées de manière aléatoire se chevauchent. Lorsque le processus de déduplication utilise une approche de niveau bloc, les hachages sont affectés aux blocs de données, ce qui augmente la possibilité de collisions de hachage pouvant corrompre les données. La prévention des collisions par hachage implique soit d'augmenter la taille de la table de hachage, soit d'implémenter des méthodes de résolution des collisions, telles que le chaînage ou l'adressage ouvert. Le chaînage implique le stockage de plusieurs éléments avec la même clé de hachage dans une liste liée ou une autre structure de données, tandis que l'adressage ouvert implique la recherche d'un autre emplacement dans la table de hachage pour stocker l'élément en double. Chaque méthode présente des avantages et des inconvénients. Les équipes informatiques doivent donc tenir compte de la longueur et de la complexité de l'algorithme de hachage par rapport à l'utilisation de solutions de contournement.
Aucun processus n'est infaillible, et pendant le processus de déduplication, il y a toujours la possibilité de supprimer ou de modifier involontairement des données qui sont, en fait, uniques et importantes. Les causes des problèmes d'intégrité incluent les collisions de hachage, les blocs source corrompus, les processus interrompus à partir d'événements inattendus tels que les pannes de disque, les erreurs manuelles ou les pannes de courant, une cyberattaque réussie ou une simple erreur de l'opérateur. Bien que les problèmes d'intégrité soient rares compte tenu de la qualité des outils et protocoles actuels de déduplication des données, ils restent une possibilité et peuvent causer de graves maux de tête.
Le processus de déduplication crée une nouvelle couche de métadonnées pour les journaux de modifications et les signatures numériques attachées à chaque bloc traité. C'est ce qu'on appelle un "fichier d'empreintes". Non seulement ces métadonnées nécessitent de l'espace de stockage, mais elles peuvent également créer leurs propres problèmes d'intégrité des données. Si elle est endommagée, par exemple, le processus de récupération devient beaucoup plus difficile.
Alors que la déduplication des données permet d'économiser de l'argent à long terme grâce à une réduction des besoins en espace, elle nécessite un investissement initial. Ces coûts comprennent l'outil de déduplication lui-même, généralement calculé en fonction du nombre d'enregistrements, ainsi que le temps nécessaire au personnel informatique pour concevoir, exécuter et gérer le processus de déduplication.
Comment fonctionne la déduplication des données dans le monde réel ? En théorie, il s'agit d'un concept simple de data science : éliminez les données en double pour réduire la consommation de ressources et minimiser les erreurs qui se produisent lorsqu'il existe plusieurs versions d'un fichier. Mais différents secteurs, industries et même départements ont des objectifs et des besoins uniques. Voici quelques cas d'usage courants.
Gestion de la relation client : Dans un système CRM, les enregistrements client, les informations de contact et les transactions peuvent être enregistrés à l'aide de plusieurs sources, niveaux de détail et formats. Cela entraîne des données incohérentes, lorsqu'un responsable peut avoir un enregistrement légèrement différent d'un autre. Par exemple, si l'enregistrement d'un point de contact est détenu dans plusieurs référentiels de données et qu'un seul est mis à jour après avoir quitté la société, certains employés continueront probablement à utiliser les informations obsolètes. La déduplication des données peut aider à garantir une source unique d'informations précises sur les clients, permettant à chaque individu et groupe d'utiliser les dernières données pour générer des visualisations ou exécuter des analyses.
Intégration des données : lorsque deux organisations fusionnent, que ce soit par le biais d'une acquisition ou d'un remaniement interne, les données contenues dans différentes instances de la même application peuvent créer des enregistrements en double. Supposons qu'une plus grande entreprise achète un concurrent plus petit avec un chevauchement de 40 % des clients, ce qui se reflète dans ses systèmes ERP. La déduplication peut éliminer cette redondance, libérant de l'espace de stockage tout en veillant à ce que tous les membres de l'organisation nouvellement créée n'utilisent que la dernière version de chaque enregistrement.
Informatique virtuelle : lors de l'utilisation de bureaux virtuels, tels que pour tester des environnements ou un accès virtuel pour des applications spécialisées ou des systèmes internes, la déduplication des données peut augmenter l'efficacité, en particulier avec un volume d'utilisateurs important. Les machines virtuelles contiennent souvent des données très similaires, ce qui en fait de nombreuses versions de fichiers en double. La déduplication des données purge ces doublons afin de garantir que le stockage ne soit pas dépassé par les données générées par les machines virtuelles.
Banque : Au sein d'une institution financière, différents services ou agences peuvent contenir des enregistrements en double d'informations client. Chaque enregistrement en double est un point d'entrée potentiel pour les criminels de voler des identités, d'effectuer des transactions frauduleuses et d'effectuer d'autres activités illégales. Et l'examen et le traitement des données en double pour vérifier la fraude nécessitent plus de ressources. La déduplication des données peut aider à améliorer l'efficacité et la sécurité des banques et des coopératives de crédit.
Il ne s'agit là que d'un échantillon de cas d'utilisation. Toute organisation qui crée un grand nombre de données peut bénéficier de la suppression des doublons.
De nombreux fournisseurs proposent des outils de déduplication des données, mais lequel convient le mieux à votre entreprise ? Voici les facteurs clés que les équipes doivent prendre en compte lorsqu'elles font une courte liste.
La meilleure façon de résoudre les problèmes de déduplication des données est de les minimiser en premier lieu. Oracle HeatWave y contribue en combinant les transactions, les analyses en temps réel dans les entrepôts de données et les data lakes, le machine learning et l'IA générative dans un seul service cloud. Les clients d'HeatWave n'ont pas besoin de dupliquer les données d'une base de données transactionnelle dans une base de données d'analyse distincte pour l'analyse, ce qui présente plusieurs avantages.
Avec le machine learning automatique d'HeatWave intégré, les clients peuvent créer, entraîner et expliquer des modèles de machine learning dans HeatWave, encore une fois sans avoir à dupliquer les données dans un service de machine learning distinct.
HeatWave GenAI fournit une solution de GenAI intégrée, automatisée et sécurisée avec des grands modèles de langage (LLM) dans la base de données, une banque de vecteurs automatisée dans la base de données, un traitement vectoriel évolutif et la possibilité d'avoir des conversations contextuelles en langage naturel, ce qui permet aux clients de tirer parti de la GenAI sans expertise en IA et sans déplacer les données vers une base de données vectorielle distincte.
En éliminant la duplication des données dans plusieurs services cloud pour les transactions, l'analyse, le machine learning et la GenAI, HeatWave permet aux clients de simplifier leurs infrastructures de données, de prendre des décisions plus rapides et plus éclairées, d'augmenter la productivité, d'améliorer la sécurité et de réduire les coûts. En outre, les clients bénéficient des meilleures performances et du meilleur rapport prix-performances pour les workloads d'analyse, comme le démontrent les tests d'évaluation accessibles au public.
L'IA peut aider les DSI à analyser les données pour optimiser les dépenses liées au cloud et à suggérer des ajustements de code à l'architecte pour limiter les sorties. Découvrez comment exploiter la puissance de l'intelligence artificielle pour relever les défis liés aux talents, à la sécurité et bien plus encore.
Un exemple de suppression des doublons peut provenir de l'exécution de sauvegardes et d'archives basées sur la version des données d'une organisation. Chacune de ces archives contiendra de nombreuses instances des mêmes fichiers intacts. Avec la suppression des doublons, le processus de sauvegarde est rationalisé en créant une nouvelle version d'une archive sans ces fichiers en double. Au lieu de cela, la nouvelle version contient des pointeurs vers la source unique, ce qui lui permet d'exister dans l'archive sans utiliser d'espace de stockage supplémentaire.
Les enregistrements en double consomment inutilement de l'espace de stockage. Cet espace de stockage supplémentaire prend plus de ressources, y compris le volume de stockage, la bande passante de transfert et les ressources de calcul, pendant les processus tels que les analyses de logiciels malveillants. La suppression des doublons réduit le volume d'espace de stockage utilisé, réduit l'utilisation globale des ressources, qu'il s'agisse de bande passante ou de capacité de stockage.
Des doublons peuvent apparaître grâce à la duplicité des données et à la redondance des données. La duplicité des données fait référence aux situations où un utilisateur ajoute un fichier en double au système lui-même. La redondance des données fait référence à des situations où des bases de données avec des fichiers ou des enregistrements qui se chevauchent fusionnent pour créer des doublons.
La déduplication peut libérer de l'espace de stockage pour une plus grande efficacité à long terme et des économies. Cependant, le processus réel de déduplication consomme beaucoup de ressources et peut ralentir diverses parties du réseau, notamment les performances de calcul et la bande passante de transfert. Cela signifie que les services informatiques doivent réfléchir stratégiquement à la planification de la déduplication.