Qu'est-ce que la déduplication des données ? Méthodes et avantages

Michael Chen | Content Strategist | 14 février 2024

Le processus de déduplication des données élimine systématiquement les copies redondantes des données et des fichiers, ce qui peut aider à réduire les coûts de stockage et à améliorer le contrôle des versions. À une époque où chaque appareil génère des données et où des entreprises entières partagent des fichiers, la déduplication des données est un élément essentiel des opérations informatiques. C'est également un élément clé du processus de protection et de continuité des données. Lorsque la suppression des doublons de données est appliquée aux sauvegardes, elle identifie et élimine les fichiers et les blocs en double, en stockant une seule instance de chaque information unique. Cela peut non seulement aider à économiser de l'argent, mais peut également aider à améliorer les temps de sauvegarde et de récupération, car moins de données doivent être envoyées sur le réseau.

Qu'est-ce que la déduplication des données ?

La suppression des doublons de données est le processus consistant à supprimer des fichiers ou des blocs identiques de bases de données et de stockage de données. Cela peut se produire sur un fichier par fichier, bloc par bloc, ou niveau d'octet individuel ou quelque part entre les deux, comme dicté par un algorithme. Les résultats sont souvent mesurés par ce qu'on appelle un "rapport de déduplication des données". Après la suppression des doublons, les organisations doivent disposer de plus d'espace libre, bien que la quantité varie, car certaines activités et certains types de fichiers sont plus sujets à la duplication que d'autres. Alors que les services informatiques doivent vérifier régulièrement les doublons, les avantages de la déduplication fréquente varient également considérablement et dépendent de plusieurs variables.

Principaux points à retenir

  • La déduplication des données est le processus de recherche et d'élimination des données en double.
  • Les outils de déduplication offrent une gamme de niveaux de précision, allant du fichier par fichier au segment de fichier ou à la déduplication de bloc.
  • Plus un processus de déduplication est précis, plus il nécessite de puissance de calcul.
  • Pour les sauvegardes et l'archivage, la suppression des doublons peut avoir lieu avant ou après le transfert de données. La première utilise moins de bande passante, tandis que la seconde consomme plus de bande passante mais moins de ressources locales.

Explication de la déduplication des données

Dans le processus de déduplication des données, un outil analyse les volumes de stockage pour détecter les doublons et supprime les instances marquées. Pour rechercher des doublons, le système compare les identificateurs uniques, ou hachages, attachés à chaque donnée. Si une correspondance est trouvée, une seule copie des données est stockée et les doublons sont remplacés par des références à la copie d'origine.

Le système de déduplication effectue des recherches dans le stockage local, dans les outils de gestion tels que les catalogues de données, dans les banques de données et analyse les données structurées et non structurées. Pour bien comprendre ce qui est impliqué, les termes et définitions suivants sont essentiels :

  • Ratio de suppression des doublons de données : mesure utilisée pour mesurer le succès du processus de suppression des doublons. Ce rapport compare la taille du magasin de données d'origine à la taille qui suit la suppression des doublons. Bien qu'un ratio élevé indique un processus efficace, des variables telles que la fréquence de déduplication, le type de données et d'autres facteurs peuvent fausser le ratio final. La technologie de virtualisation, par exemple, crée des machines virtuelles qui peuvent être sauvegardées et répliquées facilement, fournissant plusieurs copies de données. La conservation de certaines copies est importante pour la redondance et la récupération après une perte de données.
  • Rétention des données : durée pendant laquelle les données sont conservées dans le stockage, généralement définie par une stratégie. Les rapports financiers doivent être conservés plus longtemps que, par exemple, les e-mails. En règle générale, plus la durée de conservation est longue, plus les données risquent d'être dupliquées lors des sauvegardes, des transferts ou de l'utilisation de machines virtuelles.
  • Type de données : format des données conservées dans le stockage. Les types de données standard sont les fichiers exécutables, les documents et les fichiers multimédias. L'objectif, la sensibilité, la fréquence d'accès et d'autres facteurs du fichier déterminent s'il est dupliqué et combien de temps il est conservé.
  • Taux de modification : Mesure de la fréquence à laquelle un fichier est mis à jour ou modifié. Les fichiers avec des taux de modification plus élevés sont souvent dupliqués moins fréquemment.
  • Lieu : les données d'emplacement sont stockées. Les fichiers en double proviennent souvent des mêmes fichiers exacts existant à plusieurs emplacements, soit intentionnellement, comme pour une sauvegarde, soit involontairement via un processus de copier-coller qui a accidentellement utilisé une opération de copier-coller. Dans certains cas, les machines virtuelles stockées à plusieurs emplacements contiennent des fichiers en double.

Pourquoi la suppression des doublons de données est-elle utile ?

La déduplication des données peut aider à économiser des ressources : espace de stockage, puissance de calcul et argent. La déduplication consiste à réduire les volumes de stockage. Mais lorsque chaque périphérique produit des quantités massives de données et que les fichiers sont constamment partagés entre les services, l'impact des données en double a des conséquences importantes. Par exemple, il peut ralentir les processus, consommer des ressources matérielles, créer des redondances et ajouter de la confusion lorsque différentes équipes utilisent différents fichiers redondants. La déduplication peut aider à s'occuper de tout cela, c'est pourquoi de nombreuses entreprises la maintiennent sur une cadence régulièrement programmée dans le cadre de leurs stratégies de maintenance informatique.

Quand utiliser l'élimination des doublons de données

Comme la déduplication des données est un processus de gestion des données gourmand en ressources, le timing doit dépendre d'un certain nombre de variables, y compris la conception du réseau et le moment où les employés accèdent aux fichiers. Voici les situations les plus courantes dans lesquelles la suppression des doublons de données est utilisée :

Serveurs de fichiers à usage général

Les serveurs de fichiers à usage général fournissent du stockage et des services pour une grande variété de données, y compris les caches de fichiers et les dossiers de service partagés des employés. Comme ces types de serveurs ont souvent à la fois un volume élevé d'utilisateurs et une diversité de rôles d'utilisateur, de nombreux fichiers en double ont tendance à exister. Les causes incluent les sauvegardes à partir de disques durs locaux, les installations d'applications, le partage de fichiers, etc.

Déploiements d'infrastructure de bureau virtuel (VDI)

La technologie d'infrastructure de bureau virtuel fournit un hébergement et une gestion centralisés des bureaux virtualisés pour l'accès à distance. Le problème est que les disques durs virtuels sont souvent identiques et contiennent des fichiers en double qui consomment du stockage. En outre, lorsqu'un volume élevé d'utilisateurs initialisent leurs machines virtuelles en même temps, comme au début de la journée de travail, la "tempête de démarrage VDI" qui s'ensuit peut réduire les performances à un crawl, sinon à un arrêt. La déduplication peut aider à résoudre ce problème en utilisant un cache en mémoire pour les ressources d'application individuelles lorsqu'elles sont appelées à la demande.

Systèmes de stockage et sauvegardes

Les sauvegardes créent des versions de fichiers en double, pour une bonne raison. Cependant, le même fichier n'a pas besoin d'être copié à perpétuité. Au lieu de cela, la déduplication des données garantit l'existence d'un fichier de sauvegarde propre, d'autres instances dans des versions de sauvegarde plus récentes pointant simplement vers le fichier principal. Cela permet une redondance tout en optimisant les ressources et l'espace de stockage.

Transferts de données

Les outils de déduplication permettent un processus de transfert de données plus efficace. Au lieu d'effectuer un remplacement de début à fin, les outils de déduplication des données identifient les fichiers dans les segments. Pour le processus de transfert de fichiers, les outils recherchent les segments mis à jour et déplacent les segments uniquement si nécessaire. Par exemple, si quelqu'un reçoit une nouvelle version d'un fichier très volumineux et que la nouvelle version n'a que quelques segments de code mis à jour, le processus de transfert/écrasement peut se terminer rapidement en écrivant uniquement sur ces segments.

Systèmes d'archivage

Les systèmes d'archivage sont souvent confondus avec les sauvegardes car ils sont tous deux utilisés pour le stockage de données à long terme. Bien que les systèmes génèrent des sauvegardes à des fins de récupération après sinistre et de préparation, les entreprises utilisent des systèmes d'archivage pour préserver les données qui ne sont plus utilisées. Des doublons peuvent être générés lors de la combinaison de volumes de stockage ou de l'ajout de nouveaux segments à un système d'archivage. Le processus de déduplication optimise l'efficacité des archives.

Fonctionnement de la déduplication des données

Du point de vue global, les outils de déduplication des données comparent des fichiers ou des blocs de fichiers pour identifier les empreintes digitales en double, également appelées hachages. Si les doublons sont confirmés, ils sont consignés et éliminés. Voici un aperçu des étapes spécifiques du processus.

Segmentation

Le découpage en blocs fait référence à un processus de déduplication qui décompose les fichiers en segments, c'est-à-dire en blocs. La taille de ces segments peut être calculée par algorithme ou définie à l'aide des directives établies. L'avantage du découpage par bloc est qu'il permet une déduplication plus précise, bien qu'il nécessite davantage de ressources de calcul.

Hachage

Lorsque des données sont traitées par un outil de déduplication, un algorithme de hachage lui en affecte un. Le hachage est ensuite vérifié pour voir s'il existe déjà dans le journal des données traitées. S'il existe déjà, les données sont classées en double et supprimées pour libérer de l'espace de stockage.

Tables de référence

Les résultats du processus de déduplication sont stockés dans une table de référence qui suit les segments ou fichiers supprimés et les éléments dupliqués. La table de référence permet la transparence et la traçabilité, tout en fournissant une archive complète des sources référencées dans un volume de stockage.

Approches de déduplication des données

Les entreprises peuvent choisir parmi plusieurs approches de déduplication des données en fonction de ce qui correspond le mieux à leurs budgets, à leur bande passante et à leurs besoins de redondance. Où traiter, quand traiter, comment traiter finement, toutes ces variables sont des variables mixtes qui sont utilisées pour créer une solution personnalisée pour une organisation.

La déduplication en ligne ou post-traitement convient-elle le mieux à vos besoins ? Voici quelques avantages et inconvénients de chacun.

Inline Vs. Diagramme de suppression des doublons post-traitement :

Suppression des doublons en ligne :

  • Élimine les doublons de données avant l'écriture dans le stockage.
  • L'optimisation de la capacité des données est réduite avant que les données ne soient écrites sur le disque.
  • Avantages :
    • Réduit les besoins en espace de stockage, ce qui diminue les coûts.
    • Réduit la taille du transfert de données, ce qui améliore les performances.
  • Inconvénients :
    • Une puissance de traitement accrue est nécessaire pour éliminer les doublons de données en temps réel.
    • En cas d'exécution inefficace, les opérations peuvent ralentir.

Suppression des doublons post-traitement

  • Se produit après que les données ont été écrites dans le stockage.
  • Données brutes d'abord écrites sur le disque telles quelles.
  • L'optimisation de la capacité des données est réduite une fois les données écrites sur le disque.
  • Avantages :
    • Nécessite moins de ressources.
    • n'affecte pas les performances car la suppression des doublons est un processus en mode batch distinct.
  • Inconvénients :
    • Les données en double ne sont pas éliminées en temps réel, ce qui peut entraîner d'autres incohérences.
    • Le traitement par lots peut retarder l'identification et la suppression des données en double.

Méthodes de déduplication

  • Suppression des doublons au niveau des blocs : les outils de suppression des doublons fonctionnent au niveau des blocs en comparant ces segments pour identifier les différences entre les empreintes des blocs et en supprimant les doublons. Cela permet une déduplication plus précise, bien que le processus soit assez gourmand en ressources et puisse être difficile à appliquer à de grands volumes de stockage physique.
  • Suppression des doublons de longueur variable : la suppression des doublons de longueur variable utilise un algorithme pour déterminer la taille des segments de données d'un fichier, puis pour rechercher les doublons. Ce processus est similaire à la déduplication de niveau bloc en ce sens qu'il offre une bonne précision, mais sans la taille fixe des blocs individuels.
  • Suppression des doublons au niveau des fichiers : au lieu d'effectuer une suppression des doublons au niveau des blocs, les outils cherchent à détecter les doublons fichier par fichier. Cette méthode ne fonctionne pas avec la même précision que la déduplication au niveau des blocs, bien que le compromis soit un processus plus rapide et moins gourmand en ressources qui peut être appliqué au stockage de toute taille.

Points de suppression des doublons

  • Suppression des doublons source : cette méthode utilise le client local comme emplacement pour la suppression des doublons. L'exécution de la suppression des doublons sur le client avant la sauvegarde permet d'économiser sur la bande passante et les coûts de transmission, bien qu'elle utilise les ressources du client.
  • Suppression des doublons cible : cette méthode attend qu'une sauvegarde soit transmise pour effectuer la suppression des doublons. Dans ce cas, le compromis en matière d'utilisation des ressources est l'opposé du compromis en matière de déduplication des sources : il exerce moins de pression sur les clients, mais demande davantage en bande passante réseau et en ressources cibles.

Moment de suppression des doublons

  • Suppression des doublons en ligne : lorsque la suppression des doublons est effectuée en ligne, les données sont analysées à la recherche de doublons en temps réel lors de l'exécution du processus. Cette méthode utilise davantage de ressources de calcul locales, bien qu'elle libère un espace de stockage important.
  • Suppression des doublons post-processus : la suppression des doublons post-processus exécute les processus de comparaison et d'élimination après l'envoi des données à la cible. Cette méthode nécessite plus d'espace de stockage dans l'emplacement cible, mais utilise moins de ressources locales avant la transmission.

Avantages de l'élimination des doublons de données

Tout comme la modification d'un document supprime les mots ou expressions répétitifs pour rendre le contenu plus concis, la déduplication rationalise les données d'une entreprise, offrant des avantages potentiels tels que des coûts de stockage réduits, une consommation de bande passante réduite et une efficacité de sauvegarde accrue.

Economies de stockage

Lorsqu'il existe moins de fichiers, les entreprises utilisent moins de stockage. C'est l'un des avantages les plus évidents de la déduplication des données, et il s'étend à d'autres systèmes. Les entreprises auront besoin de moins d'espace pour les sauvegardes et consommeront moins de ressources de calcul/bande passante pour l'analyse et la sauvegarde des données.

Récupération après sinistre

Etant donné que la déduplication des données réduit la charge de l'exécution des sauvegardes, un sous-produit clé est une récupération après sinistre plus rapide et plus facile. Les sauvegardes plus petites sont créées plus efficacement, ce qui signifie que moins de ressources sont nécessaires pour les extraire à des fins de récupération.

Fenêtres de sauvegarde plus petites

Avec la déduplication des données, l'empreinte des fichiers de sauvegarde diminue, ce qui réduit l'utilisation des ressources pendant les processus de sauvegarde dans l'espace de stockage, le calcul et la durée des processus. Les entreprises bénéficient ainsi d'une plus grande flexibilité dans la planification de leurs sauvegardes.

Efficacité du réseau

Moins les fichiers à transférer sont nombreux, moins la bande passante requise est importante, ce qui signifie que le transfert utilise moins de ressources réseau. Par conséquent, la suppression des doublons de données peut améliorer l'efficacité du réseau en réduisant la demande dans n'importe quel processus de transfert, y compris le transport des sauvegardes pour l'archivage et le rappel des sauvegardes pour la récupération après sinistre.

Avantages économiques

L'explosion des volumes de données a entraîné une augmentation rapide des dépenses de stockage dans les entreprises de toutes tailles. La déduplication peut permettre de réaliser des économies en réduisant la quantité de stockage nécessaire pour les activités quotidiennes et les sauvegardes ou archives. Les économies de coûts secondaires proviennent de la réduction des demandes d'énergie, de calcul et de bande passante, ainsi que de la réduction des ressources humaines nécessaires pour gérer et dépanner les fichiers duplicatifs.

Inconvénients et préoccupations en matière de déduplication des données

La déduplication des données est un outil efficace pour optimiser l'utilisation des ressources et réduire les coûts. Cependant, ces avantages sont associés à certains défis, dont beaucoup sont liés à la puissance de calcul requise pour le déduplication granulaire. Les inconvénients et préoccupations les plus courants liés à la déduplication des données sont les suivants :

Frais généraux de performance

La suppression des doublons de données nécessite beaucoup de ressources, en particulier lorsqu'elle est effectuée au niveau des blocs. Les équipes informatiques doivent réfléchir lors de la planification et de l'exécution des processus de déduplication, en tenant compte de la bande passante disponible, des activités et des besoins organisationnels, de l'emplacement de sauvegarde, des délais et d'autres facteurs en fonction de leurs environnements uniques.

Collisions de hachage

Les collisions de hachage font référence aux instances où les valeurs de hachage générées de manière aléatoire se chevauchent. Lorsque le processus de déduplication utilise une approche de niveau bloc, les hachages sont affectés aux blocs de données, ce qui augmente la possibilité de collisions de hachage pouvant corrompre les données. La prévention des collisions par hachage implique soit d'augmenter la taille de la table de hachage, soit d'implémenter des méthodes de résolution des collisions, telles que le chaînage ou l'adressage ouvert. Le chaînage implique le stockage de plusieurs éléments avec la même clé de hachage dans une liste liée ou une autre structure de données, tandis que l'adressage ouvert implique la recherche d'un autre emplacement dans la table de hachage pour stocker l'élément en double. Chaque méthode présente des avantages et des inconvénients. Les équipes informatiques doivent donc tenir compte de la longueur et de la complexité de l'algorithme de hachage par rapport à l'utilisation de solutions de contournement.

Intégrité des données

Aucun processus n'est infaillible, et pendant le processus de déduplication, il y a toujours la possibilité de supprimer ou de modifier involontairement des données qui sont, en fait, uniques et importantes. Les causes des problèmes d'intégrité incluent les collisions de hachage, les blocs source corrompus, les processus interrompus à partir d'événements inattendus tels que les pannes de disque, les erreurs manuelles ou les pannes de courant, une cyberattaque réussie ou une simple erreur de l'opérateur. Bien que les problèmes d'intégrité soient rares compte tenu de la qualité des outils et protocoles actuels de déduplication des données, ils restent une possibilité et peuvent causer de graves maux de tête.

Métadonnées ajoutées

Le processus de déduplication crée une nouvelle couche de métadonnées pour les journaux de modifications et les signatures numériques attachées à chaque bloc traité. C'est ce qu'on appelle un "fichier d'empreintes". Non seulement ces métadonnées nécessitent de l'espace de stockage, mais elles peuvent également créer leurs propres problèmes d'intégrité des données. Si elle est endommagée, par exemple, le processus de récupération devient beaucoup plus difficile.

Coût de la mise en œuvre

Alors que la déduplication des données permet d'économiser de l'argent à long terme grâce à une réduction des besoins en espace, elle nécessite un investissement initial. Ces coûts comprennent l'outil de déduplication lui-même, généralement calculé en fonction du nombre d'enregistrements, ainsi que le temps nécessaire au personnel informatique pour concevoir, exécuter et gérer le processus de déduplication.

Cas d'utilisation d'une suppression des doublons de données

Comment fonctionne la déduplication des données dans le monde réel ? En théorie, il s'agit d'un concept simple de data science : éliminez les données en double pour réduire la consommation de ressources et minimiser les erreurs qui se produisent lorsqu'il existe plusieurs versions d'un fichier. Mais différents secteurs, industries et même départements ont des objectifs et des besoins uniques. Voici quelques cas d'usage courants.

Gestion de la relation client : Dans un système CRM, les enregistrements client, les informations de contact et les transactions peuvent être enregistrés à l'aide de plusieurs sources, niveaux de détail et formats. Cela entraîne des données incohérentes, lorsqu'un responsable peut avoir un enregistrement légèrement différent d'un autre. Par exemple, si l'enregistrement d'un point de contact est détenu dans plusieurs référentiels de données et qu'un seul est mis à jour après avoir quitté la société, certains employés continueront probablement à utiliser les informations obsolètes. La déduplication des données peut aider à garantir une source unique d'informations précises sur les clients, permettant à chaque individu et groupe d'utiliser les dernières données pour générer des visualisations ou exécuter des analyses.

Intégration des données : lorsque deux organisations fusionnent, que ce soit par le biais d'une acquisition ou d'un remaniement interne, les données contenues dans différentes instances de la même application peuvent créer des enregistrements en double. Supposons qu'une plus grande entreprise achète un concurrent plus petit avec un chevauchement de 40 % des clients, ce qui se reflète dans ses systèmes ERP. La déduplication peut éliminer cette redondance, libérant de l'espace de stockage tout en veillant à ce que tous les membres de l'organisation nouvellement créée n'utilisent que la dernière version de chaque enregistrement.

Informatique virtuelle : lors de l'utilisation de bureaux virtuels, tels que pour tester des environnements ou un accès virtuel pour des applications spécialisées ou des systèmes internes, la déduplication des données peut augmenter l'efficacité, en particulier avec un volume d'utilisateurs important. Les machines virtuelles contiennent souvent des données très similaires, ce qui en fait de nombreuses versions de fichiers en double. La déduplication des données purge ces doublons afin de garantir que le stockage ne soit pas dépassé par les données générées par les machines virtuelles.

Banque : Au sein d'une institution financière, différents services ou agences peuvent contenir des enregistrements en double d'informations client. Chaque enregistrement en double est un point d'entrée potentiel pour les criminels de voler des identités, d'effectuer des transactions frauduleuses et d'effectuer d'autres activités illégales. Et l'examen et le traitement des données en double pour vérifier la fraude nécessitent plus de ressources. La déduplication des données peut aider à améliorer l'efficacité et la sécurité des banques et des coopératives de crédit.

Il ne s'agit là que d'un échantillon de cas d'utilisation. Toute organisation qui crée un grand nombre de données peut bénéficier de la suppression des doublons.

Eléments à prendre en compte lors du choix d'une technologie de déduplication

De nombreux fournisseurs proposent des outils de déduplication des données, mais lequel convient le mieux à votre entreprise ? Voici les facteurs clés que les équipes doivent prendre en compte lorsqu'elles font une courte liste.

  • Performances : différents types de déduplication nécessitent des ressources différentes. Par exemple, la déduplication au niveau des blocs qui s'exécute à la source sur un réseau étendu consomme des ressources importantes par rapport à la déduplication au niveau des fichiers exécutée sur la cible avec une portée plus limitée.
  • Evolutivité : l'évolutivité et les performances vont souvent de pair car les processus qui réduisent les performances sont difficiles à faire évoluer. Cela s'applique à la déduplication, étant donné que plus le processus consomme de ressources, plus il est difficile d'augmenter au besoin. Les entreprises qui ont des exigences d'évolutivité étendues doivent tenir compte de ces compromis lorsqu'elles choisissent une technologie de déduplication.
  • Intégration : les sources de données déconnectées peuvent compliquer le processus de suppression des doublons. Par exemple, lorsque des bases de données existent de façon cloisonnée, la probabilité de doublons de données est beaucoup plus élevée. Dans d'autres cas, un réseau de grande taille avec plusieurs emplacements distants peut nécessiter un protocole de nettoyage et de transformation plus strict avant la suppression des doublons. Les entreprises doivent évaluer l'état de leur intégration de données lorsqu'elles envisagent d'implémenter la suppression des doublons.
  • Coût : les outils de déduplication varient en fonction de facteurs tels que la complexité et la capacité. Augmentation de la tarification en fonction du volume d'enregistrements traités. Les entreprises doivent créer une estimation budgétaire basée sur les normes de l'industrie et les taux cotés, puis évaluer comment cela est compensé par des économies à long terme.

Éliminez le besoin de déduplication des données avec Oracle HeatWave

La meilleure façon de résoudre les problèmes de déduplication des données est de les minimiser en premier lieu. Oracle HeatWave y contribue en combinant les transactions, les analyses en temps réel dans les entrepôts de données et les data lakes, le machine learning et l'IA générative dans un seul service cloud. Les clients d'HeatWave n'ont pas besoin de dupliquer les données d'une base de données transactionnelle dans une base de données d'analyse distincte pour l'analyse, ce qui présente plusieurs avantages.

  • Il n'est pas nécessaire de stocker les mêmes données dans plusieurs banques de données à des fins différentes.
  • Ils n'ont pas besoin de processus d'extraction, de transformation et de chargement complexes, chronophages, coûteux et sujets aux erreurs pour déplacer des données entre différentes banques de données.
  • Les requêtes d'analyse accèdent toujours aux données les plus récentes, ce qui donne de meilleurs résultats que d'analyser des données qui peuvent être obsolètes au moment où elles sont disponibles dans une base de données d'analyse distincte.
  • Le risque de compromission des données en transit est faible car les données ne sont pas transférées entre les bases de données.
  • HeatWave Lakehouse permet aux utilisateurs d'interroger jusqu'à un demi-pétaoctet de données dans la banque d'objets et de les combiner éventuellement avec des données dans une base de données MySQL. Les clients peuvent interroger les données transactionnelles dans les bases de données MySQL, les données dans différents formats dans le stockage d'objets, ou une combinaison des deux à l'aide des commandes MySQL standard, et sans copier les données du stockage d'objets vers MySQL Database.

Avec le machine learning automatique d'HeatWave intégré, les clients peuvent créer, entraîner et expliquer des modèles de machine learning dans HeatWave, encore une fois sans avoir à dupliquer les données dans un service de machine learning distinct.

HeatWave GenAI fournit une solution de GenAI intégrée, automatisée et sécurisée avec des grands modèles de langage (LLM) dans la base de données, une banque de vecteurs automatisée dans la base de données, un traitement vectoriel évolutif et la possibilité d'avoir des conversations contextuelles en langage naturel, ce qui permet aux clients de tirer parti de la GenAI sans expertise en IA et sans déplacer les données vers une base de données vectorielle distincte.

En éliminant la duplication des données dans plusieurs services cloud pour les transactions, l'analyse, le machine learning et la GenAI, HeatWave permet aux clients de simplifier leurs infrastructures de données, de prendre des décisions plus rapides et plus éclairées, d'augmenter la productivité, d'améliorer la sécurité et de réduire les coûts. En outre, les clients bénéficient des meilleures performances et du meilleur rapport prix-performances pour les workloads d'analyse, comme le démontrent les tests d'évaluation accessibles au public.

L'IA peut aider les DSI à analyser les données pour optimiser les dépenses liées au cloud et à suggérer des ajustements de code à l'architecte pour limiter les sorties. Découvrez comment exploiter la puissance de l'intelligence artificielle pour relever les défis liés aux talents, à la sécurité et bien plus encore.

FAQ sur la déduplication des données

Qu'est-ce qu'un exemple de suppression des doublons ?

Un exemple de suppression des doublons peut provenir de l'exécution de sauvegardes et d'archives basées sur la version des données d'une organisation. Chacune de ces archives contiendra de nombreuses instances des mêmes fichiers intacts. Avec la suppression des doublons, le processus de sauvegarde est rationalisé en créant une nouvelle version d'une archive sans ces fichiers en double. Au lieu de cela, la nouvelle version contient des pointeurs vers la source unique, ce qui lui permet d'exister dans l'archive sans utiliser d'espace de stockage supplémentaire.

Quelle est la raison de la déduplication ?

Les enregistrements en double consomment inutilement de l'espace de stockage. Cet espace de stockage supplémentaire prend plus de ressources, y compris le volume de stockage, la bande passante de transfert et les ressources de calcul, pendant les processus tels que les analyses de logiciels malveillants. La suppression des doublons réduit le volume d'espace de stockage utilisé, réduit l'utilisation globale des ressources, qu'il s'agisse de bande passante ou de capacité de stockage.

Qu'est-ce que la duplicité des données ?

Des doublons peuvent apparaître grâce à la duplicité des données et à la redondance des données. La duplicité des données fait référence aux situations où un utilisateur ajoute un fichier en double au système lui-même. La redondance des données fait référence à des situations où des bases de données avec des fichiers ou des enregistrements qui se chevauchent fusionnent pour créer des doublons.

Quels sont les inconvénients de la déduplication ?

La déduplication peut libérer de l'espace de stockage pour une plus grande efficacité à long terme et des économies. Cependant, le processus réel de déduplication consomme beaucoup de ressources et peut ralentir diverses parties du réseau, notamment les performances de calcul et la bande passante de transfert. Cela signifie que les services informatiques doivent réfléchir stratégiquement à la planification de la déduplication.