Michael Chen | Estrategia de contenido | 14 de febrero de 2024
El proceso de desduplicación de datos elimina sistemáticamente las copias redundantes de datos y archivos, lo que puede ayudar a reducir los costos de almacenamiento y mejorar el control de versiones. En una era en la que cada dispositivo genera datos y organizaciones enteras comparten archivos, la desduplicación de datos es una parte vital de las operaciones de TI. También es una parte clave del proceso de protección y continuidad de datos. Cuando se aplica la desduplicación de datos a las copias de seguridad, identifica y elimina los archivos y bloques duplicados, almacenando solo una instancia de cada parte única de información. Esto no solo puede ayudar a ahorrar dinero, sino que también puede ayudar a mejorar los tiempos de copia de seguridad y recuperación, ya que se deben enviar menos datos a través de la red.
La desduplicación de datos es el proceso de eliminación de archivos o bloques idénticos de bases de datos y almacenamiento de datos. Esto puede ocurrir en un nivel de archivo por archivo, bloque por bloque o byte individual o en algún lugar intermedio según lo dictado por un algoritmo. Los resultados a menudo se miden por lo que se llama una "ratio de desduplicación de datos". Después de la desduplicación, las organizaciones deben tener más espacio libre, aunque la cantidad varía porque algunas actividades y tipos de archivos son más propensos a la duplicación que otros. Mientras que los departamentos de TI deben comprobar regularmente si hay duplicados, los beneficios de la desduplicación frecuente también varían ampliamente y dependen de varias variables.
Conclusiones clave
En el proceso de desduplicación de datos, una herramienta analiza los volúmenes de almacenamiento en busca de datos duplicados y elimina las instancias marcadas. Para buscar duplicados, el sistema compara identificadores únicos, o hashes, adjuntos a cada dato. Si se encuentra una coincidencia, solo se almacena una copia de los datos y los duplicados se sustituyen por referencias a la copia original.
El sistema de desduplicación busca en el almacenamiento local, en herramientas de gestión como catálogos de datos y en almacenes de datos y escanea datos estructurados y no estructurados. Para entender completamente lo que está involucrado, los siguientes términos y definiciones son clave:
La desduplicación de datos puede ayudar a ahorrar recursos: espacio de almacenamiento, potencia de cálculo y dinero. En su forma más básica, la desduplicación consiste en reducir los volúmenes de almacenamiento. Pero cuando cada dispositivo produce cantidades masivas de datos y los archivos se comparten constantemente entre los departamentos, el impacto de los datos duplicados tiene consecuencias de gran alcance; por ejemplo, puede ralentizar los procesos, consumir recursos de hardware, crear redundancias y agregar confusión cuando diferentes equipos utilizan diferentes archivos redundantes. La desduplicación puede ayudar a cuidar todo esto, por lo que muchas organizaciones lo mantienen en una cadencia programada regularmente como parte de sus estrategias de mantenimiento de TI.
Debido a que la desduplicación de datos es un proceso de gestión de datos que utiliza muchos recursos, el tiempo debe depender de una serie de variables, incluido el diseño de la red y cuándo los empleados acceden a los archivos. Las siguientes son las situaciones más comunes en las que se utiliza la desduplicación de datos:
Los servidores de archivos de uso general proporcionan almacenamiento y servicios para una amplia variedad de datos, incluidas las cachés de archivos y carpetas departamentales compartidas de los empleados individuales. Debido a que estos tipos de servidores a menudo tienen un gran volumen de usuarios y una diversidad de roles de usuario, muchos archivos duplicados tienden a existir. Las causas incluyen copias de seguridad de discos duros locales, instalaciones de aplicaciones, uso compartido de archivos y más.
La tecnología de infraestructura de escritorio virtual proporciona alojamiento centralizado y gestión de escritorios virtualizados para el acceso remoto. El problema es que los discos duros virtuales suelen ser idénticos, y contienen archivos duplicados que consumen almacenamiento. Además, cuando un gran volumen de usuarios arrancan sus máquinas virtuales de una sola vez, como al comienzo de la jornada laboral, la consiguiente "tormenta de arranque VDI" puede detener el rendimiento hasta un rastreo, si no una parada. La desduplicación puede ayudar a aliviar esto mediante el uso de una caché en memoria para recursos de aplicaciones individuales a medida que se les llama bajo demanda.
Las copias de seguridad crean versiones duplicadas de archivos, por un buen motivo. Sin embargo, el mismo archivo no necesita ser copiado una y otra vez a perpetuidad. En su lugar, la desduplicación de datos garantiza que haya un archivo de copia de seguridad limpio, y otras instancias en versiones de copia de seguridad más recientes simplemente apuntan al archivo principal. Esto permite la redundancia al tiempo que optimiza los recursos y el espacio de almacenamiento.
Las herramientas de desduplicación permiten un proceso de transferencia de datos más eficiente. En lugar de realizar una sobrescritura de inicio a fin, las herramientas de desduplicación de datos identifican archivos en segmentos. Para el proceso de transferencia de archivos, las herramientas buscan segmentos actualizados y mueven segmentos solo según sea necesario. Por ejemplo, si alguien recibe una nueva versión de un archivo muy grande y la nueva versión tiene solo unos pocos segmentos de código actualizado, el proceso de transferencia/sobreescritura puede completarse rápidamente escribiendo solo en esos segmentos.
Los sistemas de archivo a menudo se confunden con copias de seguridad, ya que ambos se utilizan para el almacenamiento de datos a largo plazo. Pero si bien los sistemas generan copias de seguridad con fines de recuperación ante desastres y preparación, las organizaciones utilizan sistemas de archivo para preservar los datos que ya no están en uso activo. Se pueden generar duplicados al combinar volúmenes de almacenamiento o agregar nuevos segmentos a un sistema de archivo. El proceso de desduplicación maximiza la eficiencia de los archivos.
Desde una perspectiva de gran imagen, las herramientas de desduplicación de datos comparan archivos o bloques de archivos para identificar huellas digitales duplicadas, también conocidas como hashes. Si se confirman los duplicados, se registran y se eliminan. He aquí un vistazo más de cerca a los pasos específicos en el proceso.
Fragmentación hace referencia a un proceso de desduplicación que divide los archivos en segmentos, es decir, fragmentos. El tamaño de estos segmentos se puede calcular o definir de forma algorítmica mediante directrices establecidas. La ventaja de la fragmentación es que permite una desduplicación más precisa, aunque requiere más recursos informáticos.
Cuando los datos son procesados por una herramienta de desduplicación, un algoritmo hash le asigna un hash. A continuación, se comprueba el hash para ver si ya existe en el log de datos procesados. Si ya existe, los datos se clasifican como duplicados y se suprimen para liberar espacio de almacenamiento.
Los resultados del proceso de desduplicación se almacenan en una tabla de referencia que realiza un seguimiento de los segmentos o archivos que se eliminan y de los que se duplican. La tabla de referencia permite la transparencia y el rastreo, al tiempo que proporciona un archivo completo de los orígenes de un archivo al que se hace referencia en un volumen de almacenamiento.
Las organizaciones pueden elegir entre varios enfoques de desduplicación de datos basados en lo que mejor se adapte a sus presupuestos, ancho de banda y necesidades de redundancia. Dónde procesar, cuándo procesar, qué tan fino es procesar: todas estas son variables de combinación y coincidencia que se utilizan para crear una solución personalizada para una organización.
En línea frente a. Diagrama de desduplicación posterior al proceso:
Desduplicación en línea:
Desduplicación posterior al proceso
Al igual que la edición de un documento elimina palabras o frases repetitivas para que el contenido sea más conciso, la desduplicación agiliza los datos de una organización, ofreciendo posibles beneficios, como menores costos de almacenamiento, menor consumo de ancho de banda y mayor eficiencia de las copias de seguridad.
Cuando hay menos archivos, las organizaciones utilizan menos almacenamiento. Esa es una de las ventajas más claras de la desduplicación de datos, y se extiende a otros sistemas. Las empresas necesitarán menos espacio para las copias de seguridad y consumirán menos recursos informáticos/de ancho de banda para escanear y realizar copias de seguridad de los datos.
Debido a que la desduplicación de datos reduce la carga de ejecutar copias de seguridad, un subproducto clave es una recuperación ante desastres más rápida y sencilla. Las copias de seguridad más pequeñas se crean de manera más eficiente, lo que significa que se necesitan menos recursos para extraerlas con fines de recuperación.
Con la desduplicación de datos, la huella de los archivos de copia de seguridad se reduce, lo que lleva a un menor uso de recursos durante los procesos de copia de seguridad en el espacio de almacenamiento, los recursos informáticos y el tiempo de proceso. Todo esto proporciona a las organizaciones una mayor flexibilidad en la forma en que programan sus copias de seguridad.
Cuanto menos archivos se necesitan transferir, menos ancho de banda se necesita, lo que significa que la transferencia utiliza menos recursos de red. Por lo tanto, la desduplicación de datos puede mejorar la eficiencia de la red al reducir la demanda en cualquier proceso de transferencia, incluido el transporte de copias de seguridad para archivar y recuperar copias de seguridad para la recuperación ante desastres.
La expansión de los volúmenes de datos ha llevado a un rápido aumento en el gasto de almacenamiento en organizaciones de todos los tamaños. La desduplicación puede ayudar a crear ahorros de costos al reducir la cantidad de almacenamiento necesaria tanto para las actividades diarias como para las copias de seguridad o los archivos. El ahorro de costos secundario se debe a la reducción de las demandas de energía, recursos informáticos y ancho de banda, y a la reducción de los recursos humanos necesarios para gestionar y solucionar problemas de archivos duplicados.
La desduplicación de datos es una herramienta eficaz para maximizar el uso de recursos y reducir los costos. Sin embargo, esos beneficios vienen con algunos desafíos, muchos relacionados con la potencia de cálculo requerida para la desduplicación granular. Los inconvenientes e inquietudes más comunes relacionados con la desduplicación de datos incluyen los siguientes:
La desduplicación de datos consume muchos recursos, especialmente cuando se realiza en el nivel de bloque. Los equipos de TI deben ser cuidadosos a la hora de programar y ejecutar procesos de desduplicación, teniendo en cuenta el ancho de banda disponible, las actividades y necesidades organizativas, la ubicación de la copia de seguridad, los plazos y otros factores según sus entornos únicos.
Las colisiones hash hacen referencia a instancias en las que los valores hash generados aleatoriamente se superponen. Cuando el proceso de desduplicación utiliza un enfoque de nivel de bloque, los hashes se asignan a fragmentos de datos, lo que plantea la posibilidad de colisiones hash que pueden dañar los datos. La prevención de colisiones hash implica aumentar el tamaño de la tabla hash o implementar métodos de resolución de colisiones, como encadenamiento o direccionamiento abierto. El encadenamiento implica almacenar varios elementos con la misma clave hash en una lista enlazada u otra estructura de datos, mientras que el direccionamiento abierto implica encontrar una ubicación alternativa dentro de la tabla hash para almacenar el elemento duplicado. Cada método tiene ventajas y desventajas, por lo que los equipos de TI deben considerar la longitud y complejidad del algoritmo hash frente al uso de soluciones alternativas.
Ningún proceso es infalible, y durante el proceso de deducción, siempre existe la posibilidad de eliminar o alterar involuntariamente datos que son, de hecho, únicos e importantes. Las causas de los problemas de integridad incluyen colisiones hash, bloques de origen corruptos, procesos interrumpidos a partir de eventos inesperados, como fallos de disco, errores manuales o cortes de energía, un ciberataque exitoso o un simple error del operador. Si bien los problemas de integridad son raros dada la calidad de las herramientas y protocolos de desduplicación de datos actuales, siguen siendo una posibilidad y pueden causar graves dolores de cabeza.
El proceso de desduplicación crea una nueva capa de metadatos para los logs de cambios y las firmas digitales asociadas a cada bloque procesado. Esto se denomina "archivo de huellas digitales". Estos metadatos no solo requieren espacio de almacenamiento, sino que también pueden crear sus propios problemas de integridad de datos. Si se corrompe, por ejemplo, el proceso de recuperación se vuelve significativamente más difícil.
Si bien la desduplicación de datos ahorra dinero a largo plazo a través de requisitos de espacio reducidos, sí requiere una inversión inicial. Estos costos incluyen la propia herramienta de desduplicación, que generalmente se tarifica en función del número de registros, así como el tiempo que el personal de TI necesita para diseñar, ejecutar y gestionar el proceso de desduplicación.
¿Cómo funciona la desduplicación de datos en el mundo real? En teoría, es un concepto simple de ciencia de datos: elimina los datos duplicados para reducir el consumo de recursos y minimizar los errores que ocurren cuando hay varias versiones de un archivo flotando. Pero diferentes sectores, industrias e incluso departamentos tienen metas y necesidades únicas. Estos son algunos casos de uso comunes.
Gestión de relaciones con los clientes: dentro de un sistema CRM, los registros de clientes, la información de contacto y las operaciones se pueden registrar mediante varios orígenes, niveles de detalle y formatos. Esto conduce a datos incoherentes, donde un gerente puede tener un registro ligeramente diferente que otro; por ejemplo, si el registro de un punto de contacto se mantiene en varios repositorios de datos y solo uno se actualiza después de salir de la compañía, es probable que algunos empleados sigan utilizando la información obsoleta. La desduplicación de datos puede ayudar a garantizar una única fuente de información precisa del cliente, lo que permite a cada individuo y grupo utilizar los datos más recientes para generar visualizaciones o ejecutar análisis.
Integración de datos: cuando dos organizaciones se fusionan, ya sea mediante una adquisición o una reestructuración interna, los datos contenidos en diferentes instancias de la misma aplicación pueden crear registros duplicados. Supongamos que una empresa más grande compra a un competidor más pequeño con una superposición del 40% en los clientes, y eso se refleja en sus sistemas ERP. La desduplicación puede eliminar esta redundancia, liberando espacio de almacenamiento y garantizando al mismo tiempo que todos los miembros de la organización recién formada utilicen solo la última versión de cada registro.
Computación virtual: cuando se utilizan escritorios virtuales, como para entornos de prueba o acceso virtual para aplicaciones especializadas o sistemas internos, la desduplicación de datos puede aumentar la eficiencia, especialmente con un gran volumen de usuarios. Las máquinas virtuales a menudo contienen datos muy similares, lo que hace que muchas versiones duplicadas de archivos. La desduplicación de datos depura estos duplicados para garantizar que el almacenamiento no se sobrecargue con los datos generados por las máquinas virtuales.
Banca: dentro de una institución financiera, diferentes departamentos o sucursales pueden tener registros duplicados de la información del cliente. Cada registro duplicado es un punto de entrada potencial para que los delincuentes roben identidades, realicen transacciones fraudulentas y realicen otras actividades ilegales. Además, examinar y procesar datos duplicados para detectar fraudes requiere más recursos. La desduplicación de datos puede ayudar a mejorar la eficiencia y la seguridad de los bancos y las cooperativas de crédito.
Esto es solo una muestra de casos de uso. Cualquier organización que cree una gran cantidad de datos puede beneficiarse de la desduplicación.
Numerosos proveedores ofrecen herramientas de desduplicación de datos, pero ¿cuál es el adecuado para su organización? Estos son los factores clave que los equipos deben considerar al hacer una lista corta.
La mejor manera de resolver los problemas de desduplicación de datos es minimizarlos en primer lugar. Oracle HeatWave ayuda con eso al combinar transacciones, análisis en tiempo real en almacenes de datos y lagos de datos, aprendizaje automático e IA generativa en un solo servicio en la nube. Los clientes de HeatWave no necesitan duplicar datos de una base de datos transaccional en una base de datos de análisis independiente para el análisis, lo que presenta varias ventajas.
Con el HeatWave AutoML integrado, los clientes pueden crear, entrenar y explicar modelos de aprendizaje automático en HeatWave, de nuevo sin necesidad de duplicar datos en un servicio de aprendizaje automático independiente.
HeatWave GenAI proporciona GenAI integrado, automatizado y automatizado con modelos de lenguaje grande (LLM) en base de Datos; un almacén de vectores automatizado en base de Datos; procesamiento de vectores a escala horizontal; y la capacidad de tener conversaciones contextuales en lenguaje natural; lo que permite a los clientes aprovechar GenAI sin experiencia en IA y sin mover datos a una base de Datos vectorial independiente.
Al eliminar la duplicación de datos en varios servicios en la nube para transacciones, análisis, aprendizaje automático y GenAI, HeatWave permite a los clientes simplificar sus infraestructuras de datos, tomar decisiones más rápidas y más informadas, aumentar la productividad, mejorar la seguridad y reducir los costos. Además, los clientes obtienen el mejor rendimiento y relación precio-rendimiento para las cargas de trabajo de análisis, como lo demuestran las referencias disponibles públicamente.
La IA puede ayudar a los CIO a analizar datos para optimizar el gasto en la nube y sugerir ajustes de código para minimizar la salida de datos. Aprende a aprovechar ahora el poder de la inteligencia artificial para abordar los retos relacionados con el talento, la seguridad y otros.
Un ejemplo de desduplicación puede provenir de la ejecución de copias de seguridad basadas en versiones y archivos de datos de una organización. Cada uno de estos archivos contendrá muchas instancias de los mismos archivos intactos. Con la desduplicación, el proceso de copia de seguridad se simplifica mediante la creación de una nueva versión de un archivo sin esos archivos duplicados. En su lugar, la nueva versión contiene indicadores a la única fuente, lo que permite que exista dentro del archivo sin usar espacio de almacenamiento adicional.
Los registros duplicados consumen innecesariamente espacio de almacenamiento. Ese espacio de almacenamiento adicional termina por tomar más recursos, incluidos el volumen de almacenamiento, el ancho de banda de transferencia y los recursos informáticos, durante procesos como los análisis de malware. La desduplicación reduce el volumen de espacio de almacenamiento utilizado, reduciendo el uso general de recursos, ya sea el ancho de banda o la capacidad de almacenamiento.
Los duplicados pueden surgir a través de la duplicidad y la redundancia de datos. La duplicidad de datos hace referencia a situaciones en las que un usuario agrega un archivo duplicado al propio sistema. La redundancia de datos hace referencia a situaciones en las que las bases de datos con algunos archivos o registros solapados se fusionan para crear duplicados.
La desduplicación puede liberar espacio de almacenamiento para una mayor eficiencia a largo plazo y ahorro de costos. Sin embargo, el proceso real de desduplicación requiere muchos recursos y puede ralentizar varias partes de la red, incluido el rendimiento informático y el ancho de banda de transferencia. Esto significa que los departamentos de TI deben pensar estratégicamente en programar la desduplicación.