Scalable AI is the ability to use machine learning (ML) algorithms or generative AI services to accomplish day-to-day tasks at a pace that keeps up with business demand. It requires that algorithms and generative models have the infrastructure and data volumes they need to operate at the speed and scale required. Beyond that, scalable AI requires data from many parts of the business that’s integrated and complete enough to provide algorithms with the information needed to derive desired results.

What is data deduplication?

Data deduplication is the process of removing identical files or blocks from databases and data storage. This can occur on a file-by-file, block-by-block, or individual byte level or somewhere in between as dictated by an algorithm. Results are often measured by what’s called a “data deduplication ratio.” After deduplication, organizations should have more free space, though just how much varies because some activities and file types are more prone to duplication than others. While IT departments should regularly check for duplicates, the benefits of frequent deduplication also vary widely and depend on several variables.

Why is data deduplication useful?

Data deduplication can help save resources—storage space, compute power, and money. At its most basic, deduplication is about shrinking storage volumes. But when every device produces massive amounts of data and files are constantly shared among departments, the impact of duplicate data has far-reaching consequences; for example, it can slow processes, consume hardware resources, create redundancies, and add confusion when different teams use different redundant files. Deduplication can help take care of all this, which is why many organizations keep it on a regularly scheduled cadence as part of their IT maintenance strategies.

What is an example of deduplication?

An example of deduplication can come from running version-based backups and archives of an organization’s data. Each of these archives will contain many instances of the same untouched files. With deduplication, the backup process is streamlined by creating a new version of an archive without those duplicative files. Instead, the new version contains pointers to the single source, allowing it to exist within the archive without using up additional storage space.

What is the reason for deduplication?

Duplicate records needlessly eat up storage space. That additional storage space winds up taking more resources, including storage volume, transfer bandwidth, and compute resources, during processes such as malware scans. Deduplication reduces the volume of storage space used, shrinking overall resource use, be it bandwidth or storage capacity.

What is data duplicity?

Duplicates can emerge through both data duplicity and data redundancy. Data duplicity refers to situations when a user adds a duplicate file to the system themselves. Data redundancy refers to situations when databases with some overlapping files or records merge to create duplicates.

What are the disadvantages of deduplication?

Deduplication can free up storage space for greater long-term efficiency and cost savings. However, the actual process of deduplication is resource intensive and can slow down various parts of the network, including compute performance and transfer bandwidth. This means IT departments must think strategically about scheduling deduplication.

Menú Comunicarse con nosotros Iniciar sesión en Oracle Cloud

¿Qué es la desduplicación de datos? Métodos y beneficios

Michael Chen | Estrategia de contenido | 14 de febrero de 2024

En este artículo

¿Qué es la desduplicación de datos?
Desduplicación de datos: explicación
¿Por qué es útil la desduplicación de datos?
Cuándo se debe utilizar la desduplicación de datos
Funcionamiento de la desduplicación de datos
Enfoques de desduplicación de datos
Ventajas de la desduplicación de datos
Desventajas y preocupaciones de la desduplicación de datos
Casos de uso de desduplicación de datos
Qué considerar al elegir una tecnología de desduplicación
Preguntas frecuentes sobre la desduplicación de datos

El proceso de desduplicación de datos elimina sistemáticamente las copias redundantes de datos y archivos, lo que puede ayudar a reducir los costos de almacenamiento y mejorar el control de versiones. En una era en la que cada dispositivo genera datos y organizaciones enteras comparten archivos, la desduplicación de datos es una parte vital de las operaciones de TI. También es una parte clave del proceso de protección y continuidad de datos. Cuando se aplica la desduplicación de datos a las copias de seguridad, identifica y elimina los archivos y bloques duplicados, almacenando solo una instancia de cada parte única de información. Esto no solo puede ayudar a ahorrar dinero, sino que también puede ayudar a mejorar los tiempos de copia de seguridad y recuperación, ya que se deben enviar menos datos a través de la red.

¿Qué es la desduplicación de datos?

La desduplicación de datos es el proceso de eliminación de archivos o bloques idénticos de bases de datos y almacenamiento de datos. Esto puede ocurrir en un nivel de archivo por archivo, bloque por bloque o byte individual o en algún lugar intermedio según lo dictado por un algoritmo. Los resultados a menudo se miden por lo que se llama una "ratio de desduplicación de datos". Después de la desduplicación, las organizaciones deben tener más espacio libre, aunque la cantidad varía porque algunas actividades y tipos de archivos son más propensos a la duplicación que otros. Mientras que los departamentos de TI deben comprobar regularmente si hay duplicados, los beneficios de la desduplicación frecuente también varían ampliamente y dependen de varias variables.

Conclusiones clave

La desduplicación de datos es el proceso de búsqueda y eliminación de datos duplicados.
Las herramientas de desduplicación ofrecen un rango de niveles de precisión, desde archivo por archivo hasta segmento de archivo o desduplicación de bloque.
Cuanto más preciso sea un proceso de desduplicación, más potencia de cálculo requiere.
Para las copias de seguridad y el archivado, la desduplicación puede tener lugar antes o después de la transferencia de datos. El primero utiliza menos ancho de banda, mientras que el segundo consume más ancho de banda pero menos recursos locales.

Desduplicación de datos: explicación

En el proceso de desduplicación de datos, una herramienta analiza los volúmenes de almacenamiento en busca de datos duplicados y elimina las instancias marcadas. Para buscar duplicados, el sistema compara identificadores únicos, o hashes, adjuntos a cada dato. Si se encuentra una coincidencia, solo se almacena una copia de los datos y los duplicados se sustituyen por referencias a la copia original.

El sistema de desduplicación busca en el almacenamiento local, en herramientas de gestión como catálogos de datos y en almacenes de datos y escanea datos estructurados y no estructurados. Para entender completamente lo que está involucrado, los siguientes términos y definiciones son clave:

Ratio de desduplicación de datos: métrica utilizada para medir el éxito del proceso de desduplicación. Este ratio compara el tamaño del almacén de datos original con su tamaño tras la desduplicación. Mientras que un ratio alto indica un proceso efectivo, variables como la frecuencia de la desduplicación, el tipo de datos y otros factores pueden sesgar el ratio final. La tecnología de virtualización, por ejemplo, crea máquinas virtuales que se pueden realizar copias de seguridad y replicar fácilmente, proporcionando múltiples copias de datos. Mantener algunas copias es importante para la redundancia y para recuperarse de la pérdida de datos.
Retención de datos: período de tiempo durante el que los datos se mantienen en almacenamiento, normalmente definido por la política. Los informes financieros deben mantenerse más tiempo que, por ejemplo, los correos electrónicos. Normalmente, cuanto más tiempo dure la retención, mayor será la probabilidad de que se dupliquen los datos durante las copias de seguridad, las transferencias o el uso de máquinas virtuales.
Tipo de datos: formato de los datos almacenados. Los tipos de dato típicos son archivos ejecutables, documentos y medios físicos. El propósito, la criticidad, la frecuencia de acceso y otros factores del archivo definen si está duplicado y cuánto tiempo se conserva.
Ratio de cambio: métrica que mide la frecuencia con la que se actualiza o cambia un archivo. Los archivos con tasas de cambio más altas a menudo se duplican con menos frecuencia.
Ubicación: se almacenan los datos del lugar. Los archivos duplicados a menudo provienen de los mismos archivos exactos que existen en múltiples ubicaciones, ya sea intencionalmente, como con una copia de seguridad, o involuntariamente a través de un proceso de corte y pegado que accidentalmente utilizó una operación de copia y pegado. En algunos casos, las máquinas virtuales almacenadas en varias ubicaciones contienen archivos duplicados.

¿Por qué es útil la desduplicación de datos?

La desduplicación de datos puede ayudar a ahorrar recursos: espacio de almacenamiento, potencia de cálculo y dinero. En su forma más básica, la desduplicación consiste en reducir los volúmenes de almacenamiento. Pero cuando cada dispositivo produce cantidades masivas de datos y los archivos se comparten constantemente entre los departamentos, el impacto de los datos duplicados tiene consecuencias de gran alcance; por ejemplo, puede ralentizar los procesos, consumir recursos de hardware, crear redundancias y agregar confusión cuando diferentes equipos utilizan diferentes archivos redundantes. La desduplicación puede ayudar a cuidar todo esto, por lo que muchas organizaciones lo mantienen en una cadencia programada regularmente como parte de sus estrategias de mantenimiento de TI.

Cuándo se debe utilizar la desduplicación de datos

Debido a que la desduplicación de datos es un proceso de gestión de datos que utiliza muchos recursos, el tiempo debe depender de una serie de variables, incluido el diseño de la red y cuándo los empleados acceden a los archivos. Las siguientes son las situaciones más comunes en las que se utiliza la desduplicación de datos:

Servidores de archivos de uso general

Los servidores de archivos de uso general proporcionan almacenamiento y servicios para una amplia variedad de datos, incluidas las cachés de archivos y carpetas departamentales compartidas de los empleados individuales. Debido a que estos tipos de servidores a menudo tienen un gran volumen de usuarios y una diversidad de roles de usuario, muchos archivos duplicados tienden a existir. Las causas incluyen copias de seguridad de discos duros locales, instalaciones de aplicaciones, uso compartido de archivos y más.

Despliegues de infraestructura de escritorio virtual (VDI)

La tecnología de infraestructura de escritorio virtual proporciona alojamiento centralizado y gestión de escritorios virtualizados para el acceso remoto. El problema es que los discos duros virtuales suelen ser idénticos, y contienen archivos duplicados que consumen almacenamiento. Además, cuando un gran volumen de usuarios arrancan sus máquinas virtuales de una sola vez, como al comienzo de la jornada laboral, la consiguiente "tormenta de arranque VDI" puede detener el rendimiento hasta un rastreo, si no una parada. La desduplicación puede ayudar a aliviar esto mediante el uso de una caché en memoria para recursos de aplicaciones individuales a medida que se les llama bajo demanda.

Sistemas de almacenamiento y copias de seguridad

Las copias de seguridad crean versiones duplicadas de archivos, por un buen motivo. Sin embargo, el mismo archivo no necesita ser copiado una y otra vez a perpetuidad. En su lugar, la desduplicación de datos garantiza que haya un archivo de copia de seguridad limpio, y otras instancias en versiones de copia de seguridad más recientes simplemente apuntan al archivo principal. Esto permite la redundancia al tiempo que optimiza los recursos y el espacio de almacenamiento.

Transferencias de datos

Las herramientas de desduplicación permiten un proceso de transferencia de datos más eficiente. En lugar de realizar una sobrescritura de inicio a fin, las herramientas de desduplicación de datos identifican archivos en segmentos. Para el proceso de transferencia de archivos, las herramientas buscan segmentos actualizados y mueven segmentos solo según sea necesario. Por ejemplo, si alguien recibe una nueva versión de un archivo muy grande y la nueva versión tiene solo unos pocos segmentos de código actualizado, el proceso de transferencia/sobreescritura puede completarse rápidamente escribiendo solo en esos segmentos.

Sistemas de archivado

Los sistemas de archivo a menudo se confunden con copias de seguridad, ya que ambos se utilizan para el almacenamiento de datos a largo plazo. Pero si bien los sistemas generan copias de seguridad con fines de recuperación ante desastres y preparación, las organizaciones utilizan sistemas de archivo para preservar los datos que ya no están en uso activo. Se pueden generar duplicados al combinar volúmenes de almacenamiento o agregar nuevos segmentos a un sistema de archivo. El proceso de desduplicación maximiza la eficiencia de los archivos.

Funcionamiento de la desduplicación de datos

Desde una perspectiva de gran imagen, las herramientas de desduplicación de datos comparan archivos o bloques de archivos para identificar huellas digitales duplicadas, también conocidas como hashes. Si se confirman los duplicados, se registran y se eliminan. He aquí un vistazo más de cerca a los pasos específicos en el proceso.

Fragmentación

Fragmentación hace referencia a un proceso de desduplicación que divide los archivos en segmentos, es decir, fragmentos. El tamaño de estos segmentos se puede calcular o definir de forma algorítmica mediante directrices establecidas. La ventaja de la fragmentación es que permite una desduplicación más precisa, aunque requiere más recursos informáticos.

Hashing

Cuando los datos son procesados por una herramienta de desduplicación, un algoritmo hash le asigna un hash. A continuación, se comprueba el hash para ver si ya existe en el log de datos procesados. Si ya existe, los datos se clasifican como duplicados y se suprimen para liberar espacio de almacenamiento.

Tablas de referencia

Los resultados del proceso de desduplicación se almacenan en una tabla de referencia que realiza un seguimiento de los segmentos o archivos que se eliminan y de los que se duplican. La tabla de referencia permite la transparencia y el rastreo, al tiempo que proporciona un archivo completo de los orígenes de un archivo al que se hace referencia en un volumen de almacenamiento.

Enfoques de desduplicación de datos

Las organizaciones pueden elegir entre varios enfoques de desduplicación de datos basados en lo que mejor se adapte a sus presupuestos, ancho de banda y necesidades de redundancia. Dónde procesar, cuándo procesar, qué tan fino es procesar: todas estas son variables de combinación y coincidencia que se utilizan para crear una solución personalizada para una organización.

¿La desduplicación en línea o posterior al proceso funciona mejor para sus necesidades? Aquí puede ver algunos pros y contras de cada uno.

Métodos de desduplicación

Desduplicación de nivel de bloque: las herramientas de desduplicación funcionan en el nivel de bloque mediante la comparación de estos segmentos para detectar diferencias en las huellas dactilares de bloque y la eliminación de duplicados. Esto permite una desduplicación más precisa, aunque el proceso requiere un uso intensivo de los recursos y puede ser difícil de aplicar a grandes volúmenes de almacenamiento físico.
Desduplicación de longitud variable: la desduplicación de longitud variable utiliza un algoritmo para determinar el tamaño de los segmentos de datos en un archivo y, a continuación, comprobar si hay duplicados. Este proceso es similar a la desduplicación a nivel de bloque, ya que ofrece una buena precisión pero sin el tamaño fijo de los bloques individuales.
Desduplicación a nivel de archivo: en lugar de realizar la desduplicación a nivel de bloque, las herramientas buscan detectar duplicados archivo por archivo. Este método no funciona con la misma granularidad que la desduplicación a nivel de bloque, aunque la compensación es un proceso más rápido y con menos recursos que se puede aplicar al almacenamiento de cualquier tamaño.

Puntos de desduplicación

Desduplicación de origen: este método utiliza el cliente local como ubicación para la desduplicación. La realización de la desduplicación en el cliente antes de la copia de seguridad ahorra en ancho de banda y costos de transmisión, aunque utiliza los recursos del cliente.
Desduplicación de destino: este método espera hasta que se transmita una copia de seguridad para realizar la desduplicación. En este caso, la compensación en el uso de recursos es lo contrario de la compensación por la desduplicación de fuentes: ejerce menos presión sobre los clientes, pero impone una mayor demanda en el ancho de banda de la red y los recursos de destino.

Tiempo de desduplicación

Desduplicación en línea: cuando se realiza la desduplicación en línea, los datos se exploran en busca de duplicados en tiempo real a medida que se ejecuta el proceso. Este método utiliza más recursos informáticos locales, aunque libera un espacio de almacenamiento significativo.
Desduplicación posterior al proceso: la desduplicación posterior al proceso ejecuta procesos de comparación y eliminación después de que los datos se envían al destino. Este método requiere más espacio de almacenamiento en la ubicación de destino, pero utiliza menos recursos locales antes de la transmisión.

Ventajas de la desduplicación de datos

Al igual que la edición de un documento elimina palabras o frases repetitivas para que el contenido sea más conciso, la desduplicación agiliza los datos de una organización, ofreciendo posibles beneficios, como menores costos de almacenamiento, menor consumo de ancho de banda y mayor eficiencia de las copias de seguridad.

Ahorro de almacenamiento

Cuando hay menos archivos, las organizaciones utilizan menos almacenamiento. Esa es una de las ventajas más claras de la desduplicación de datos, y se extiende a otros sistemas. Las empresas necesitarán menos espacio para las copias de seguridad y consumirán menos recursos informáticos/de ancho de banda para escanear y realizar copias de seguridad de los datos.

Recuperación ante desastres

Debido a que la desduplicación de datos reduce la carga de ejecutar copias de seguridad, un subproducto clave es una recuperación ante desastres más rápida y sencilla. Las copias de seguridad más pequeñas se crean de manera más eficiente, lo que significa que se necesitan menos recursos para extraerlas con fines de recuperación.

Ventanas de copia de seguridad más pequeñas

Con la desduplicación de datos, la huella de los archivos de copia de seguridad se reduce, lo que lleva a un menor uso de recursos durante los procesos de copia de seguridad en el espacio de almacenamiento, los recursos informáticos y el tiempo de proceso. Todo esto proporciona a las organizaciones una mayor flexibilidad en la forma en que programan sus copias de seguridad.

Eficiencia de red

Cuanto menos archivos se necesitan transferir, menos ancho de banda se necesita, lo que significa que la transferencia utiliza menos recursos de red. Por lo tanto, la desduplicación de datos puede mejorar la eficiencia de la red al reducir la demanda en cualquier proceso de transferencia, incluido el transporte de copias de seguridad para archivar y recuperar copias de seguridad para la recuperación ante desastres.

Beneficios económicos

La expansión de los volúmenes de datos ha llevado a un rápido aumento en el gasto de almacenamiento en organizaciones de todos los tamaños. La desduplicación puede ayudar a crear ahorros de costos al reducir la cantidad de almacenamiento necesaria tanto para las actividades diarias como para las copias de seguridad o los archivos. El ahorro de costos secundario se debe a la reducción de las demandas de energía, recursos informáticos y ancho de banda, y a la reducción de los recursos humanos necesarios para gestionar y solucionar problemas de archivos duplicados.

Desventajas y preocupaciones de la desduplicación de datos

La desduplicación de datos es una herramienta eficaz para maximizar el uso de recursos y reducir los costos. Sin embargo, esos beneficios vienen con algunos desafíos, muchos relacionados con la potencia de cálculo requerida para la desduplicación granular. Los inconvenientes e inquietudes más comunes relacionados con la desduplicación de datos incluyen los siguientes:

Gastos generales de rendimiento

La desduplicación de datos consume muchos recursos, especialmente cuando se realiza en el nivel de bloque. Los equipos de TI deben ser cuidadosos a la hora de programar y ejecutar procesos de desduplicación, teniendo en cuenta el ancho de banda disponible, las actividades y necesidades organizativas, la ubicación de la copia de seguridad, los plazos y otros factores según sus entornos únicos.

Colisiones hash

Las colisiones hash hacen referencia a instancias en las que los valores hash generados aleatoriamente se superponen. Cuando el proceso de desduplicación utiliza un enfoque de nivel de bloque, los hashes se asignan a fragmentos de datos, lo que plantea la posibilidad de colisiones hash que pueden dañar los datos. La prevención de colisiones hash implica aumentar el tamaño de la tabla hash o implementar métodos de resolución de colisiones, como encadenamiento o direccionamiento abierto. El encadenamiento implica almacenar varios elementos con la misma clave hash en una lista enlazada u otra estructura de datos, mientras que el direccionamiento abierto implica encontrar una ubicación alternativa dentro de la tabla hash para almacenar el elemento duplicado. Cada método tiene ventajas y desventajas, por lo que los equipos de TI deben considerar la longitud y complejidad del algoritmo hash frente al uso de soluciones alternativas.

Integridad de datos

Ningún proceso es infalible, y durante el proceso de deducción, siempre existe la posibilidad de eliminar o alterar involuntariamente datos que son, de hecho, únicos e importantes. Las causas de los problemas de integridad incluyen colisiones hash, bloques de origen corruptos, procesos interrumpidos a partir de eventos inesperados, como fallos de disco, errores manuales o cortes de energía, un ciberataque exitoso o un simple error del operador. Si bien los problemas de integridad son raros dada la calidad de las herramientas y protocolos de desduplicación de datos actuales, siguen siendo una posibilidad y pueden causar graves dolores de cabeza.

Metadatos agregados

El proceso de desduplicación crea una nueva capa de metadatos para los logs de cambios y las firmas digitales asociadas a cada bloque procesado. Esto se denomina "archivo de huellas digitales". Estos metadatos no solo requieren espacio de almacenamiento, sino que también pueden crear sus propios problemas de integridad de datos. Si se corrompe, por ejemplo, el proceso de recuperación se vuelve significativamente más difícil.

Costo de implementación

Si bien la desduplicación de datos ahorra dinero a largo plazo a través de requisitos de espacio reducidos, sí requiere una inversión inicial. Estos costos incluyen la propia herramienta de desduplicación, que generalmente se tarifica en función del número de registros, así como el tiempo que el personal de TI necesita para diseñar, ejecutar y gestionar el proceso de desduplicación.

Casos de Uso de Desduplicación de Datos

¿Cómo funciona la desduplicación de datos en el mundo real? En teoría, es un concepto simple de ciencia de datos: elimina los datos duplicados para reducir el consumo de recursos y minimizar los errores que ocurren cuando hay varias versiones de un archivo flotando. Pero diferentes sectores, industrias e incluso departamentos tienen metas y necesidades únicas. Estos son algunos casos de uso comunes.

Gestión de relaciones con los clientes: dentro de un sistema CRM, los registros de clientes, la información de contacto y las operaciones se pueden registrar mediante varios orígenes, niveles de detalle y formatos. Esto conduce a datos incoherentes, donde un gerente puede tener un registro ligeramente diferente que otro; por ejemplo, si el registro de un punto de contacto se mantiene en varios repositorios de datos y solo uno se actualiza después de salir de la compañía, es probable que algunos empleados sigan utilizando la información obsoleta. La desduplicación de datos puede ayudar a garantizar una única fuente de información precisa del cliente, lo que permite a cada individuo y grupo utilizar los datos más recientes para generar visualizaciones o ejecutar análisis.

Integración de datos: cuando dos organizaciones se fusionan, ya sea mediante una adquisición o una reestructuración interna, los datos contenidos en diferentes instancias de la misma aplicación pueden crear registros duplicados. Supongamos que una empresa más grande compra a un competidor más pequeño con una superposición del 40% en los clientes, y eso se refleja en sus sistemas ERP. La desduplicación puede eliminar esta redundancia, liberando espacio de almacenamiento y garantizando al mismo tiempo que todos los miembros de la organización recién formada utilicen solo la última versión de cada registro.

Computación virtual: cuando se utilizan escritorios virtuales, como para entornos de prueba o acceso virtual para aplicaciones especializadas o sistemas internos, la desduplicación de datos puede aumentar la eficiencia, especialmente con un gran volumen de usuarios. Las máquinas virtuales a menudo contienen datos muy similares, lo que hace que muchas versiones duplicadas de archivos. La desduplicación de datos depura estos duplicados para garantizar que el almacenamiento no se sobrecargue con los datos generados por las máquinas virtuales.

Banca: dentro de una institución financiera, diferentes departamentos o sucursales pueden tener registros duplicados de la información del cliente. Cada registro duplicado es un punto de entrada potencial para que los delincuentes roben identidades, realicen transacciones fraudulentas y realicen otras actividades ilegales. Además, examinar y procesar datos duplicados para detectar fraudes requiere más recursos. La desduplicación de datos puede ayudar a mejorar la eficiencia y la seguridad de los bancos y las cooperativas de crédito.

Esto es solo una muestra de casos de uso. Cualquier organización que cree una gran cantidad de datos puede beneficiarse de la desduplicación.

Qué considerar al elegir una tecnología de desduplicación

Numerosos proveedores ofrecen herramientas de desduplicación de datos, pero ¿cuál es el adecuado para su organización? Estos son los factores clave que los equipos deben considerar al hacer una lista corta.

Rendimiento: los diferentes tipos de desduplicación requieren diferentes recursos. Por ejemplo, la desduplicación de nivel de bloque que se ejecuta en el origen en una red grande consumirá recursos significativos en comparación con la desduplicación de nivel de archivo ejecutada en el destino con un ámbito más limitado.
Escalabilidad: la escalabilidad y el rendimiento a menudo van de la mano porque los procesos que eliminan el rendimiento son difíciles de escalar. Esto se aplica a la desduplicación, ya que cuanto más intensivo sea el proceso, más difícil será escalar según sea necesario. Las organizaciones con demandas de escalabilidad de gran alcance deben considerar estas compensaciones cuando eligen una tecnología de desduplicación.
Integración: los orígenes de datos desconectados pueden complicar el proceso de desduplicación. Por ejemplo, cuando las bases de datos existen en silos, la probabilidad de datos duplicados es mucho mayor. En otros casos, una red grande con varias ubicaciones remotas puede requerir un protocolo de limpieza y transformación más estricto antes de la desduplicación. Las organizaciones deben evaluar el estado de su integración de datos al considerar cómo implementar la desduplicación.
Costo: las herramientas de desduplicación varían en costos en función de factores como la complejidad y la capacidad. Los precios aumentan en función del volumen de registros procesados. Las organizaciones deben crear una estimación del presupuesto basada en los estándares de la industria y las tasas cotizadas, y luego evaluar cómo esto se compensa con los ahorros a largo plazo.

Elimine la necesidad de desduplicación de datos con Oracle HeatWave

La mejor manera de resolver los problemas de desduplicación de datos es minimizarlos en primer lugar. Oracle HeatWave ayuda con eso al combinar transacciones, análisis en tiempo real en almacenes de datos y lagos de datos, aprendizaje automático e IA generativa en un solo servicio en la nube. Los clientes de HeatWave no necesitan duplicar datos de una base de datos transaccional en una base de datos de análisis independiente para el análisis, lo que presenta varias ventajas.

No es necesario almacenar los mismos datos en varios almacenes de datos para distintos fines.
No necesitan procesos de extracción, transformación y carga complejos, laboriosos, costosos y propensos a errores para mover datos entre almacenes de datos.
Las consultas de análisis siempre acceden a los datos más actualizados, lo que produce mejores resultados en lugar de analizar datos que pueden estar obsoletos en el momento en que están disponibles en una base de datos de análisis independiente.
Hay poco riesgo de que los datos se vean comprometidos en tránsito, ya que los datos no se transfieren entre bases de datos.
HeatWave Lakehouse permite a los usuarios consultar hasta medio petabyte de datos en el almacén de objetos y, opcionalmente, combinarlo con datos en una base de datos MySQL. Los clientes pueden consultar datos transaccionales en base de datos MySQL, datos en varios formatos en el almacenamiento de objeto o una combinación de ambos mediante comandos MySQL estándar, y sin copiar datos de Object Storage a MySQL Database.

Con el HeatWave AutoML integrado, los clientes pueden crear, entrenar y explicar modelos de aprendizaje automático en HeatWave, de nuevo sin necesidad de duplicar datos en un servicio de aprendizaje automático independiente.

HeatWave GenAI proporciona GenAI integrado, automatizado y automatizado con modelos de lenguaje grande (LLM) en base de Datos; un almacén de vectores automatizado en base de Datos; procesamiento de vectores a escala horizontal; y la capacidad de tener conversaciones contextuales en lenguaje natural; lo que permite a los clientes aprovechar GenAI sin experiencia en IA y sin mover datos a una base de Datos vectorial independiente.

Al eliminar la duplicación de datos en varios servicios en la nube para transacciones, análisis, aprendizaje automático y GenAI, HeatWave permite a los clientes simplificar sus infraestructuras de datos, tomar decisiones más rápidas y más informadas, aumentar la productividad, mejorar la seguridad y reducir los costos. Además, los clientes obtienen el mejor rendimiento y relación precio-rendimiento para las cargas de trabajo de análisis, como lo demuestran las referencias disponibles públicamente.

La IA puede ayudar a los CIO a analizar datos para optimizar el gasto en la nube y sugerir ajustes de código para minimizar la salida de datos. Aprende a aprovechar ahora el poder de la inteligencia artificial para abordar los retos relacionados con el talento, la seguridad y otros.

Acceder al ebook

Preguntas frecuentes sobre la desduplicación de datos

¿Cuál es un ejemplo de desduplicación?

Un ejemplo de desduplicación puede provenir de la ejecución de copias de seguridad basadas en versiones y archivos de datos de una organización. Cada uno de estos archivos contendrá muchas instancias de los mismos archivos intactos. Con la desduplicación, el proceso de copia de seguridad se simplifica mediante la creación de una nueva versión de un archivo sin esos archivos duplicados. En su lugar, la nueva versión contiene indicadores a la única fuente, lo que permite que exista dentro del archivo sin usar espacio de almacenamiento adicional.

¿Cuál es el motivo de la desduplicación?

Los registros duplicados consumen innecesariamente espacio de almacenamiento. Ese espacio de almacenamiento adicional termina por tomar más recursos, incluidos el volumen de almacenamiento, el ancho de banda de transferencia y los recursos informáticos, durante procesos como los análisis de malware. La desduplicación reduce el volumen de espacio de almacenamiento utilizado, reduciendo el uso general de recursos, ya sea el ancho de banda o la capacidad de almacenamiento.

¿Qué es la duplicidad de datos?

Los duplicados pueden surgir a través de la duplicidad y la redundancia de datos. La duplicidad de datos hace referencia a situaciones en las que un usuario agrega un archivo duplicado al propio sistema. La redundancia de datos hace referencia a situaciones en las que las bases de datos con algunos archivos o registros solapados se fusionan para crear duplicados.

¿Cuáles son las desventajas de la desduplicación?

La desduplicación puede liberar espacio de almacenamiento para una mayor eficiencia a largo plazo y ahorro de costos. Sin embargo, el proceso real de desduplicación requiere muchos recursos y puede ralentizar varias partes de la red, incluido el rendimiento informático y el ancho de banda de transferencia. Esto significa que los departamentos de TI deben pensar estratégicamente en programar la desduplicación.