Scalable AI is the ability to use machine learning (ML) algorithms or generative AI services to accomplish day-to-day tasks at a pace that keeps up with business demand. It requires that algorithms and generative models have the infrastructure and data volumes they need to operate at the speed and scale required. Beyond that, scalable AI requires data from many parts of the business that’s integrated and complete enough to provide algorithms with the information needed to derive desired results.

What is data deduplication?

Data deduplication is the process of removing identical files or blocks from databases and data storage. This can occur on a file-by-file, block-by-block, or individual byte level or somewhere in between as dictated by an algorithm. Results are often measured by what’s called a “data deduplication ratio.” After deduplication, organizations should have more free space, though just how much varies because some activities and file types are more prone to duplication than others. While IT departments should regularly check for duplicates, the benefits of frequent deduplication also vary widely and depend on several variables.

Why is data deduplication useful?

Data deduplication can help save resources—storage space, compute power, and money. At its most basic, deduplication is about shrinking storage volumes. But when every device produces massive amounts of data and files are constantly shared among departments, the impact of duplicate data has far-reaching consequences; for example, it can slow processes, consume hardware resources, create redundancies, and add confusion when different teams use different redundant files. Deduplication can help take care of all this, which is why many organizations keep it on a regularly scheduled cadence as part of their IT maintenance strategies.

What is an example of deduplication?

An example of deduplication can come from running version-based backups and archives of an organization’s data. Each of these archives will contain many instances of the same untouched files. With deduplication, the backup process is streamlined by creating a new version of an archive without those duplicative files. Instead, the new version contains pointers to the single source, allowing it to exist within the archive without using up additional storage space.

What is the reason for deduplication?

Duplicate records needlessly eat up storage space. That additional storage space winds up taking more resources, including storage volume, transfer bandwidth, and compute resources, during processes such as malware scans. Deduplication reduces the volume of storage space used, shrinking overall resource use, be it bandwidth or storage capacity.

What is data duplicity?

Duplicates can emerge through both data duplicity and data redundancy. Data duplicity refers to situations when a user adds a duplicate file to the system themselves. Data redundancy refers to situations when databases with some overlapping files or records merge to create duplicates.

What are the disadvantages of deduplication?

Deduplication can free up storage space for greater long-term efficiency and cost savings. However, the actual process of deduplication is resource intensive and can slow down various parts of the network, including compute performance and transfer bandwidth. This means IT departments must think strategically about scheduling deduplication.

Menu Entre em Contato Faça login na Oracle Cloud

O que é desduplicação de dados? Métodos e Benefícios

Michael Chen | Estrategista de Conteúdo | 14 de fevereiro de 2024

Neste Artigo

O que é desduplicação de dados?
Desduplicação de Dados Explicada
Por que a deduplicação de dados é útil?
Quando Usar a Deduplicação de Dados
Como funciona a deduplicação de dados
Abordagens de Deduplicação de Dados
Benefícios da Desduplicação de Dados
Desvantagens e preocupações de eliminação de duplicidade de dados
Casos de Uso de Eliminação de Duplicidade de Dados
O que considerar ao escolher uma tecnologia de desduplicação
Perguntas frequentes sobre eliminação de duplicidades de dados

O processo de desduplicação de dados elimina sistematicamente cópias redundantes de dados e arquivos, o que pode ajudar a reduzir os custos de armazenamento e melhorar o controle de versão. Numa época em que cada dispositivo gera dados e organizações inteiras compartilham arquivos, a deduplicação de dados é uma parte vital das operações de TI. É também uma parte fundamental do processo de proteção e continuidade de dados. Quando a desduplicação de dados é aplicada a backups, ela identifica e elimina arquivos e blocos duplicados, armazenando apenas uma instância de cada informação exclusiva. Isso não só pode ajudar a economizar dinheiro, mas também pode ajudar a melhorar os tempos de backup e recuperação, porque menos dados precisam ser enviados pela rede.

O que é desduplicação de dados?

A desduplicação de dados é o processo de remover arquivos ou blocos idênticos de bancos de dados e armazenamento de dados. Isso pode ocorrer em um nível de byte file-by-file, block-by-block, ou em algum lugar no meio, conforme determinado por um algoritmo. Os resultados são frequentemente medidos pelo que é chamado de "taxa de desduplicação de dados". Após a desduplicação, as organizações devem ter mais espaço livre, embora o quanto varie, porque algumas atividades e tipos de arquivos são mais propensos a duplicação do que outros. Embora os departamentos de TI devam verificar regularmente se há duplicatas, os benefícios da desduplicação frequente também variam amplamente e dependem de várias variáveis.

Principais Conclusões

A desduplicação de dados é o processo de verificar e eliminar dados duplicados.
As ferramentas de eliminação de duplicidades oferecem uma variedade de níveis de precisão, de arquivo por arquivo a segmento de arquivo ou deduplicação de bloco.
Quanto mais preciso for um processo de desduplicação, mais poder computacional ele precisará.
Para backups e arquivamento, a deduplicação pode ocorrer antes ou depois da transferência de dados. O primeiro usa menos largura de banda, enquanto o segundo consome mais largura de banda, mas menos recursos locais.

Desduplicação de Dados Explicada

No processo de desduplicação de dados, uma ferramenta verifica volumes de armazenamento em busca de dados duplicados e remove instâncias sinalizadas. Para localizar duplicidades, o sistema compara identificadores exclusivos, ou hashes, anexados a cada dado. Se uma correspondência for encontrada, apenas uma cópia dos dados será armazenada e as duplicatas serão substituídas por referências à cópia original.

O sistema de deduplicação pesquisa em armazenamento local, em ferramentas de gerenciamento, como catálogos de dados e em armazenamentos de dados e verifica dados estruturados e não estruturados. Para entender completamente o que está envolvido, os seguintes termos e definições são fundamentais:

Taxa de desduplicação de dados: Uma métrica usada para medir o sucesso do processo de desduplicação. Essa proporção compara o tamanho do armazenamento de dados original com seu tamanho após a deduplicação. Enquanto uma proporção alta indica um processo eficaz, variáveis como frequência de desduplicação, tipo de dados e outros fatores podem distorcer a proporção final. A tecnologia de virtualização, por exemplo, cria máquinas virtuais que podem ser copiadas e replicadas facilmente, fornecendo várias cópias de dados. Manter algumas cópias é importante para redundância e para se recuperar da perda de dados.
Retenção de dados: O período de tempo em que os dados são mantidos no armazenamento, geralmente definido pela política. Os relatórios financeiros devem ser mantidos por mais tempo do que, digamos, emails. Normalmente, quanto maior o período de retenção, maior a chance de os dados serem duplicados durante backups, transferências ou por meio do uso de máquinas virtuais.
Tipo de dados: O formato dos dados mantidos no armazenamento. Os tipos de dados comuns são executáveis, documentos e arquivos de mídia. A finalidade, a criticidade, a frequência de acesso e outros fatores do arquivo definem se ele é duplicado e por quanto tempo é retido.
Taxa de alteração: Uma métrica que mede a frequência com que um arquivo é atualizado ou alterado. Arquivos com taxas de alteração mais altas são frequentemente duplicados com menos frequência.
Local: os dados do local são armazenados. Arquivos duplicados geralmente resultam dos mesmos arquivos exatos existentes em vários locais, intencionalmente, como com um backup, ou involuntariamente através de um processo de corte e colagem que acidentalmente usou uma operação de cópia e colagem. Em alguns casos, as máquinas virtuais armazenadas em vários locais contêm arquivos duplicados.

Por que a Deduplicação de Dados é Útil?

A desduplicação de dados pode ajudar a economizar recursos, como espaço de armazenamento, poder de computação e dinheiro. Na sua forma mais básica, a deduplicação é sobre a redução dos volumes de armazenamento. Mas quando cada dispositivo produz grandes quantidades de dados e os arquivos são constantemente compartilhados entre os departamentos, o impacto dos dados duplicados tem consequências de longo alcance; por exemplo, pode retardar processos, consumir recursos de hardware, criar redundâncias e adicionar confusão quando diferentes equipes usam diferentes arquivos redundantes. A desduplicação pode ajudar a cuidar de tudo isso, e é por isso que muitas organizações o mantêm em uma cadência regularmente programada como parte de suas estratégias de manutenção de TI.

Quando Usar a Deduplicação de Dados

Como a desduplicação de dados é um processo de gerenciamento de dados que consome muitos recursos, o tempo deve depender de várias variáveis, incluindo o design da rede e quando os funcionários acessam os arquivos. Veja a seguir as situações mais comuns em que a desduplicação de dados é usada:

Servidores de arquivos de uso geral

Os servidores de arquivos de uso geral fornecem armazenamento e serviços para uma ampla variedade de dados, incluindo caches de arquivos e pastas departamentais compartilhadas de funcionários individuais. Como esses tipos de servidores geralmente têm um alto volume de usuários e uma diversidade de funções de usuário, muitos arquivos duplicados tendem a existir. As causas incluem backups de discos rígidos locais, instalações de aplicativos, compartilhamento de arquivos e muito mais.

Implantações de infraestrutura de desktop virtual (VDI)

A tecnologia de infraestrutura de desktop virtual fornece hospedagem e gerenciamento centralizados de desktops virtualizados para acesso remoto. O problema é que os discos rígidos virtuais são muitas vezes idênticos, contendo arquivos duplicados que consomem armazenamento. Além disso, quando um alto volume de usuários inicializa suas máquinas virtuais de uma só vez, como no início do dia de trabalho, a "tempestade de inicialização VDI" resultante pode prejudicar o desempenho de um crawl, se não uma parada. A desduplicação pode ajudar a amenizar isso usando um cache na memória para recursos de aplicativos individuais, conforme são chamados sob demanda.

Sistemas e backups de armazenamento

Os backups criam versões duplicadas de arquivos, por uma boa razão. No entanto, o mesmo arquivo não precisa ser copiado repetidamente em perpetuidade. Em vez disso, a desduplicação de dados garante que haja um arquivo de backup limpo, com outras instâncias em versões de backup mais recentes simplesmente apontando para o arquivo principal. Isso permite redundância e, ao mesmo tempo, otimiza recursos e espaço de armazenamento.

Transferências de dados

As ferramentas de eliminação de duplicidades proporcionam um processo de transferência de dados mais eficiente. Em vez de fazer uma substituição do início ao fim, as ferramentas de desduplicação de dados identificam arquivos em segmentos. Para o processo de transferência de arquivos, as ferramentas verificam os segmentos atualizados e movem os segmentos apenas conforme necessário. Por exemplo, se alguém está recebendo uma nova versão de um arquivo muito grande e a nova versão tem apenas alguns segmentos de código atualizado, o processo de transferência / substituição pode ser concluído rapidamente, gravando apenas nesses segmentos.

Sistemas de arquivamento

Sistemas de arquivamento são frequentemente confundidos com backups, pois ambos são usados para armazenamento de dados de longo prazo. Mas enquanto os sistemas geram backups para fins de recuperação de desastres e preparação, as organizações usam sistemas de arquivamento para preservar dados que não estão mais em uso ativo. Duplicações podem ser geradas ao combinar volumes de armazenamento ou adicionar novos segmentos a um sistema de arquivamento. O processo de desduplicação maximiza a eficiência dos arquivos.

Como Funciona a Desduplicação de Dados

De uma perspectiva geral, as ferramentas de desduplicação de dados comparam arquivos ou blocos de arquivos para identificar impressões digitais duplicadas, também conhecidas como hashes. Se as duplicatas forem confirmadas, elas serão registradas e eliminadas. Aqui está uma visão mais detalhada das etapas específicas do processo.

Fragmentação

A fragmentação refere-se a um processo de deduplicação que divide os arquivos em segmentos, também conhecidos como fragmentos. O tamanho desses segmentos pode ser calculado por algoritmo ou definido por meio de diretrizes estabelecidas. O benefício da fragmentação é que ela permite uma deduplicação mais precisa, embora exija mais recursos de computação.

Hash

Quando os dados são processados por uma ferramenta de desduplicação, um algoritmo de hash atribui um hash a ele. O hash é então verificado para ver se ele já existe no log de dados processados. Se já existir, os dados serão categorizados como duplicados e excluídos para liberar espaço de armazenamento.

Tabelas de referência

Os resultados do processo de eliminação de duplicidades são armazenados em uma tabela de referência que rastreia quais segmentos ou arquivos são removidos e o que eles duplicam. A tabela de referência permite transparência e rastreabilidade, além de fornecer um arquivo abrangente de quais origens um arquivo referencia em um volume de armazenamento.

Abordagens de Deduplicação de Dados

As organizações podem escolher entre várias abordagens de desduplicação de dados com base no que melhor se adapta aos seus orçamentos, largura de banda e necessidades de redundância. Onde processar, quando processar, com que precisão processar – todas essas são variáveis de combinação e correspondência usadas para criar uma solução personalizada para uma organização.

A desduplicação em linha ou pós-processo funciona melhor para suas necessidades? Aqui estão alguns prós e contras de cada um.

Métodos de eliminação de duplicidades

Desduplicação em nível de bloco: as ferramentas de eliminação de duplicidades funcionam no nível de bloco comparando esses segmentos em busca de diferenças nas impressões digitais de bloco e removendo duplicidades. Isso permite uma deduplicação mais precisa, embora o processo seja bastante intensivo em recursos e possa ser difícil de aplicar a grandes volumes de armazenamento físico.
Desduplicação de comprimento variável: A desduplicação de comprimento variável usa um algoritmo para determinar o tamanho dos segmentos de dados em um arquivo e, em seguida, verificar se há duplicatas. Este processo é semelhante à deduplicação em nível de bloco na medida em que oferece boa precisão, mas sem o tamanho fixo de blocos individuais.
Desduplicação no nível do arquivo: Em vez de executar a desduplicação no nível do bloco, as ferramentas procuram detectar duplicatas arquivo por arquivo. Este método não funciona com a mesma granularidade que a desduplicação em nível de bloco, embora o trade-off seja um processo mais rápido e menos intensivo em recursos que pode ser aplicado ao armazenamento de qualquer tamanho.

Pontos de eliminação de duplicidade

Desduplicação de origem: esse método usa o cliente local como o local para a desduplicação. A execução da desduplicação no cliente antes do backup economiza em largura de banda e custos de transmissão, embora ele use os recursos do cliente.
Duplicação de destino: esse método aguarda até que um backup seja transmitido para executar a deduplicação. Neste caso, o trade-off no uso de recursos é o oposto do trade-off para a desduplicação de fonte: coloca menos pressão sobre os clientes, mas coloca uma maior demanda na largura de banda da rede e recursos de destino.

Tempo de eliminação de duplicidades

Desduplicação em linha: quando a deduplicação é executada em linha, os dados são verificados em busca de duplicatas em tempo real à medida que o processo é executado. Esse método usa mais recursos de computação locais, embora liberte espaço de armazenamento significativo.
Desduplicação pós-processamento: A desduplicação pós-processamento executa processos de comparação e eliminação após o envio dos dados para o destino. Este método requer mais espaço de armazenamento no local de destino, mas usa menos recursos locais antes da transmissão.

Benefícios da Desduplicação de Dados

Assim como a edição de um documento remove palavras ou frases repetitivas para tornar o conteúdo mais conciso, a deduplicação simplifica os dados de uma organização, oferecendo possíveis benefícios, como custos de armazenamento mais baixos, menor consumo de largura de banda e maior eficiência de backup.

Economia de armazenamento

Quando há menos arquivos, as organizações usam menos armazenamento. Esse é um dos benefícios mais claros da desduplicação de dados e se estende a outros sistemas. As empresas precisarão de menos espaço para backups e consumirão menos recursos de computação/largura de banda para digitalizar e fazer backup de dados.

Recuperação de desastres

Como a desduplicação de dados reduz a carga de execução de backups, um subproduto-chave é uma recuperação de desastres mais rápida e fácil. Backups menores são criados com mais eficiência, o que significa que menos recursos são necessários para extraí-los para fins de recuperação.

Janelas de backup menores

Com a desduplicação de dados, a pegada dos arquivos de backup diminui, levando a uma menor utilização de recursos durante os processos de backup no espaço de armazenamento, computação e tempo de processo. Tudo isso dá às organizações maior flexibilidade na forma como programam seus backups.

Eficiência da rede

Quanto menos arquivos forem transferidos, menos largura de banda será necessária, o que significa que a transferência usa menos recursos de rede. Assim, a desduplicação de dados pode melhorar a eficiência da rede, reduzindo a demanda em qualquer processo de transferência, incluindo o transporte de backups para arquivamento e recuperação de backups para recuperação de desastres.

Benefícios econômicos

A explosão dos volumes de dados levou a um rápido aumento nos gastos com armazenamento em organizações de todos os tamanhos. A desduplicação pode ajudar a criar economia de custos, reduzindo a quantidade de armazenamento necessária para atividades diárias e backups ou arquivos. A economia de custos secundária vem da redução das demandas de energia, computação e largura de banda e menos recursos humanos necessários para gerenciar e solucionar problemas de arquivos duplicados.

Desvantagens e preocupações de eliminação de duplicidade de dados

A desduplicação de dados é uma ferramenta eficaz para maximizar o uso de recursos e reduzir custos. No entanto, esses benefícios vêm com alguns desafios, muitos relacionados ao poder de computação necessário para a deduplicação granular. As desvantagens e preocupações mais comuns relacionadas à desduplicação de dados incluem o seguinte:

Custo indireto de desempenho

A desduplicação de dados consome muitos recursos, especialmente quando executada no nível do bloco. As equipes de TI precisam ser cuidadosas ao agendar e executar processos de desduplicação, levando em consideração a largura de banda disponível, as atividades e necessidades organizacionais, o local de backup, os prazos e outros fatores com base em seus ambientes exclusivos.

Colisões de hash

Colisões de hash se referem a instâncias quando valores de hash gerados aleatoriamente se sobrepõem. Quando o processo de desduplicação usa uma abordagem de nível de bloco, os hashes são atribuídos a blocos de dados, o que aumenta a possibilidade de colisões de hash que podem corromper dados. Evitar colisões de hash envolve aumentar o tamanho da tabela de hash ou implementar métodos de resolução de colisão, como encadeamento ou endereçamento aberto. O encadeamento envolve o armazenamento de vários elementos com a mesma chave de hash em uma lista vinculada ou outra estrutura de dados, enquanto o endereçamento aberto envolve encontrar um local alternativo na tabela de hash para armazenar o elemento duplicado. Cada método tem vantagens e desvantagens, portanto, as equipes de TI precisam considerar o comprimento e a complexidade do algoritmo de hash em comparação com o uso de soluções alternativas.

Integridade dos dados

Nenhum processo é infalível e, durante o processo de deduplicação, há sempre a possibilidade de excluir ou alterar involuntariamente dados que são, de fato, únicos e importantes. As causas de problemas de integridade incluem colisões de hash; blocos de origem corrompidos; processos interrompidos de eventos inesperados, como falhas de disco, erros manuais ou quedas de energia; um ataque cibernético bem-sucedido; ou erro simples do operador. Embora os problemas de integridade sejam raros, dada a qualidade das ferramentas e protocolos de eliminação de duplicação de dados atuais, eles continuam sendo uma possibilidade e podem causar sérias dores de cabeça.

Metadados adicionados

O processo de desduplicação cria uma nova camada de metadados para logs de alteração e as assinaturas digitais anexadas a cada bloco processado. Isso é chamado de "arquivo de impressão digital". Esses metadados não exigem apenas espaço de armazenamento, mas também podem criar seus próprios problemas de integridade de dados. Se ele se corrompe, por exemplo, então o processo de recuperação se torna significativamente mais desafiador.

Custo de implementação

Embora a desduplicação de dados economize dinheiro a longo prazo por meio de requisitos de espaço reduzidos, ela requer um investimento inicial. Esses custos incluem a própria ferramenta de deduplicação, geralmente precificada com base no número de registros, bem como o tempo necessário para a equipe de TI projetar, executar e gerenciar o processo de deduplicação.

Casos de Uso de Deduplicação de Dados

Como funciona a desduplicação de dados no mundo real? Em teoria, é um conceito simples de ciência de dados: elimine dados duplicados para reduzir o consumo de recursos e minimizar os erros que ocorrem quando há várias versões de um arquivo circulando. Mas diferentes setores, indústrias e até mesmo departamentos têm metas e necessidades únicas. Aqui estão alguns casos de uso comuns.

Gerenciamento de relacionamento com o cliente: dentro de um sistema CRM, registros de clientes, informações de contato e negociações podem ser registrados usando várias fontes, níveis de detalhes e formatos. Isso leva a dados inconsistentes, em que um gerente pode ter um registro ligeiramente diferente do outro; por exemplo, se o registro de um ponto de contato for mantido em vários repositórios de dados e apenas um for atualizado depois que sair da empresa, alguns funcionários provavelmente continuarão usando as informações desatualizadas. A desduplicação de dados pode ajudar a garantir uma única fonte de informações precisas do cliente, permitindo que cada indivíduo e grupo usem os dados mais recentes para gerar visualizações ou executar análises.

Integração de dados: Quando duas organizações se fundem, seja por meio de uma aquisição ou reorganização interna, os dados contidos em diferentes instâncias do mesmo aplicativo podem criar registros duplicados. Digamos que uma empresa maior compre um concorrente menor com uma sobreposição de 40% nos clientes, e isso se reflete em seus sistemas ERP. A desduplicação pode eliminar essa redundância, liberando espaço de armazenamento e, ao mesmo tempo, garantindo que todos dentro da organização recém-formada usem apenas a versão mais recente de cada registro.

Computação virtual: ao usar desktops virtuais, como para testar ambientes ou acesso virtual para aplicativos especializados ou sistemas internos, a desduplicação de dados pode aumentar a eficiência, especialmente com grande volume de usuários. As máquinas virtuais geralmente contêm dados muito semelhantes, o que permite muitas versões duplicadas de arquivos. A desduplicação de dados limpa essas duplicações para ajudar a garantir que o armazenamento não seja invadido pelos dados gerados pelas máquinas virtuais.

Bancos: Em uma instituição financeira, diferentes departamentos ou agências podem conter registros duplicados de informações do cliente. Cada registro duplicado é um ponto de entrada potencial para os criminosos roubarem identidades, realizarem transações fraudulentas e realizarem outras atividades ilegais. E examinar e processar dados duplicados para verificar fraudes requer mais recursos. A desduplicação de dados pode ajudar a melhorar a eficiência e a segurança para bancos e cooperativas de crédito.

Esta é apenas uma amostra de casos de uso. Qualquer organização que crie muitos dados pode se beneficiar da deduplicação.

O que considerar ao escolher uma tecnologia de desduplicação

Vários provedores oferecem ferramentas de eliminação de duplicidades de dados, mas qual é o ideal para sua organização? Aqui estão os principais fatores que as equipes devem considerar ao fazer uma lista curta.

Desempenho: tipos diferentes de eliminação de duplicidades exigem recursos diferentes. Por exemplo, a deduplicação em nível de bloco que é executada na origem em uma rede grande consumirá recursos significativos em comparação com a deduplicação em nível de arquivo executada no destino com um escopo mais limitado.
Escalabilidade: A escalabilidade e o desempenho geralmente andam de mãos dadas porque os processos que diminuem o desempenho são difíceis de dimensionar. Isso se aplica à deduplicação, pois quanto mais intensivo em recursos for o processo, mais difícil será escaloná-lo conforme necessário. Organizações com demandas de escalabilidade abrangentes devem considerar essas compensações ao escolher uma tecnologia de desduplicação.
Integração: Fontes de dados desconectadas podem complicar o processo de desduplicação. Por exemplo, quando existem bancos de dados em silos, a probabilidade de dados duplicados é muito maior. Em outros casos, uma grande rede com vários locais remotos pode exigir um protocolo de limpeza e transformação mais rigoroso antes da desduplicação. As organizações devem avaliar o estado de sua integração de dados ao considerar como implementar a desduplicação.
Custo: As ferramentas de eliminação de duplicidades variam em custo com base em fatores como complexidade e capacidade. O preço aumenta com base no volume de registros processados. As organizações devem criar uma estimativa de orçamento com base nos padrões do setor e nas taxas cotadas e, em seguida, avaliar como isso é compensado por economias de longo prazo.

Elimine a Necessidade de Deduplicação de Dados com a Oracle HeatWave

A melhor maneira de resolver problemas de deduplicação de dados é evitar que eles ocorram. A Oracle HeatWave ajuda com isso, combinando transações, análises em tempo real em data warehouses e data lakes, machine learning e IA generativa em um único serviço de nuvem. Os clientes do HeatWave não precisam duplicar dados de um banco de dados transacional em um banco de dados de análise separado para análise, o que apresenta vários benefícios.

Não há necessidade de armazenar os mesmos dados em vários repositórios de dados para diferentes finalidades.
Eles não precisam de processos complexos, demorados, caros e propensos a erros de extração, transformação e carregamento para mover dados entre armazenamentos de dados.
As consultas de análise sempre acessam os dados mais atualizados, o que gera melhores resultados em comparação com a análise de dados que podem ser desatualizados no momento em que estão disponíveis em um banco de dados de análise separado.
Há pouco risco de os dados serem comprometidos em trânsito, pois os dados não são transferidos entre bancos de dados.
O HeatWave Lakehouse permite que os usuários consultem até meio petabyte de dados no armazenamento de objetos e, opcionalmente, os combinem com dados em um banco de dados MySQL. Os clientes podem consultar dados transacionais em bancos de dados MySQL, dados em vários formatos no armazenamento de objeto ou uma combinação de ambos usando comandos MySQL padrão e sem copiar dados do armazenamento de objeto para o MySQL Database.

Com o HeatWave AutoML integrado, os clientes podem criar, treinar e explicar modelos de machine learning em HeatWave, novamente sem a necessidade de duplicar dados em um serviço de machine learning separado.

O HeatWave GenAI fornece GenAI integrado, automatizado e seguro com grandes modelos de linguagem (LLMs) no banco de dados; um armazenamento de vetores automatizado no banco de dados; processamento de vetores escalável; e a capacidade de ter conversas contextuais em linguagem natural, permitindo que os clientes aproveitem o GenAI sem experiência em IA e sem mover dados para um banco de dados vetorial separado.

Ao eliminar a duplicação de dados em vários serviços de nuvem para transações, análises, machine learning e GenAI, o HeatWave permite que os clientes simplifiquem suas infraestruturas de dados, tomem decisões mais rápidas e informadas, aumentem a produtividade, melhorem a segurança e reduzam custos. Além disso, os clientes obtêm o melhor desempenho e o melhor custo-benefício para cargas de trabalho de análise, conforme demonstrado por benchmarks disponíveis publicamente.

A IA pode ajudar os CIOs a analisar os dados para otimizar os gastos com a nuvem e sugerir melhorias no código para minimizar a necessidade de saída de dados. Aprenda como aproveitar o poder da inteligência artificial agora para lidar com talentos, segurança e outros desafios.

Acesse o ebook

Perguntas frequentes sobre eliminação de duplicidades de dados

O que é um exemplo de desduplicação?

Um exemplo de desduplicação pode vir da execução de backups e arquivos baseados em versão dos dados de uma organização. Cada um desses arquivos conterá muitas instâncias dos mesmos arquivos intocados. Com a desduplicação, o processo de backup é simplificado pela criação de uma nova versão de um arquivo sem esses arquivos duplicados. Em vez disso, a nova versão contém ponteiros para a única origem, permitindo que ela exista dentro do arquivo sem utilizar espaço de armazenamento adicional.

Qual é o motivo da deduplicação?

Registros duplicados desnecessariamente ocupam espaço de armazenamento. Esse espaço de armazenamento adicional acaba consumindo mais recursos, incluindo volume de armazenamento, largura de banda de transferência e recursos de computação, durante processos como varreduras de malware. A desduplicação reduz o volume de espaço de armazenamento usado, diminuindo o uso geral de recursos, seja largura de banda ou capacidade de armazenamento.

O que é duplicidade de dados?

Duplicações podem surgir por meio de duplicidade de dados e redundância de dados. A duplicidade de dados refere-se a situações em que um usuário adiciona um arquivo duplicado ao próprio sistema. A redundância de dados refere-se a situações em que bancos de dados com alguns arquivos ou registros sobrepostos se fundem para criar duplicatas.

Quais são as desvantagens da desduplicação?

A desduplicação pode liberar espaço de armazenamento para maior eficiência a longo prazo e economia de custos. No entanto, o processo real de desduplicação é intensivo em recursos e pode desacelerar várias partes da rede, incluindo desempenho de computação e largura de banda de transferência. Isso significa que os departamentos de TI devem pensar estrategicamente na programação da desduplicação.