Michael Chen | Estrategista de Conteúdo | 14 de fevereiro de 2024
O processo de desduplicação de dados elimina sistematicamente cópias redundantes de dados e arquivos, o que pode ajudar a reduzir os custos de armazenamento e melhorar o controle de versão. Numa época em que cada dispositivo gera dados e organizações inteiras compartilham arquivos, a deduplicação de dados é uma parte vital das operações de TI. É também uma parte fundamental do processo de proteção e continuidade de dados. Quando a desduplicação de dados é aplicada a backups, ela identifica e elimina arquivos e blocos duplicados, armazenando apenas uma instância de cada informação exclusiva. Isso não só pode ajudar a economizar dinheiro, mas também pode ajudar a melhorar os tempos de backup e recuperação, porque menos dados precisam ser enviados pela rede.
A desduplicação de dados é o processo de remover arquivos ou blocos idênticos de bancos de dados e armazenamento de dados. Isso pode ocorrer em um nível de byte file-by-file, block-by-block, ou em algum lugar no meio, conforme determinado por um algoritmo. Os resultados são frequentemente medidos pelo que é chamado de "taxa de desduplicação de dados". Após a desduplicação, as organizações devem ter mais espaço livre, embora o quanto varie, porque algumas atividades e tipos de arquivos são mais propensos a duplicação do que outros. Embora os departamentos de TI devam verificar regularmente se há duplicatas, os benefícios da desduplicação frequente também variam amplamente e dependem de várias variáveis.
Principais Conclusões
No processo de desduplicação de dados, uma ferramenta verifica volumes de armazenamento em busca de dados duplicados e remove instâncias sinalizadas. Para localizar duplicidades, o sistema compara identificadores exclusivos, ou hashes, anexados a cada dado. Se uma correspondência for encontrada, apenas uma cópia dos dados será armazenada e as duplicatas serão substituídas por referências à cópia original.
O sistema de deduplicação pesquisa em armazenamento local, em ferramentas de gerenciamento, como catálogos de dados e em armazenamentos de dados e verifica dados estruturados e não estruturados. Para entender completamente o que está envolvido, os seguintes termos e definições são fundamentais:
A desduplicação de dados pode ajudar a economizar recursos, como espaço de armazenamento, poder de computação e dinheiro. Na sua forma mais básica, a deduplicação é sobre a redução dos volumes de armazenamento. Mas quando cada dispositivo produz grandes quantidades de dados e os arquivos são constantemente compartilhados entre os departamentos, o impacto dos dados duplicados tem consequências de longo alcance; por exemplo, pode retardar processos, consumir recursos de hardware, criar redundâncias e adicionar confusão quando diferentes equipes usam diferentes arquivos redundantes. A desduplicação pode ajudar a cuidar de tudo isso, e é por isso que muitas organizações o mantêm em uma cadência regularmente programada como parte de suas estratégias de manutenção de TI.
Como a desduplicação de dados é um processo de gerenciamento de dados que consome muitos recursos, o tempo deve depender de várias variáveis, incluindo o design da rede e quando os funcionários acessam os arquivos. Veja a seguir as situações mais comuns em que a desduplicação de dados é usada:
Os servidores de arquivos de uso geral fornecem armazenamento e serviços para uma ampla variedade de dados, incluindo caches de arquivos e pastas departamentais compartilhadas de funcionários individuais. Como esses tipos de servidores geralmente têm um alto volume de usuários e uma diversidade de funções de usuário, muitos arquivos duplicados tendem a existir. As causas incluem backups de discos rígidos locais, instalações de aplicativos, compartilhamento de arquivos e muito mais.
A tecnologia de infraestrutura de desktop virtual fornece hospedagem e gerenciamento centralizados de desktops virtualizados para acesso remoto. O problema é que os discos rígidos virtuais são muitas vezes idênticos, contendo arquivos duplicados que consomem armazenamento. Além disso, quando um alto volume de usuários inicializa suas máquinas virtuais de uma só vez, como no início do dia de trabalho, a "tempestade de inicialização VDI" resultante pode prejudicar o desempenho de um crawl, se não uma parada. A desduplicação pode ajudar a amenizar isso usando um cache na memória para recursos de aplicativos individuais, conforme são chamados sob demanda.
Os backups criam versões duplicadas de arquivos, por uma boa razão. No entanto, o mesmo arquivo não precisa ser copiado repetidamente em perpetuidade. Em vez disso, a desduplicação de dados garante que haja um arquivo de backup limpo, com outras instâncias em versões de backup mais recentes simplesmente apontando para o arquivo principal. Isso permite redundância e, ao mesmo tempo, otimiza recursos e espaço de armazenamento.
As ferramentas de eliminação de duplicidades proporcionam um processo de transferência de dados mais eficiente. Em vez de fazer uma substituição do início ao fim, as ferramentas de desduplicação de dados identificam arquivos em segmentos. Para o processo de transferência de arquivos, as ferramentas verificam os segmentos atualizados e movem os segmentos apenas conforme necessário. Por exemplo, se alguém está recebendo uma nova versão de um arquivo muito grande e a nova versão tem apenas alguns segmentos de código atualizado, o processo de transferência / substituição pode ser concluído rapidamente, gravando apenas nesses segmentos.
Sistemas de arquivamento são frequentemente confundidos com backups, pois ambos são usados para armazenamento de dados de longo prazo. Mas enquanto os sistemas geram backups para fins de recuperação de desastres e preparação, as organizações usam sistemas de arquivamento para preservar dados que não estão mais em uso ativo. Duplicações podem ser geradas ao combinar volumes de armazenamento ou adicionar novos segmentos a um sistema de arquivamento. O processo de desduplicação maximiza a eficiência dos arquivos.
De uma perspectiva geral, as ferramentas de desduplicação de dados comparam arquivos ou blocos de arquivos para identificar impressões digitais duplicadas, também conhecidas como hashes. Se as duplicatas forem confirmadas, elas serão registradas e eliminadas. Aqui está uma visão mais detalhada das etapas específicas do processo.
A fragmentação refere-se a um processo de deduplicação que divide os arquivos em segmentos, também conhecidos como fragmentos. O tamanho desses segmentos pode ser calculado por algoritmo ou definido por meio de diretrizes estabelecidas. O benefício da fragmentação é que ela permite uma deduplicação mais precisa, embora exija mais recursos de computação.
Quando os dados são processados por uma ferramenta de desduplicação, um algoritmo de hash atribui um hash a ele. O hash é então verificado para ver se ele já existe no log de dados processados. Se já existir, os dados serão categorizados como duplicados e excluídos para liberar espaço de armazenamento.
Os resultados do processo de eliminação de duplicidades são armazenados em uma tabela de referência que rastreia quais segmentos ou arquivos são removidos e o que eles duplicam. A tabela de referência permite transparência e rastreabilidade, além de fornecer um arquivo abrangente de quais origens um arquivo referencia em um volume de armazenamento.
As organizações podem escolher entre várias abordagens de desduplicação de dados com base no que melhor se adapta aos seus orçamentos, largura de banda e necessidades de redundância. Onde processar, quando processar, com que precisão processar – todas essas são variáveis de combinação e correspondência usadas para criar uma solução personalizada para uma organização.
Inline vs. Diagrama de Deduplicação Pós-Processo:
Desduplicação em linha:
Desduplicação pós-processamento
Assim como a edição de um documento remove palavras ou frases repetitivas para tornar o conteúdo mais conciso, a deduplicação simplifica os dados de uma organização, oferecendo possíveis benefícios, como custos de armazenamento mais baixos, menor consumo de largura de banda e maior eficiência de backup.
Quando há menos arquivos, as organizações usam menos armazenamento. Esse é um dos benefícios mais claros da desduplicação de dados e se estende a outros sistemas. As empresas precisarão de menos espaço para backups e consumirão menos recursos de computação/largura de banda para digitalizar e fazer backup de dados.
Como a desduplicação de dados reduz a carga de execução de backups, um subproduto-chave é uma recuperação de desastres mais rápida e fácil. Backups menores são criados com mais eficiência, o que significa que menos recursos são necessários para extraí-los para fins de recuperação.
Com a desduplicação de dados, a pegada dos arquivos de backup diminui, levando a uma menor utilização de recursos durante os processos de backup no espaço de armazenamento, computação e tempo de processo. Tudo isso dá às organizações maior flexibilidade na forma como programam seus backups.
Quanto menos arquivos forem transferidos, menos largura de banda será necessária, o que significa que a transferência usa menos recursos de rede. Assim, a desduplicação de dados pode melhorar a eficiência da rede, reduzindo a demanda em qualquer processo de transferência, incluindo o transporte de backups para arquivamento e recuperação de backups para recuperação de desastres.
A explosão dos volumes de dados levou a um rápido aumento nos gastos com armazenamento em organizações de todos os tamanhos. A desduplicação pode ajudar a criar economia de custos, reduzindo a quantidade de armazenamento necessária para atividades diárias e backups ou arquivos. A economia de custos secundária vem da redução das demandas de energia, computação e largura de banda e menos recursos humanos necessários para gerenciar e solucionar problemas de arquivos duplicados.
A desduplicação de dados é uma ferramenta eficaz para maximizar o uso de recursos e reduzir custos. No entanto, esses benefícios vêm com alguns desafios, muitos relacionados ao poder de computação necessário para a deduplicação granular. As desvantagens e preocupações mais comuns relacionadas à desduplicação de dados incluem o seguinte:
A desduplicação de dados consome muitos recursos, especialmente quando executada no nível do bloco. As equipes de TI precisam ser cuidadosas ao agendar e executar processos de desduplicação, levando em consideração a largura de banda disponível, as atividades e necessidades organizacionais, o local de backup, os prazos e outros fatores com base em seus ambientes exclusivos.
Colisões de hash se referem a instâncias quando valores de hash gerados aleatoriamente se sobrepõem. Quando o processo de desduplicação usa uma abordagem de nível de bloco, os hashes são atribuídos a blocos de dados, o que aumenta a possibilidade de colisões de hash que podem corromper dados. Evitar colisões de hash envolve aumentar o tamanho da tabela de hash ou implementar métodos de resolução de colisão, como encadeamento ou endereçamento aberto. O encadeamento envolve o armazenamento de vários elementos com a mesma chave de hash em uma lista vinculada ou outra estrutura de dados, enquanto o endereçamento aberto envolve encontrar um local alternativo na tabela de hash para armazenar o elemento duplicado. Cada método tem vantagens e desvantagens, portanto, as equipes de TI precisam considerar o comprimento e a complexidade do algoritmo de hash em comparação com o uso de soluções alternativas.
Nenhum processo é infalível e, durante o processo de deduplicação, há sempre a possibilidade de excluir ou alterar involuntariamente dados que são, de fato, únicos e importantes. As causas de problemas de integridade incluem colisões de hash; blocos de origem corrompidos; processos interrompidos de eventos inesperados, como falhas de disco, erros manuais ou quedas de energia; um ataque cibernético bem-sucedido; ou erro simples do operador. Embora os problemas de integridade sejam raros, dada a qualidade das ferramentas e protocolos de eliminação de duplicação de dados atuais, eles continuam sendo uma possibilidade e podem causar sérias dores de cabeça.
O processo de desduplicação cria uma nova camada de metadados para logs de alteração e as assinaturas digitais anexadas a cada bloco processado. Isso é chamado de "arquivo de impressão digital". Esses metadados não exigem apenas espaço de armazenamento, mas também podem criar seus próprios problemas de integridade de dados. Se ele se corrompe, por exemplo, então o processo de recuperação se torna significativamente mais desafiador.
Embora a desduplicação de dados economize dinheiro a longo prazo por meio de requisitos de espaço reduzidos, ela requer um investimento inicial. Esses custos incluem a própria ferramenta de deduplicação, geralmente precificada com base no número de registros, bem como o tempo necessário para a equipe de TI projetar, executar e gerenciar o processo de deduplicação.
Como funciona a desduplicação de dados no mundo real? Em teoria, é um conceito simples de ciência de dados: elimine dados duplicados para reduzir o consumo de recursos e minimizar os erros que ocorrem quando há várias versões de um arquivo circulando. Mas diferentes setores, indústrias e até mesmo departamentos têm metas e necessidades únicas. Aqui estão alguns casos de uso comuns.
Gerenciamento de relacionamento com o cliente: dentro de um sistema CRM, registros de clientes, informações de contato e negociações podem ser registrados usando várias fontes, níveis de detalhes e formatos. Isso leva a dados inconsistentes, em que um gerente pode ter um registro ligeiramente diferente do outro; por exemplo, se o registro de um ponto de contato for mantido em vários repositórios de dados e apenas um for atualizado depois que sair da empresa, alguns funcionários provavelmente continuarão usando as informações desatualizadas. A desduplicação de dados pode ajudar a garantir uma única fonte de informações precisas do cliente, permitindo que cada indivíduo e grupo usem os dados mais recentes para gerar visualizações ou executar análises.
Integração de dados: Quando duas organizações se fundem, seja por meio de uma aquisição ou reorganização interna, os dados contidos em diferentes instâncias do mesmo aplicativo podem criar registros duplicados. Digamos que uma empresa maior compre um concorrente menor com uma sobreposição de 40% nos clientes, e isso se reflete em seus sistemas ERP. A desduplicação pode eliminar essa redundância, liberando espaço de armazenamento e, ao mesmo tempo, garantindo que todos dentro da organização recém-formada usem apenas a versão mais recente de cada registro.
Computação virtual: ao usar desktops virtuais, como para testar ambientes ou acesso virtual para aplicativos especializados ou sistemas internos, a desduplicação de dados pode aumentar a eficiência, especialmente com grande volume de usuários. As máquinas virtuais geralmente contêm dados muito semelhantes, o que permite muitas versões duplicadas de arquivos. A desduplicação de dados limpa essas duplicações para ajudar a garantir que o armazenamento não seja invadido pelos dados gerados pelas máquinas virtuais.
Bancos: Em uma instituição financeira, diferentes departamentos ou agências podem conter registros duplicados de informações do cliente. Cada registro duplicado é um ponto de entrada potencial para os criminosos roubarem identidades, realizarem transações fraudulentas e realizarem outras atividades ilegais. E examinar e processar dados duplicados para verificar fraudes requer mais recursos. A desduplicação de dados pode ajudar a melhorar a eficiência e a segurança para bancos e cooperativas de crédito.
Esta é apenas uma amostra de casos de uso. Qualquer organização que crie muitos dados pode se beneficiar da deduplicação.
Vários provedores oferecem ferramentas de eliminação de duplicidades de dados, mas qual é o ideal para sua organização? Aqui estão os principais fatores que as equipes devem considerar ao fazer uma lista curta.
A melhor maneira de resolver problemas de deduplicação de dados é evitar que eles ocorram. A Oracle HeatWave ajuda com isso, combinando transações, análises em tempo real em data warehouses e data lakes, machine learning e IA generativa em um único serviço de nuvem. Os clientes do HeatWave não precisam duplicar dados de um banco de dados transacional em um banco de dados de análise separado para análise, o que apresenta vários benefícios.
Com o HeatWave AutoML integrado, os clientes podem criar, treinar e explicar modelos de machine learning em HeatWave, novamente sem a necessidade de duplicar dados em um serviço de machine learning separado.
O HeatWave GenAI fornece GenAI integrado, automatizado e seguro com grandes modelos de linguagem (LLMs) no banco de dados; um armazenamento de vetores automatizado no banco de dados; processamento de vetores escalável; e a capacidade de ter conversas contextuais em linguagem natural, permitindo que os clientes aproveitem o GenAI sem experiência em IA e sem mover dados para um banco de dados vetorial separado.
Ao eliminar a duplicação de dados em vários serviços de nuvem para transações, análises, machine learning e GenAI, o HeatWave permite que os clientes simplifiquem suas infraestruturas de dados, tomem decisões mais rápidas e informadas, aumentem a produtividade, melhorem a segurança e reduzam custos. Além disso, os clientes obtêm o melhor desempenho e o melhor custo-benefício para cargas de trabalho de análise, conforme demonstrado por benchmarks disponíveis publicamente.
A IA pode ajudar os CIOs a analisar os dados para otimizar os gastos com a nuvem e sugerir melhorias no código para minimizar a necessidade de saída de dados. Aprenda como aproveitar o poder da inteligência artificial agora para lidar com talentos, segurança e outros desafios.
Um exemplo de desduplicação pode vir da execução de backups e arquivos baseados em versão dos dados de uma organização. Cada um desses arquivos conterá muitas instâncias dos mesmos arquivos intocados. Com a desduplicação, o processo de backup é simplificado pela criação de uma nova versão de um arquivo sem esses arquivos duplicados. Em vez disso, a nova versão contém ponteiros para a única origem, permitindo que ela exista dentro do arquivo sem utilizar espaço de armazenamento adicional.
Registros duplicados desnecessariamente ocupam espaço de armazenamento. Esse espaço de armazenamento adicional acaba consumindo mais recursos, incluindo volume de armazenamento, largura de banda de transferência e recursos de computação, durante processos como varreduras de malware. A desduplicação reduz o volume de espaço de armazenamento usado, diminuindo o uso geral de recursos, seja largura de banda ou capacidade de armazenamento.
Duplicações podem surgir por meio de duplicidade de dados e redundância de dados. A duplicidade de dados refere-se a situações em que um usuário adiciona um arquivo duplicado ao próprio sistema. A redundância de dados refere-se a situações em que bancos de dados com alguns arquivos ou registros sobrepostos se fundem para criar duplicatas.
A desduplicação pode liberar espaço de armazenamento para maior eficiência a longo prazo e economia de custos. No entanto, o processo real de desduplicação é intensivo em recursos e pode desacelerar várias partes da rede, incluindo desempenho de computação e largura de banda de transferência. Isso significa que os departamentos de TI devem pensar estrategicamente na programação da desduplicação.