Michael Chen | 内容策略师 | 2024 年 2 月 14 日
数据去重过程可系统地消除数据和文件的冗余副本,有助于降低存储成本并改善版本控制。在每台设备都会生成数据、整个企业共享文件的时代,数据去重是 IT 运营中必不可少的一环。这也是数据保护和连续性流程的关键部分。对备份进行数据去重时,系统会识别并消除重复的文件和数据块,确保每个唯一信息仅保存一个实例。这不仅可以节省资金,还可以帮助改善备份和恢复时间,因为需要通过网络发送的数据较少。
数据去重是从数据库和数据存储中删除相同文件或数据块的过程。这可以在逐个文件、逐块或单个字节级别上发生,也可以在算法指示的介于两者之间的某个位置发生。结果通常用所谓的“数据去重率”来衡量。重复数据删除后,组织应该有更多的空闲空间,尽管由于某些活动和文件类型比其他活动和文件类型更容易发生重复,因此差异很大。虽然 IT 部门应该定期检查重复项,但频繁重复删除的好处也差异很大,并且取决于几个变量。
关键要点
在数据去重过程中,工具会扫描存储卷以查找重复性数据并删除带有标记的实例。为了查找重复项,系统将比较附加到每条数据的唯一标识符或散列。如果找到匹配项,则仅存储一个数据副本,并将重复项替换为对原始副本的引用。
删除重复项系统在本地存储、数据目录等管理工具以及数据存储中搜索并扫描结构化和非结构化数据。要充分了解所涉及的内容,以下术语和定义是关键:
数据去重有助于节省存储空间、计算能力和资金等资源。基本上,数据去重就是收缩存储卷。但是,当每个设备生成大量数据并在各个部门之间不断共享文件时,重复数据的影响会产生深远的影响;例如,当不同的团队使用不同的冗余文件时,它会减慢进程、消耗硬件资源、创建冗余并增加混淆。数据去重可以帮助解决所有这些问题,这也是为什么许多企业会将数据去重纳入定期 IT 维护策略中。
由于数据去重是一个资源密集型的数据管理流程,什么时候进行应取决于许多变量,包括网络设计以及员工何时访问文件。下面是数据去重的常见使用场景:
通用文件服务器为各种数据提供存储和服务,包括单个员工的文件缓存和共享的部门文件夹。由于这些类型的服务器通常同时具有大量用户和多种用户角色,因此许多重复文件往往存在。原因包括来自本地硬盘驱动器、应用程序安装、文件共享等的备份。
虚拟桌面基础设施技术为远程访问提供了虚拟化桌面的集中托管和管理。问题是,虚拟硬盘驱动器通常是相同的,包含占用存储的重复文件。此外,当大量用户同时启动虚拟机时(例如在工作日开始时),随之而来的“VDI 启动风暴”可能会导致性能下降,甚至停滞。数据去重可以按需调用各个应用资源的内存中高速缓存,帮助缓解此问题。
备份会创建文件的复制版本,这是有充分理由的。但是,同一份文件不需要一遍又一遍地重复复制。相反,数据去重可确保有一个干净的备份文件,较新的备份版本中的其他实例仅指向主文件。这样可以实现冗余,同时优化资源和存储空间。
数据去重工具可提高数据传输过程的效率。数据去重工具不是从头到尾进行覆盖,而是分段识别文件。对于文件传输过程,工具会扫描更新的段,并仅在必要时移动段。例如,如果某人正在接收一个非常大的文件的新版本,并且新版本只有几个更新的代码段,则传输/覆盖过程可以通过仅写入这些段来快速完成。
归档系统通常与备份混淆,因为它们都用于长期数据存储。但是,当系统为灾难恢复和备灾生成备份时,组织会使用归档系统来保留不再有效使用的数据。将存储卷组合或向归档系统添加新段时,可能会生成重复项。数据去重过程可大大提高归档的效率。
从总体角度来看,数据去重工具会比较文件或文件块中的重复表示指纹,也称为散列。如果重复项得到确认,则会记录并消除重复项。下面我们来看看这个过程中的具体步骤。
分块是指将文件细分为多个段(又称为块)的重复数据删除过程。这些段的大小可以通过算法计算或使用已建立的准则进行设置。分块的好处是它允许更精确的重复数据删除,尽管它需要更多的计算资源。
当数据去重工具处理数据时,散列算法会为其分配散列。然后,检查散列以查看它是否已存在于已处理数据的日志中。如果数据已存在,则数据将被分类为重复数据并删除,以释放存储空间。
重复数据删除处理的结果存储在参考表中,用于跟踪删除的段或文件及其复制的内容。参考表允许透明度和可跟踪性,同时还提供了对存储卷中引用的文件源的全面归档。
企业可以根据预算、带宽和冗余需求,从多种数据去重方法中进行选择。在何处处理、何时处理、如何精细处理—所有这些都是用于为组织创建定制解决方案的混合匹配变量。
内嵌视图后处理重复数据删除图:
内嵌重复数据删除:
后处理重复数据删除
正如编辑文档会删除重复的单词或短语以使内容更简洁一样,重复数据删除可以简化组织的数据,从而提供潜在的回报,例如更低的存储成本、更少的带宽消耗和更高的备份效率。
文件越少,组织使用的存储就越少。这是数据去重其中一个显而易见的优势,可扩展到其他系统。企业将需要更少的备份空间,并减少用于扫描和备份数据的计算/带宽资源。
由于数据去重减轻了运行备份的负担,因此关键的副产品可以更快、更轻松地进行灾难恢复。较小的备份可以更高效地创建,这意味着为恢复目的提取备份所需的资源较少。
借助数据去重,备份文件的占用空间将缩小,从而降低备份过程中跨存储空间、计算和处理时间的资源使用。所有这些都使组织能够更加灵活地安排备份。
需要传输的文件越少,所需的带宽越少,这意味着传输使用的网络资源越少。因此,数据去重可以减少任何传输过程中的需求,包括传输用于归档的备份和召回用于灾难恢复的备份,从而提高网络效率。
数据量的爆炸式增长导致各种规模的组织的存储支出迅速增加。重复数据删除可减少日常活动和备份或归档所需的存储量,从而帮助节省成本。降低能源、计算和带宽需求,减少管理和排除重复文件故障所需的人力资源,从而实现次要成本节省。
数据去重是充分利用资源和降低成本的有效工具。但是,这些优势会带来一些挑战,其中许多挑战与细粒度重复数据删除所需的计算能力有关。与数据去重相关的常见缺点和顾虑包括:
数据去重是资源密集型的,尤其是在块级别执行时。在计划和执行重复数据删除流程时,IT 团队需要慎重考虑可用的带宽、组织活动和需求、备份位置、截止日期和其他基于其独特环境的因素。
当随机生成的散列值发生重叠时,散列碰撞是指实例。当重复数据删除处理使用块级方法时,会将散列分配给数据块,这会产生散列冲突的可能性,从而损坏数据。防止散列碰撞涉及扩大散列表或实施碰撞解决方法,例如链接或开放寻址。链接涉及在链接列表或其他数据结构中存储具有相同散列关键字的多个元素,而打开寻址涉及在散列表内查找用于存储重复元素的替代位置。每种方法都有优点和缺点,因此 IT 团队需要考虑散列算法的长度和复杂性,而不是使用解决方法。
没有一个过程是万无一失的,在重复数据删除过程中,总是有可能无意中删除或更改数据,这些数据实际上是独特而重要的。完整性问题的原因包括散列冲突;损坏的源块;来自意外事件的中断进程,如磁盘故障、手动错误或停电;成功的网络攻击;或简单的操作员错误。考虑到当今的数据数据去重工具和协议的质量,尽管完整性问题很少见,但仍然可能发生并引发严重的问题。
重复数据删除过程会为更改日志和附加到每个已处理块的数字签名创建新的元数据层。这称为“指纹文件”。此元数据不仅需要存储空间,还可能产生自己的数据完整性问题。例如,如果它被破坏,则恢复过程将变得更具挑战性。
从长远来看,虽然数据去重可通过降低空间需求节省资金,但它确实需要前期投资。这些成本包括重复数据删除工具本身,通常根据记录数量进行定价,以及设计、执行和管理重复数据删除流程所需的 IT 人员时间。
在现实世界中,数据去重是如何工作的?从理论上讲,这是一个简单的数据科学概念:消除重复数据,以减少资源消耗,尽可能减少当文件存在多个版本浮动时发生的错误。但不同的部门、行业甚至部门都有着独特的目标和需求。以下是一些常见的使用场景。
客户关系管理:在 CRM 系统中,可以使用多个来源、详细级别和格式记录客户记录、联系信息和交易。这会导致数据不一致,其中一位经理的记录可能与另一位经理略有不同;例如,如果某个联系点的记录保存在多个数据存储库中,在他们离开公司后只有一个数据存储库进行更新,那么一些员工可能会继续使用过时的信息。数据去重有助于确保单一客户信息源的准确性,让每个人和团队都可以使用新数据来生成可视化或运行分析。
数据集成:当两个组织合并时,无论是通过获取还是内部重新配置,同一应用程序的不同实例中包含的数据都可以创建重复的记录。假设一家大公司收购了一家客户重叠度为 40% 的小型竞争对手,这种情况就会反映在其 ERP 系统中。数据去重可以消除这种冗余,从而释放存储空间,同时还可以确保新成立的组织中的每个人仅使用每个记录的新版本。
虚拟计算:使用虚拟桌面(例如用于测试环境或针对专用应用或内部系统的虚拟访问)时,数据去重可以提高效率,尤其是在用户量较大的情况下。虚拟机通常包含非常相似的数据,这会产生许多重复的文件版本。数据去重将清除这些重复项,以帮助确保存储不会因虚拟机生成的数据而超支。
银行业务:在金融机构内,不同的部门或分支机构可以保存重复的客户信息记录。每个重复记录都是犯罪分子窃取身份、进行欺诈交易以及执行其他非法活动的潜在切入点。检查和处理重复数据以检查欺诈行为需要更多资源。数据去重有助于提高银行和信用合作社的效率和安全性。
这只是用例的示例。任何创建大量数据的组织都可以从重复数据删除中受益。
许多提供商都提供了数据去重工具,但哪个工具适合您的组织呢?下面是团队在制作简短列表时要考虑的关键因素。
解决数据去重问题的好方法是先尽量减少重复的数据。Oracle HeatWave 在一个云技术服务中整合了跨数据仓库和数据湖、机器学习和生成式 AI 的事务处理和实时分析,可帮助企业实现这一目标。HeatWave 客户无需将数据从事务处理数据库复制到单独的分析数据库中进行分析,这具有许多优势。
借助内置的 HeatWave AutoML,客户可以在 HeatWave 中构建、训练和解释机器学习模型,而无需将数据复制到单独的机器学习服务中。
HeatWave GenAI 提供集成、自动化且安全的 GenAI,具有数据库内大型语言模型 (LLM)、自动化的数据库内向量存储、纵向扩展向量处理以及以自然语言进行情景对话的能力,让客户无需具备 AI 专业知识即可利用 GenAI,也无需将数据迁移到单独的向量数据库。
HeatWave 可消除多个云技术服务中用于事务处理、分析、机器学习和 GenAI 的重复性数据,帮助客户简化数据基础设施,更快地做出更明智的决策,提高生产力,改善安全性并降低成本。此外,客户还可以获得出色的分析工作负载性能和性价比,如公开发布的基准所示。
AI 不仅能帮助 CIO 更好地分析数据,优化云支出,还能提供代码改进建议,尽可能降低数据出站需求。了解如何充分利用 AI 的力量来解决人才和安全性等难题。
数据去重的一个示例是运行基于版本的组织数据备份和存档。这些归档文件中的每个文件将包含相同未修改文件的多个实例。通过重复数据删除,可以通过创建没有这些重复文件的归档的新版本来简化备份过程。相反,新版本包含指向单个源的指针,允许它在不占用额外存储空间的情况下存在于归档中。
重复的记录不必要占用存储空间。在恶意软件扫描等过程中,额外的存储空间将占用更多资源,包括存储卷、传输带宽和计算资源。重复数据删除可减少使用的存储空间量,从而减少总体资源使用量,无论是带宽还是存储容量。
可以通过数据重复和数据冗余来产生重复项。数据重复是指用户向系统本身添加重复文件的情况。数据冗余是指具有某些重叠文件或记录的数据库合并以创建重复项的情况。
重复数据删除可以释放存储空间,从而提高长期效率并节省成本。然而,实际的重复数据删除过程是资源密集型的,可能会减慢网络的各个部分,包括计算性能和传输带宽。这意味着 IT 部门必须从战略角度考虑计划重复数据删除。
注:为免疑义,本网页所用以下术语专指以下含义: