ما المقصود بتقنية إلغاء تكرار البيانات؟ الأساليب والفوائد

مايكل تشن | خبير استراتيجيات المحتوى | 14 فبراير 2024

تعمل عملية إلغاء البيانات المكررة على التخلص بشكل منهجي من النسخ الزائدة عن الحاجة من البيانات والملفات، مما يساعد على تقليل تكاليف التخزين وتحسين التحكم في الإصدار. في عصر ينشئ فيه كل جهاز بيانات وتشترك فيه المؤسسات بأكملها في الملفات، يُعد إلغاء البيانات المكررة جزءًا مهمًا من عمليات تكنولوجيا المعلومات. كما أنها جزء أساس من عملية حماية البيانات واستمراريتها. عند تطبيق إلغاء تكرار البيانات على النسخ الاحتياطية، فإنه يحدد الملفات والكتل المكررة ويزيلها، مع تخزين مثيل واحد فقط من كل جزء فريد من المعلومات. ولا يمكن أن يساعد ذلك في توفير المال فحسب، بل يمكنه أيضًا المساعدة في تحسين أوقات النسخ الاحتياطي والاسترداد وذلك بسبب الحاجة إلى إرسال بيانات أقل عبر الشبكة.

ما المقصود بتقنية إلغاء تكرار البيانات؟

إلغاء تكرار البيانات هو عملية إزالة ملفات أو كتل متطابقة من قواعد البيانات وتخزين البيانات. يمكن أن يحدث هذا على مستوى ملف تلو الآخر أو كتلة تلو الأخرى أو بايت فردي أو في مكان ما بين كما تمليه الخوارزمية. غالبًا ما يتم قياس النتائج بما يسمى "نسبة إلغاء تكرار البيانات". بعد إلغاء التكرار، يجب أن يكون لدى المؤسسات مساحة حرة أكبر، على الرغم من اختلاف مقدارها لأن بعض الأنشطة وأنواع الملفات أكثر عرضة للتكرار من غيرها. في حين يجب على أقسام تكنولوجيا المعلومات التحقق بانتظام من التكرارات، فإن فوائد إلغاء التكرار المتكرر تختلف أيضًا على نطاق واسع وتعتمد على العديد من المتغيرات.

النقاط الرئيسة

  • إلغاء تكرار البيانات هو عملية المسح بحثًا عن البيانات المكررة والقضاء عليها.
  • توفر أدوات إلغاء البيانات المكررة مجموعة من مستويات الدقة، بدءًا من ملف تلو الآخر وحتى مقطع الملف أو إلغاء تكرار الكتلة.
  • وكلما كانت عملية إلغاء البيانات المكررة أكثر دقة، زادت قوة الحوسبة التي تتطلبها.
  • وبالنسبة لعمليات النسخ الاحتياطي والأرشفة، يمكن إجراء إلغاء البيانات المكررة قبل نقل البيانات أو بعده. الأول يستخدم عرض نطاق ترددي أقل، بينما يستهلك الأخير عرض نطاق ترددي أكبر ولكنه يستهلك موارد محلية أقل.

شرح إلغاء تكرار البيانات

في عملية إلغاء تكرار البيانات، تقوم الأداة بمسح وحدات تخزين البيانات بحثًا عن بيانات مكررة وإزالة المثيلات المميزة بعلامة. للعثور على التكرارات، يقارن النظام المعرفات الفريدة، أو التجزئة، المرتبطة بكل جزء من البيانات. في حالة العثور على تطابق، يتم تخزين نسخة واحدة فقط من البيانات، ويتم استبدال التكرارات بمراجع للنسخة الأصلية.

يقوم نظام إلغاء التكرار بالبحث في المخزن المحلي، وفي أدوات الإدارة مثل كتالوجات البيانات، وفي مخازن البيانات ويمسح البيانات المنظمة وغير المنظمة. لفهم ما ينطوي عليه الأمر بشكل كامل، تعد المصطلحات والتعاريف التالية أساس فيما يلي:

  • نسبة إلغاء تكرار البيانات: مقياس يُستخدم لقياس نجاح عملية إلغاء تكرار البيانات. تقارن هذه النسبة حجم مخزن البيانات الأصلي بحجمه بعد إلغاء التكرار. في حين أن نسبة عالية تشير إلى عملية فعالة، يمكن للمتغيرات مثل تكرار إلغاء التكرار، ونوع البيانات، وعوامل أخرى انحراف النسبة النهائية. فعلى سبيل المثال، تنشئ تقنية المحاكاة الافتراضية أجهزة افتراضية يمكن نسخها احتياطيًا واستنساخها بسهولة، مما يوفر نسخًا متعددة من البيانات. يعد الاحتفاظ ببعض النسخ أمرًا مهمًا للتكرار والاسترداد من فقدان البيانات.
  • الاحتفاظ بالبيانات: طول الوقت الذي يتم فيه الاحتفاظ بالبيانات في التخزين، والذي يتم تعريفه عادةً بواسطة السياسة. يجب الاحتفاظ بالتقارير المالية لفترة أطول من رسائل البريد الإلكتروني على سبيل المثال. عادة، كلما طالت فترة الاحتفاظ، زادت فرصة تكرار البيانات أثناء النسخ الاحتياطية أو عمليات النقل أو من خلال استخدام الأجهزة الافتراضية.
  • نوع البيانات: صيغة البيانات التي يتم الاحتفاظ بها في المخزن. أنواع البيانات النموذجية هي ملفات تنفيذية ومستندات وملفات وسائط. يحدد الغرض من الملف والأهمية وتكرار الوصول والعوامل الأخرى ما إذا كان مكررًا ومدة الاحتفاظ به.
  • تغيير المعدل: مقياس يقيس معدل تكرار تحديث الملف أو تغييره. غالبًا ما يتم تكرار الملفات ذات معدلات التغيير الأعلى بشكل أقل تكرارًا.
  • الموقع: يتم تخزين بيانات المكان. غالبًا ما تنبع الملفات المكررة من نفس الملفات الدقيقة الموجودة في مواقع متعددة، إما عن قصد، كما هو الحال مع النسخ الاحتياطي، أو عن غير قصد من خلال عملية القطع واللصق التي استخدمت عن طريق الخطأ عملية النسخ واللصق. في بعض الحالات، تحتوي الأجهزة الافتراضية المخزنة في مواقع متعددة على ملفات مكررة.

لماذا يعتبر إلغاء البيانات المكررة مفيدًا؟

يمكن أن تساعد تقنية إلغاء البيانات المكررة على توفير مساحة تخزين الموارد وقوة الحوسبة والمال. وتتمثل ميزة إلغاء البيانات المكررة، في أبسط صورها، في تقليص وحدات التخزين. ولكن عندما ينتج كل جهاز كميات هائلة من البيانات ويتم مشاركة الملفات باستمرار بين الأقسام، فإن تأثير البيانات المكررة له عواقب بعيدة المدى؛ على سبيل المثال، يمكن أن يبطئ العمليات ويستهلك موارد الأجهزة وينشئ التكرار ويضيف الارتباك عندما تستخدم فرق مختلفة ملفات مكررة مختلفة. ويمكن أن تساعد تقنية إلغاء البيانات المكررة في الاعتناء بكل هذا، ولهذا السبب تحتفظ العديد من المؤسسات بهذه التقنية في إيقاع مجدول بانتظام كجزء من إستراتيجيات صيانة تقنية المعلومات الخاصة بها.

وقت استخدام إلغاء تكرار البيانات

ونظرًا لأن إلغاء تكرار البيانات عبارة عن عملية إدارة بيانات كثيفة الاستخدام للموارد، يجب أن يعتمد التوقيت على عدد من المتغيرات، بما في ذلك تصميم الشبكة ووقت وصول الموظفين إلى الملفات. فيما يلي الحالات الأكثر شيوعًا التي يتم فيها استخدام إلغاء تكرار البيانات:

خوادم ملفات للأغراض العامة

توفر خوادم الملفات ذات الأغراض العامة التخزين والخدمات لمجموعة واسعة من البيانات، بما في ذلك ذاكرة التخزين المؤقت للموظفين الفرديين للملفات ومجلدات الأقسام المشتركة. نظرًا لأن هذه الأنواع من الخوادم غالبًا ما يكون لها حجم كبير من المستخدمين ومجموعة متنوعة من أدوار المستخدمين، فإن العديد من الملفات المكررة تميل إلى الوجود. تتضمن الأسباب النسخ الاحتياطية من محركات الأقراص الثابتة المحلية وعمليات تثبيت التطبيقات ومشاركة الملفات وغير ذلك الكثير.

عمليات نشر البنية التحتية لسطح المكتب الظاهري (VDI)

توفر تقنية البنية التحتية الافتراضية لسطح المكتب استضافة مركزية وإدارة أجهزة الكمبيوتر المكتبية الافتراضية للوصول عن بُعد. المشكلة هي أن محركات الأقراص الثابتة الافتراضية غالبًا ما تكون متطابقة، وتحتوي على ملفات مكررة تستهلك مساحة تخزين. بالإضافة إلى ذلك، عندما يقوم عدد كبير من المستخدمين بتشغيل أجهزتهم الافتراضية دفعة واحدة، مثل بداية يوم العمل، يمكن لـ "عاصفة تشغيل VDI" التي تلت ذلك أن تجعل الأداء أبطأ، إن لم يتوقف. ويمكن أن تساعد ميزة إلغاء البيانات المكررة على تهدئة ذلك من خلال استخدام ذاكرة تخزين مؤقت (cache) مدمجة بالذاكرة لموارد التطبيقات الفردية عند الطلب.

أنظمة التخزين والنسخ الاحتياطية

تقوم النسخ الاحتياطية بإنشاء إصدارات مكررة من الملفات، لسبب وجيه. ومع ذلك، لا يلزم نسخ الملف نفسه مرارًا وتكرارًا إلى الأبد. وبدلاً من ذلك، يضمن إلغاء البيانات المكررة وجود ملف نسخ احتياطي نظيف، مع وجود مثيلات أخرى في إصدارات النسخ الاحتياطي الأحدث تشير ببساطة إلى الملف الأساس. وهذا يسمح بالتكرار مع تحسين الموارد ومساحة التخزين.

عمليات نقل البيانات

تعمل أدوات إلغاء البيانات المكررة على توفير عملية نقل بيانات أكثر كفاءة. وبدلاً من إجراء الكتابة الفوقية من البداية إلى النهاية، تعمل أدوات إلغاء البيانات المكررة على تحديد الملفات في المقاطع. بالنسبة لعملية نقل الملفات، تقوم الأدوات بمسح المقاطع المحدثة ونقل المقاطع فقط حسب الحاجة. على سبيل المثال، إذا كان شخص ما يتلقى إصدارًا جديدًا من ملف كبير جدًا وكان الإصدار الجديد يحتوي على بضعة مقاطع فقط من التعليمات البرمجية المحدثة، يمكن أن تكتمل عملية النقل/الكتابة الفوقية بسرعة عن طريق الكتابة فقط إلى تلك المقاطع.

أنظمة الأرشفة

غالبًا ما يتم الخلط بين أنظمة الأرشفة والنسخ الاحتياطية إذ يتم استخدامها لتخزين البيانات على المدى الطويل. ولكن في حين تقوم الأنظمة بإنشاء نُسخ احتياطية لأغراض إجراءات مواجهة الكوارث والتأهب لها، تستخدم المؤسسات أنظمة الأرشفة للحفاظ على البيانات التي لم تعد قيد الاستخدام النشط. يمكن إنشاء التكرارات عند دمج وحدات تخزين أو إضافة مقاطع جديدة إلى نظام أرشفة. تعمل عملية إلغاء البيانات المكررة على زيادة كفاءة المحفوظات إلى أقصى حد.

طريقة عمل إلغاء تكرار البيانات

من منظور الصورة الكبيرة، تقارن أدوات إلغاء البيانات المكررة البيانات الملفات أو كتل الملفات لتكرار تحديد بصمات الأصابع، والمعروفة أيضًا باسم دوال هاش. إذا تم تأكيد التكرارات، فسيتم تسجيلها وإزالتها. فيما يلي نظرة عن كثب على الخطوات المحددة في العملية.

التقسيم

يشير التقسيم إلى عملية إلغاء تكرار تقوم بتقسيم الملفات إلى مقاطع، تسمى الحزم. يمكن حساب حجم هذه المقاطع من خلال الخوارزمية أو تعيينها باستخدام الإرشادات المحددة. تكمن فائدة التقسيم في أنه يسمح بإلغاء تكرار أكثر دقة، على الرغم من أنه يتطلب المزيد من موارد الحوسبة.

دالة هاش

عند معالجة البيانات بواسطة أداة إلغاء التكرار، تقوم خوارزمية التجزئة بتعيين دالة هاش لها. يتم بعد ذلك التحقق من دالة هاش لمعرفة ما إذا كانت موجودة بالفعل في سجل البيانات التي تمت معالجتها. إذا كانت موجودة بالفعل، يتم تصنيف البيانات على أنها مكررة وحذفها لتحرير مساحة التخزين.

جداول المرجع

يتم تخزين نتائج عملية إلغاء التكرار في جدول مرجعي يتتبع المقاطع أو الملفات التي تتم إزالتها وما تكرره. يتيح الجدول المرجعي الشفافية وإمكانية التتبع مع توفير أرشيف شامل للمصادر التي يشير إليها الملف عبر وحدة تخزين.

طرق إلغاء تكرار البيانات

يمكن للمؤسسات الاختيار من بين العديد من أساليب إلغاء البيانات المكررة استنادًا إلى أفضل ما يناسب ميزانياتها وعرض النطاق الترددي واحتياجات التكرار. مكان المعالجة، ومتى تتم المعالجة، ومدى دقة المعالجة—كل هذه متغيرات مزيج ومطابقة تُستخدم لإنشاء حل مخصص للمؤسسة.

هل تعمل تقنية إلغاء البيانات المكررة المضمنة أو ما بعد المعالجة بأفضل شكل لتلبية احتياجاتك؟ فيما يلي بعض إيجابيات وسلبيات كل منها.

مخطط إلغاء التكرار ما بعد المعالجة مقابل المضمن:

إلغاء التكرار المضمن:

  • إزالة البيانات المكررة قبل الكتابة إلى التخزين.
  • يحدث تحسين منخفض لسعة البيانات قبل كتابة البيانات على القرص.
  • الايجابيات:
    • يقلل من احتياجات مساحة التخزين، مما يقلل من التكاليف.
    • يقلل من حجم نقل البيانات، مما يحسن الأداء.
  • السلبيات:
    • هناك حاجة إلى مزيد من قوة المعالجة للقضاء على البيانات المكررة في الوقت الفعلي.
    • إذا تم تنفيذها بشكل غير فعال، فقد تتباطأ العمليات.

إلغاء تكرار ما بعد المعالجة

  • يحدث بعد كتابة البيانات في المخزن.
  • تمت كتابة البيانات الأولية أولاً على القرص كما هي.
  • يحدث انخفاض في سعة البيانات بعد كتابة البيانات على القرص.
  • الايجابيات:
    • يتطلب موارد أقل.
    • لا يؤثر على الأداء نظرًا لأن إلغاء التكرار عبارة عن عملية مجموعة معالجة منفصلة.
  • السلبيات:
    • لا يتم التخلص من البيانات المكررة في الوقت الفعلي، مما قد يؤدي إلى المزيد من التناقضات.
    • قد تؤدي المعالجة الدفعية إلى تأخير تحديد البيانات المكررة وإزالتها.

طرق إلغاء التكرار

  • إلغاء التكرار على مستوى الكتل: تعمل أدوات إلغاء التكرار على مستوى الكتل من خلال مقارنة هذه المقاطع للاختلافات في بصمات الكتل وإزالة التكرارات. يتيح هذا إمكانية إلغاء البيانات المكررة بشكل أدق، على الرغم من أن العملية تتطلب موارد كثيرة إلى حد ما وقد يصعب تطبيقها على كميات كبيرة من وحدات التخزين المادية.
  • إلغاء تكرار بطول المتغير: يستخدم إلغاء تكرار بطول المتغير خوارزمية لتحديد حجم مقاطع البيانات في ملف، ثم التحقق من التكرارات. تشبه هذه العملية تقنية إلغاء البيانات المكررة على مستوى الكتلة حيث توفر دقة جيدة ولكن بدون الحجم الثابت للكتل الفردية.
  • إلغاء التكرار على مستوى الملف: بدلاً من إجراء إلغاء التكرار على مستوى الكتلة، تتطلع الأدوات إلى اكتشاف التكرارات على أساس كل ملف على حدة. لا تعمل هذه الطريقة بنفس دقة إلغاء البيانات المكررة على مستوى الكتلة، على الرغم من أن المفاضلة هي عملية أسرع وأقل كثافة في الموارد يمكن تطبيقها على التخزين بأي حجم.

نقاط إلغاء التكرار

  • إلغاء تكرار المصدر: تستخدم هذه الطريقة العميل المحلي كموقع لإلغاء تكرار البيانات. يؤدي إجراء إلغاء البيانات المكررة على العميل قبل إجراء النسخ الاحتياطي إلى توفير عرض النطاق الترددي وتكاليف الإرسال، على الرغم من أنها تستخدم موارد العميل.
  • إلغاء التكرار الهدف: تنتظر هذه الطريقة حتى يتم إرسال نسخة احتياطية لإجراء إلغاء التكرار. وفي هذه الحالة، فإن المقايضة في استخدام الموارد هي عكس المقايضة في إلغاء تكرار المصدر: فهي تضع ضغوطًا أقل على العملاء ولكنها تضع طلبًا أكبر على عرض النطاق الترددي للشبكة والموارد المستهدفة.

توقيت إلغاء التكرار

  • إلغاء التكرار المضمن: عند تنفيذ إلغاء التكرار المضمن، يتم مسح البيانات بحثًا عن التكرارات في الوقت الفعلي أثناء تنفيذ العملية. تستخدم هذه الطريقة المزيد من موارد الحوسبة المحلية، على الرغم من أنها تحرر مساحة تخزين كبيرة.
  • إلغاء تكرار ما بعد المعالجة: يقوم إلغاء تكرار ما بعد المعالجة بتشغيل عمليات المقارنة والتخلص بعد إرسال البيانات إلى الهدف. تتطلب هذه الطريقة مساحة تخزين أكبر في الموقع الهدف ولكنها تستخدم موارد محلية أقل قبل الإرسال.

مزايا إلغاء تكرار البيانات

ومثلما يؤدي تحرير المستند إلى إزالة الكلمات أو العبارات المتكررة لجعل المحتوى أكثر إيجازًا، يعمل إلغاء البيانات المكررة على تبسيط بيانات المؤسسة، مما يوفر مكاسب محتملة مثل انخفاض تكاليف التخزين وانخفاض استهلاك النطاق الترددي وزيادة كفاءة النسخ الاحتياطي.

وفورات التخزين

في حالة وجود ملفات أقل، تستخدم المؤسسات مساحة تخزين أقل. هذه واحدة من أكثر مزايا إلغاء البيانات المكررة وضوحًا، وهي تمتد إلى أنظمة أخرى. ستتطلب الشركات مساحة أقل للنسخ الاحتياطية وتستهلك موارد أقل للحوسبة/عرض النطاق الترددي لمسح البيانات ونسخها احتياطيًا.

إجراءات موجهة الكوارث

ونظرًا لأن إلغاء البيانات المكررة يقلل من عبء تشغيل النسخ الاحتياطية، فإن المنتج الثانوي الرئيسي هو استعادة البيانات بعد الكوارث بشكل أسرع وأسهل. يتم إنشاء نسخ احتياطية أصغر بكفاءة أكبر، مما يعني الحاجة إلى موارد أقل لسحبها لأغراض الاسترداد.

نوافذ نسخ احتياطي أصغر

باستخدام ميزة إلغاء البيانات المكررة، تقلص مساحة ملفات النسخ الاحتياطي، مما يؤدي إلى تقليل استخدام الموارد أثناء عمليات النسخ الاحتياطي عبر مساحة التخزين والحوسبة ووقت العملية. كل هذا يمنح المؤسسات مرونة إضافية في كيفية جدولة النسخ الاحتياطية الخاصة بها.

كفاءة الشبكة

وكلما قل عدد الملفات التي تحتاج إلى نقلها، قل عرض النطاق الترددي المطلوب، مما يعني أن النقل يستخدم موارد شبكة أقل. وبالتالي، يمكن أن يؤدي إلغاء تكرار البيانات إلى تحسين كفاءة الشبكة من خلال تقليص الطلب في أي عملية نقل، بما في ذلك نقل النسخ الاحتياطية للأرشفة واستدعاء النسخ الاحتياطية لاستعادة القدرة على العمل بعد الكوارث.

الفوائد الاقتصادية

أدى انفجار أحجام البيانات إلى زيادة سريعة في الإنفاق على التخزين في المؤسسات من جميع الأحجام. بإمكان تقنية إلغاء البيانات المكررة المساعدة على تحقيق وفورات في التكاليف من خلال تقليل مقدار التخزين اللازم للأنشطة اليومية وعمليات النسخ الاحتياطي أو عمليات الأرشفة. تأتي وفورات التكلفة الثانوية من انخفاض متطلبات الطاقة والحوسبة وعرض النطاق الترددي وتقليل الموارد البشرية اللازمة لإدارة الملفات المكررة واستكشاف أخطائها وإصلاحها.

عيوب ومخاوف إلغاء تكرار البيانات

يُعد إلغاء البيانات المكررة أداة فعالة لزيادة استخدام الموارد إلى أقصى حد وخفض التكاليف. ومع ذلك، تأتي هذه الفوائد مع بعض التحديات، والكثير منها يتعلق بقوة الحوسبة المطلوبة لإلغاء التكرار الدقيق. تشمل العيوب والمخاوف الأكثر شيوعًا المتعلقة بإلغاء تكرار البيانات ما يلي:

المصروفات الإضافية للأداء

تستهلك عملية إلغاء البيانات المكررة الكثير من الموارد، خاصةً عند تنفيذها على مستوى الكتلة. يجب أن تكون فرق تكنولوجيا المعلومات مدروسة عند جدولة عمليات إلغاء البيانات المكررة وتنفيذها، مع مراعاة عرض النطاق الترددي المتاح والأنشطة والاحتياجات التنظيمية وموقع النسخ الاحتياطي والمواعيد النهائية وعوامل أخرى استنادًا إلى بيئاتها الفريدة.

تصادمات دالة هاش

تشير تصادمات دالة هاش إلى المثيلات عندما تحدث تداخل بين قيم دالة هاش المولدة عشوائيًا. عندما تستخدم عملية إلغاء البيانات المكررة أسلوبًا على مستوى الكتلة، يتم تعيين دوال هاش إلى مجموعات بيانات، مما يثير احتمال حدوث تصادمات لدالة هاش قد تتسبب في تلف البيانات. يتضمن منع تصادمات التجزئة إما زيادة حجم جدول التجزئة أو تنفيذ طرق حل التصادم، مثل التسلسل أو العنونة المفتوحة. تتضمن عملية التسلسل تخزين عناصر متعددة بنفس مفتاح دالة هاش في قائمة مرتبطة أو هيكل بيانات آخر، بينما تتضمن العنونة المفتوحة العثور على موقع بديل داخل جدول دالة هاش لتخزين العنصر المكرر. كل طريقة لها مزايا وعيوب، لذلك تحتاج فرق تكنولوجيا المعلومات إلى النظر في طول وتعقيد خوارزمية التجزئة مقابل استخدام الحلول البديلة.

سلامة البيانات

لا توجد عملية مضمونة، وخلال عملية إلغاء التكرار، هناك دائمًا إمكانية حذف أو تغيير البيانات التي هي في الواقع فريدة ومهمة. تشمل أسباب مشكلات السلامة تصادمات دالة هاش؛ أو كتل المصدر التالفة؛ أو العمليات المتقطعة من الأحداث غير المتوقعة مثل تعطلات القرص أو الخطأ اليدوي أو انقطاع التيار الكهربائي؛ أو هجوم إلكتروني ناجح؛ أو خطأ مشغل بسيط. وعلى الرغم من أن مشكلات السلامة نادرة نظرًا لجودة أدوات وبروتوكولات إلغاء البيانات المكررة للبيانات الحالية، إلا أنها تظل إمكانية وقد تتسبب في مشكلات خطيرة.

تمت إضافة بيانات التعريف

تقوم عملية إلغاء التكرار بإنشاء طبقة جديدة من بيانات التعريف لسجلات التغيير والتوقيعات الرقمية المرفقة بكل كتلة تمت معالجتها. وهذا ما يسمى "ملف بصمة الإصبع". لا تتطلب بيانات التعريف هذه مساحة تخزين فحسب، بل قد تؤدي أيضًا إلى إنشاء مشكلات تكامل البيانات الخاصة بها. إذا أصبحت فاسدة، على سبيل المثال، تصبح عملية الاسترداد أكثر صعوبة.

تكلفة التنفيذ

وعلى الرغم من أن تقنية إلغاء البيانات المكررة توفر المال على المدى البعيد من خلال تقليل متطلبات المساحة، إلا أنها تتطلب استثمارًا أوليًا. وتتضمن هذه التكاليف أداة إلغاء التكرار نفسها، والتي يتم تسعيرها عادةً بناءً على عدد السجلات، فضلاً عن الوقت اللازم لطاقم تقنية المعلومات لتصميم عملية إلغاء البيانات المكررة وتنفيذها وإدارتها.

حالات الاستخدام في إلغاء تكرار البيانات

كيف يعمل إلغاء تكرار البيانات في العالم الواقعي؟ من الناحية النظرية، إنه مفهوم علم البيانات بسيط: التخلص من البيانات المكررة لتقليل استهلاك الموارد وتقليل الأخطاء التي تحدث عندما تكون هناك إصدارات متعددة من ملف عائم. لكن القطاعات والصناعات وحتى الإدارات المختلفة لها أهداف واحتياجات فريدة. فيما يلي بعض حالات الاستخدام الشائعة.

إدارة علاقات العملاء: داخل نظام إدارة علاقات العملاء، يمكن تسجيل سجلات العملاء ومعلومات الاتصال والصفقات باستخدام مصادر ومستويات تفاصيل وتنسيقات متعددة. يؤدي ذلك إلى عدم اتساق البيانات، حيث قد يكون لدى أحد المديرين سجل مختلف قليلاً عن الآخر؛ على سبيل المثال، إذا تم الاحتفاظ بسجل نقطة اتصال في مستودعات بيانات متعددة وتم تحديث سجل واحد فقط بعد مغادرة الشركة، فمن المحتمل أن يستمر بعض الموظفين في استخدام المعلومات القديمة. يمكن أن يساعد إلغاء تكرار البيانات في ضمان مصدر واحد لمعلومات العملاء الدقيقة، مما يسمح لكل فرد ومجموعة باستخدام أحدث البيانات لتكوين التمثيلات المرئية أو تشغيل التحليلات.

تكامل البيانات: عند دمج مؤسستين، سواء من خلال عملية اكتساب أو إعادة تعديل داخلية، يمكن أن تقوم البيانات المضمنة في مثيلات مختلفة من نفس التطبيق بتكوين سجلات مكررة. لنفترض أن شركة أكبر تشتري منافسًا أصغر مع تداخل بنسبة 40% في العملاء، وهذا ينعكس في أنظمة ERP الخاصة بها. وبإمكان إلغاء التكرار القضاء على هذا التكرار، مما يعمل على توفير مساحة التخزين مع ضمان عدم استخدام أي شخص داخل المؤسسة التي تم إنشاؤها حديثًا إلا لأحدث إصدار من كل سجل.

الحوسبة الافتراضية: عند استخدام أجهزة الكمبيوتر المكتبية الافتراضية، مثل بيئات الاختبار أو الوصول الظاهري للتطبيقات المتخصصة أو الأنظمة الداخلية، يمكن أن يؤدي إلغاء تكرار البيانات إلى زيادة الكفاءة - خاصةً مع حجم المستخدم الثقيل. غالبًا ما تحتوي الأجهزة الافتراضية على بيانات متشابهة جدًا، مما يجعل العديد من الإصدارات المكررة من الملفات. يعمل إلغاء تكرار البيانات على إزالة هذه التكرارات للمساعدة على ضمان عدم تجاوز التخزين مع البيانات التي يتم إنشاؤها بواسطة الأجهزة الافتراضية.

الخدمات المصرفية: داخل مؤسسة مالية، قد تحتفظ أقسام أو فروع مختلفة بسجلات مكررة لمعلومات العميل. كل سجل مكرر هو نقطة دخول محتملة للمجرمين لسرقة الهويات، وإجراء معاملات احتيالية، وتنفيذ أنشطة غير قانونية أخرى. ويتطلب فحص ومعالجة البيانات المكررة للتحقق من الاحتيال المزيد من الموارد. يمكن أن يساعد إلغاء البيانات المكررة في تحسين الكفاءة والأمان للبنوك والاتحادات الائتمانية.

هذه مجرد عينة من حالات الاستخدام. يمكن لأي مؤسسة تقوم بإنشاء الكثير من البيانات الاستفادة من إلغاء البيانات المكررة.

ما الذي يجب مراعاته عند اختيار تقنية إلغاء البيانات المكررة

يقدم العديد من موفري الخدمات أدوات إلغاء البيانات المكررة، ولكن ما المناسب لمؤسستك؟ فيما يلي العوامل الرئيسية التي يجب على الفرق مراعاتها عند وضع قائمة قصيرة.

  • الأداء: تتطلب الأنواع المختلفة من إلغاء التكرار موارد مختلفة. فعلى سبيل المثال، تؤدي عملية إلغاء البيانات المكررة على مستوى الكتلة والتي يتم تنفيذها على المصدر على شبكة كبيرة إلى الحصول على موارد كبيرة مقارنةً بميزة إلغاء البيانات المكررة على مستوى الملف التي يتم تنفيذها على الهدف بنطاق محدود للغاية.
  • قابلية التوسع: غالبًا ما تسير قابلية التوسع والأداء جنبًا إلى جنب لأن العمليات التي تبتعد عن الأداء يصعب توسيعها. وينطبق هذا على إلغاء التكرار، فكلما زادت كثافة الموارد في العملية، زادت صعوبة زيادة حجمها حسب الحاجة. ويجب على المؤسسات التي تتطلب قابلية تطوير واسعة النطاق مراعاة هذه المفاضلات عند اختيارها لتقنية إلغاء التكرار.
  • التكامل: يمكن لمصادر البيانات غير المتصلة تعقيد عملية إلغاء التكرار. على سبيل المثال، عندما توجد قواعد البيانات في مستودعات، يكون احتمال تكرار البيانات أعلى بكثير. وفي حالات أخرى، قد تتطلب الشبكة الكبيرة ذات المواقع البعيدة المتعددة بروتوكولاً أكثر صرامة للتنظيف والتحويل قبل إلغاء التكرار. يجب على المؤسسات تقييم حالة تكامل البيانات عند النظر في كيفية تنفيذ إلغاء التكرار.
  • التكلفة: تختلف أدوات إلغاء التكرار من جانب التكلفة استنادًا إلى عوامل مثل التعقيد والإمكانية. تزداد الأسعار استنادًا إلى حجم السجلات التي تمت معالجتها. يجب على المؤسسات إنشاء تقدير للميزانية استنادًا إلى معايير الصناعة والمعدلات المقتبسة، ثم تقييم كيفية تعويض ذلك عن طريق الوفورات طويلة الأجل.

القضاء على الحاجة إلى إلغاء تكرار البيانات باستخدام Oracle HeatWave

أفضل طريقة لحل مشكلات إلغاء التكرار هي تقليلها في المقام الأول. تساعد Oracle HeatWave في ذلك من خلال الجمع بين المعاملات والتحليلات في الوقت الفعلي عبر مستودعات البيانات وبحيرات البيانات والتعلم الآلي والذكاء الاصطناعي التوليدي في خدمة سحابية واحدة. لا يحتاج عملاء HeatWave إلى تكرار البيانات من قاعدة بيانات المعاملات إلى قاعدة بيانات تحليلات منفصلة للتحليل، مما يوفر العديد من المزايا.

  • ليست هناك حاجة لتخزين نفس البيانات في مخازن بيانات متعددة لأغراض مختلفة.
  • لا تحتاج إلى عمليات استخراج وتحويل وتحميل معقدة ومستهلكة للوقت ومكلفة ومعرضة للخطأ لنقل البيانات بين مخازن البيانات.
  • تصل استعلامات التحليلات دائمًا إلى أحدث البيانات، مما يؤدي إلى نتائج أفضل مقابل تحليل البيانات التي يمكن أن تكون قديمة بحلول الوقت المتاح في قاعدة بيانات تحليلات منفصلة.
  • لا يوجد خطر يذكر من اختراق البيانات أثناء نقلها نظرًا لعدم نقل البيانات بين قواعد البيانات.
  • يتيح مستودع بيانات HeatWave للمستخدمين الاستعلام عن ما يصل إلى نصف بيتابايت من البيانات في مخزن الكائنات—ودمجها اختياريًا مع البيانات في قاعدة بيانات MySQL. يمكن للعملاء الاستعلام عن بيانات المعاملات في قواعد بيانات MySQL أو البيانات بتنسيقات مختلفة في تخزين الكائنات أو مزيج من كليهما باستخدام أوامر MySQL القياسية، وبدون نسخ البيانات من تخزين الكائنات إلى MySQL Database.

باستخدام HeatWave AutoML المدمج، يمكن للعملاء إنشاء نماذج التعلم الآلي وتدريبها وشرحها في HeatWave، مرة أخرى دون الحاجة إلى تكرار البيانات في خدمة تعلم آلي منفصلة.

يوفر HeatWave GenAI GenAI ذكاءً كاملاً ومؤتمتًا وآمنًا مع نماذج اللغات الكبيرة (LLM) داخل قاعدة البيانات ومخزن متجه مؤتمت داخل قاعدة بيانات ومعالجة متجه مؤتمت؛ والقدرة على إجراء محادثات سياقية باللغة الطبيعية—مما يتيح للعملاء الاستفادة من GenAI بدون خبرة في الذكاء الاصطناعي وبدون نقل البيانات إلى قاعدة بيانات متجهة منفصلة.

من خلال التخلص من تكرار البيانات عبر العديد من الخدمات السحابية للمعاملات والتحليلات والتعلم الآلي وGenAI، تتيح خدمة HeatWave للعملاء تبسيط البنى التحتية للبيانات واتخاذ قرارات أسرع وأكثر استنارة وزيادة الإنتاجية وتحسين الأمان وخفض التكاليف. بالإضافة إلى ذلك، يحصل العملاء على أفضل أداء وأداء للسعر لأحمال عمل التحليلات، كما يتضح من مقاييس الأداء المتاحة للجمهور.

يمكن للذكاء الاصطناعي مساعدة مديري المعلومات التنفيذيين على تحليل البيانات لتحسين الإنفاق على السحابة واقتراح تعديلات على التعليمات البرمجية لتصميمها لتقليل الخروج. وتعرف على كيفية تسخير قوة الذكاء الاصطناعي الآن لمواجهة المواهب والأمان والتحديات الأخرى.

الأسئلة الشائعة حول إلغاء تكرار البيانات

ما هو مثال على إلغاء التكرار؟

ومن أمثلة إلغاء التكرار تشغيل النسخ الاحتياطية القائمة على الإصدار وأرشيفات بيانات المؤسسة. كل من هذه الأرشيفات سوف تحتوي على العديد من الحالات من نفس الملفات التي لم يمسها. باستخدام إلغاء التكرار، يتم تبسيط عملية النسخ الاحتياطي من خلال إنشاء إصدار جديد من الأرشيف بدون تلك الملفات المكررة. وبدلاً من ذلك، يحتوي الإصدار الجديد على مؤشرات إلى مصدر واحد، مما يسمح بوجوده داخل الأرشيف دون استخدام مساحة تخزين إضافية.

ما سبب إلغاء التكرار؟

السجلات المكررة لا تحتاج إلى مساحة تخزين. وتنتهي مساحة التخزين الإضافية هذه بأخذ المزيد من الموارد، بما في ذلك حجم التخزين وعرض النطاق الترددي للنقل وموارد الحوسبة، أثناء عمليات مثل عمليات مسح البرامج الضارة. تعمل ميزة إلغاء التكرار على تقليل حجم مساحة التخزين المستخدمة وتقليص إجمالي استخدام الموارد، سواء كان ذلك من خلال عرض النطاق الترددي أو سعة التخزين.

ما المقصود بتكرار البيانات؟

يمكن أن تظهر التكرارات من خلال كل من تكرار البيانات وتكرار البيانات. يشير تكرار البيانات إلى الحالات التي يقوم فيها المستخدم بإضافة ملف مكرر إلى النظام نفسه. يشير تكرار البيانات إلى الحالات التي يتم فيها دمج قواعد البيانات التي تحتوي على بعض الملفات أو السجلات المتداخلة لتكوين تكرارات.

ما هي عيوب إلغاء التكرار؟

بإمكان تقنية إلغاء التكرار توفير مساحة للتخزين لتوفير قدر أكبر من الكفاءة والتوفير في التكاليف على المدى البعيد. ومع ذلك، فإن العملية الفعلية لإلغاء التكرار تتطلب موارد كثيرة ويمكن أن تؤدي إلى إبطاء تشغيل أجزاء مختلفة من الشبكة، بما في ذلك أداء الحوسبة وعرض النطاق الترددي للنقل. وهذا يعني أنه يجب على أقسام تكنولوجيا المعلومات التفكير بشكل استراتيجي في جدولة إلغاء البيانات المكررة.