Michael Chen |コンテンツ・ストラテジスト| 2024年2月14日
データ重複排除とは、重複したデータやファイルを体系的に排除するプロセスであり、ストレージコストの削減やバージョン管理の改善に役立ちます。すべてのデバイスがデータを生成し、組織全体がファイルを共有する時代において、データの重複除外はIT業務の重要な部分です。また、データ保護と継続性プロセスの重要な部分でもあります。データ複製解除がバックアップに適用されると、重複するファイルおよびブロックが識別および排除され、一意の情報ごとに1つのインスタンスのみが格納されます。これにより、コストを節約できるだけでなく、ネットワーク経由で送信する必要のあるデータが少なくなるため、バックアップとリカバリの時間を短縮することもできます。
データ複製解除は、データベースおよびデータ・ストレージから同じファイルまたはブロックを削除するプロセスです。この処理は、ファイル単位、ブロック単位、さらにはバイト単位など、アルゴリズムによって異なる粒度で実行されます。多くの場合、結果は「データ重複除去率」と呼ばれるものによって測定されます。重複排除を行うことで、組織はより多くの空き容量を確保できるようになりますが、得られる効果の大きさは状況により異なります。特定の業務やファイル形式によって、重複が発生しやすい場合とそうでない場合があるためです。IT部門は定期的に重複をチェックする必要がありますが、重複排除の利点も大きく異なり、さまざまな要因によって左右されます。
主なポイント
データ複製解除プロセスでは、ツールはストレージボリュームの重複データをスキャンし、フラグが付けられたインスタンスを削除します。重複を検索するために、各データにアタッチされた一意の識別子(ハッシュ)が比較されます。一致するものが見つかった場合、データのコピーは1つだけ格納され、複製は元のコピーへの参照に置き換えられます。
重複除外システムは、ローカル・ストレージ、データ・カタログなどの管理ツール、およびデータ・ストア内で検索し、構造化データと非構造化データの両方をスキャンします。関連する内容を十分に理解するには、次の用語と定義が重要です。
データの重複除外は、ストレージ領域、計算能力、コストなどのリソースの節約に役立ちます。最も基本的な複製解除は、ストレージボリュームの縮小に関するものです。しかし、すべてのデバイスが大量のデータを生成し、ファイルが部門間で絶えず共有されている今、重複データの影響は広範囲に及ぶ結果になります。たとえば、プロセスの速度低下、ハードウェア・リソースの消費、冗長性の増加、および異なるチームが異なる冗長ファイルを使用する場合の混乱の増大などが考えられます。重複排除は、このすべてに対処するのに役立ちます。そのため、多くの企業がITメンテナンス戦略の一環として、定期的に実施しています。
データ重複排除はリソース集約型のデータ管理プロセスであるため、ネットワークの設計や従業員のファイルアクセスのタイミングなど、複数の要素を考慮して適切な実施時期を判断する必要があります。次に、データ複製解除を使用する最も一般的な状況を示します。
汎用ファイル・サーバーは、個々の従業員のファイル・キャッシュや共有部門フォルダなど、様々なデータ用のストレージおよびサービスを提供します。これらのサーバーは、利用ユーザー数が多く、かつユーザーの役割も多様であるため、重複ファイルが多数存在しやすいという特性があります。原因には、ローカル・ハード・ドライブからのバックアップ、アプリケーションのインストール、ファイル共有などがあります。
仮想デスクトップ・インフラストラクチャ・テクノロジは、リモート・アクセスのために仮想化されたデスクトップを一元的にホスティングおよび管理します。問題は、仮想ハードドライブが同一であることが多く、ストレージを消費する重複ファイルが含まれていることです。さらに、多数のユーザーが始業時間などに一斉に仮想マシンを起動すると、VDIブートストームと呼ばれる現象が発生し、パフォーマンスが著しく低下する、あるいは停止してしまうこともあります。重複排除はこの問題を緩和する手段のひとつであり、アプリケーションリソースをオンデマンドで呼び出す際に、インメモリキャッシュを活用することで対応可能です。
バックアップでは、適切な理由でファイルの重複バージョンが作成されます。ただし、同じファイルを永続的にコピーする必要はありません。データ重複排除を活用することで、ひとつの正規バックアップファイルだけを保持し、それ以降のバックアップはこのファイルへの参照として処理されます。これにより、冗長性を実現すると同時に、リソースとストレージ領域を最適化できます。
複製解除ツールは、より効率的なデータ転送プロセスを実現します。開始から終了への上書きを実行する代わりに、データ重複排除ツールはファイルをセグメント単位で識別します。ファイル転送プロセスの場合、ツールは更新済セグメントをスキャンし、必要に応じてセグメントを移動します。たとえば、大容量ファイルの新しいバージョンを受け取る場合に、変更がわずかなセグメントにとどまっていれば、そのセグメント部分だけを書き換えることで、転送や上書き処理が迅速に完了します。
アーカイブ・システムは、どちらも長期データ・ストレージに使用されるため、バックアップと混同されることがよくあります。どちらも長期的なデータ保存に用いられますが、バックアップは災害復旧や障害対策のために生成される一方、アーカイブは日常的に使用されなくなったデータの長期保存を目的としています。重複は、ストレージボリュームを組み合わせたり、アーカイブシステムに新しいセグメントを追加したりするときに生成されます。複製解除プロセスでは、アーカイブの効率が最大化されます。
大局的に見ると、データ重複排除ツールは、ファイルやファイルブロックの「識別用指紋(ハッシュ)」を比較し、重複を検出・排除する仕組みです。重複が確認されると、ログに記録されて消去されます。次に、プロセスの特定のステップの詳細を示します。
チャンク化とは、重複排除プロセスにおいて、ファイルをチャンク(chunk)と呼ばれる小さなセグメントに分割することを指します。これらのセグメントのサイズは、アルゴリズムで計算するか、確立されたガイドラインを使用して設定できます。チャンク化のメリットは、より精度の高い重複検出が可能になる点ですが、その分より多くの計算リソースを必要とします。
複製解除ツールによってデータが処理されると、ハッシュアルゴリズムによってハッシュが割り当てられます。その後、ハッシュが処理済データのログ内にすでに存在するかどうかがチェックされます。データがすでに存在する場合、データは重複として分類され、ストレージ領域を節約するために削除されます。
複製解除プロセスの結果は、削除されるセグメントまたはファイルと複製される内容を追跡する参照表に格納されます。参照表では、透過性とトレーサビリティを実現するとともに、ストレージボリューム内で各ファイルがどのソースを参照していたかの包括的な記録としても機能します。
組織は、予算、帯域幅、冗長性のニーズに最も適したものに基づいて、複数のデータ重複除外アプローチから選択できます。処理場所、処理時期、処理方法など、これらの要素を組み合わせて、組織に最適化されたソリューションを設計することが可能です。
インラインとポストプロセスの重複排除の図:
インライン複製解除:
ポストプロセス重複排除
文書を編集して冗長な語句や表現を取り除くことで内容を簡潔にするのと同様に、重複排除によって組織のデータが合理化され、ストレージ・コストの削減、帯域幅の消費の削減、バックアップ効率の向上などの効果を得ることができます。
存在するファイルが少なくなると、使用するストレージは少なくなります。れはデータ重複排除の最も明確で実感しやすいメリットの一つであり、バックアップやスキャンのために消費されるストレージ容量や計算資源や帯域幅の削減にもつながります。
データ重複排除によってバックアップの実行の負担が軽減されるため、より速く、簡単に障害回復できます。より小さなバックアップをより効率的に作成できるため、災害復旧もより迅速かつ簡易になります。
データ重複排除によりバックアップファイルの容量が縮小されることで、ストレージ、処理時間、計算リソースの使用量が削減されます。これにより、組織はバックアップをどのようにスケジュールするかを柔軟に選択できます。
転送する必要があるファイルが少なくなるほど、必要な帯域幅が少なくなります。つまり、転送で使用されるネットワーク・リソースは少なくなります。したがって、データ複製解除では、障害回復のためのバックアップのアーカイブおよびリコールのためのバックアップの転送など、あらゆる転送プロセスの需要を縮小することで、ネットワーク効率を向上させることができます。
データ量の急増により、あらゆる規模の組織におけるストレージ支出が急速に増加しています。重複除外は、日々のアクティビティとバックアップまたはアーカイブの両方に必要なストレージの量を削減することで、コスト削減に役立ちます。さらに、電力消費、計算処理能力、帯域幅の節約や、重複データの管理・トラブルシューティングにかかる人件費の削減といった二次的なコスト削減効果も期待できます。
データ重複除外は、リソースの使用を最大化し、コストを削減するための効果的なツールです。しかし、これらの利点にはいくつかの課題があり、その多くは詳細な重複除外に必要な計算能力に関連しています。データ複製解除に関連するもっとも一般的な欠点と懸念点は次のとおりです。
データ重複除外は、特にブロック・レベルで実行する場合、リソースを大量に消費します。ITチームは、ネットワーク帯域、業務活動の影響、バックアップ先、実行タイミング、締め切りなど、各組織の運用環境に合わせて、重複排除のスケジューリングと実行方法を慎重に計画する必要があります。
ハッシュ衝突とは、異なるデータチャンクに同一のハッシュ値が割り当てられてしまう現象を指します。ブロック単位で重複排除を行う際には、各チャンクにハッシュを付与するため、偶発的なハッシュの重複によってデータ破損のリスクが生じる可能性があります。ハッシュ衝突を回避するには、ハッシュ表のサイズを増やすか、連鎖やオープン・アドレス指定などの衝突解決方法を実装します。連鎖には、同じハッシュ・キーを持つ複数の要素がリンク・リストまたは別のデータ構造に格納されるのに対し、オープン・アドレス指定では、ハッシュ表内の別の空き領域に重複要素を配置する必要があります。それぞれの手法には長所と短所があるため、ITチームはハッシュアルゴリズムの長さ・複雑さと回避手段の実装コストを総合的に評価する必要があります。
どんなプロセスにも完全な安全性はなく、重複排除の過程で本来ユニークで重要なデータが誤って削除・改変される可能性もあります。整合性の問題の原因には、ハッシュ衝突、破損したソース・ブロック、ディスク障害、手動エラー、停電などの予期しないイベントによる中断されたプロセス、サイバー攻撃、単純なオペレータ・エラーなどがあります。今日のデータ重複排除ツールとプロトコルの品質を考慮すると、整合性の問題はまれですが、一度発生すると重大な復旧作業が必要となるため、油断は禁物です。
重複排除プロセスでは、処理された各ブロックに変更ログやデジタル署名といったメタデータが新たに付与されます。これは「指紋ファイル」と呼ばれます。このメタデータにはストレージ領域が必要なだけでなく、独自のデータ整合性の問題も発生する可能性があります。たとえば、破損した場合、リカバリ・プロセスは大幅に困難になります。
データ重複排除は長期的にはストレージコスト削減に寄与しますが、初期導入には一定のコストがかかります。これらのコストには、通常、レコード数に基づいて課金される重複排除ツール自体のライセンス、および重複排除プロセスの設計、実行、および管理に必要なITスタッフの時間が含まれます。
実際の現場で、データ重複排除はどのように活用されているのでしょうか?理論的には、単純なデータ・サイエンスの概念です。重複データを排除して、リソース消費を減らし、浮動するファイルのバージョンが複数ある場合に発生するエラーを最小限に抑えます。しかし、さまざまなセクター、業界、さらには部門には独自の目標とニーズがあります。一般的なユースケースを次に示します。
顧客関係管理: CRMシステム内では、顧客レコード、連絡先情報および取引は、複数のソース、詳細レベルおよびフォーマットを使用して記録されることがあります。これにより、データの一貫性が失われ、1人のマネージャが別のマネージャと若干異なるレコードを持つ場合があります。たとえば、ある連絡先のレコードが複数のデータ・リポジトリに保持され、1人のみが退職後に更新された場合、一部の従業員は古い情報を使用し続ける可能性があります。データ重複排除を行うことで、正確な顧客情報の単一ソースを確保でき、組織全体が常に最新データを用いて可視化や分析を行えるようになります。
データ統合: 2つの組織が買収や内部再編によって合併すると、同じアプリケーションの異なるインスタンスに含まれるデータによって、重複したレコードが作成される可能性があります。たとえば、大企業が中小競合を買収した結果、顧客の40%が重複しており、それが両者のERPシステムに反映されている場合などです。データ重複排除によって、このような冗長なデータを削除し、ストレージ容量を節約すると同時に、組織全体で常に最新の情報だけを活用できるようになります。
仮想コンピューティング:テスト環境や社内システムへのアクセスのために仮想デスクトップを使用する際、大量のユーザーが利用する場合は特に、データ重複排除によって効率性が向上します。仮想マシンにはよく似たデータが含まれているため、ファイルの重複バージョンが多くなります。重複排除を行うことで、仮想マシンによって生成される重複ファイルを削除し、ストレージの過剰使用を防止できます。
銀行業:金融機関内では、異なる部門や支店が顧客情報の重複レコードを保持する場合があります。こうした重複記録は、不正取引や個人情報の盗用といった犯罪の足掛かりになり得ます。また、重複データを調査および処理して不正がないか確認するには、より多くのリソースが必要です。データ重複除外は、銀行と信用組合の効率性とセキュリティを向上させるのに役立ちます。
これはほんの一例に過ぎません。大量のデータを扱うあらゆる組織が、データ重複排除の恩恵を受けることができます。
多数のプロバイダがデータ重複除外ツールを提供していますが、組織に適したものはどれですか。選定時にチームが考慮すべき主な要因は次のとおりです。
データ重複排除の問題を解決する最善の方法は、そもそも重複を発生させないことです。Oracle HeatWaveは、トランザクション、データウェアハウスとデータレイク、機械学習、生成AIにわたるリアルタイム分析を1つのクラウドサービスに統合することで、これを支援します。HeatWave を利用することで、トランザクションデータベースから別の分析用データベースにデータを複製する必要がなくなり、以下のような利点が得られます。
HeatWave AutoMLが組み込まれているため、お客様は、別の機械学習サービスにデータを複製することなく、HeatWave内で機械学習モデルを構築、トレーニング、説明することができます。
HeatWave GenAIは、データベース内大規模言語モデル(LLM)、自動化された、データベース内ベクトル・ストア、スケールアウト・ベクトル処理、自然言語でのコンテキストに応じた対話機能など、統合的で自動化されたセキュアなGenAIを提供します。これにより、お客様はAIの専門知識がなく、データを別のベクトル・データベースに移動することなく、GenAIを利用できます。
HeatWaveを使用すると、トランザクション、分析、機械学習、およびGenAIの複数のクラウド・サービスにわたってデータの重複を排除できるため、お客様はデータ・インフラストラクチャを簡素化し、より多くの情報に基づいた迅速な意思決定を行い、生産性を高め、セキュリティを向上させ、コストを削減できます。さらに、お客様は、公開されているベンチマークで示されているように、分析ワークロードに最適なパフォーマンスとコストパフォーマンスを得ることができます。
AIは、CIOがデータを分析してクラウド支出を最適化したり、アーキテクトにコードの調整を提案してエグレスを最小限に抑えたりするのに役立ちます。人工知能のパワーを今すぐ活用して、人材、セキュリティ、その他の課題に対処する方法をご確認ください。
重複排除の一例として、バージョン管理されたバックアップやアーカイブを実行する際のケースがあります。これらのアーカイブには、変更されていない同一ファイルが多数含まれることが一般的です。複製解除では、複製ファイルなしでアーカイブの新しいバージョンを作成することによって、バックアッププロセスが合理化されます。代わりに、新しいバージョンには単一のソースへの参照が含まれているため、追加のストレージ領域を使用せずにアーカイブ内に存在できます。
重複するレコードによって、ストレージ領域が不必要に消費されます。この追加のストレージ領域では、マルウェア・スキャンなどのプロセス中に、ストレージ・ボリューム、転送帯域幅、コンピュート・リソースなど、より多くのリソースが必要になります。重複排除によってストレージ使用量が削減され、それに伴って帯域幅やリソース使用量も抑えられます。
重複は、データの重複とデータの冗長性の両方によって出現する可能性があります。データの重複とは、ユーザーが重複ファイルをシステム自体に追加する状況を指します。データ冗長性とは、一部の重複するファイルまたはレコードがマージされて重複が作成される状況を指します。
重複除外により、ストレージ領域が解放され、長期的な効率とコスト削減が可能になります。ただし、複製解除の実際のプロセスはリソースを大量に消費し、計算パフォーマンスや転送帯域幅など、ネットワークのさまざまな部分が遅くなる可能性があります。つまり、IT部門は重複除外のスケジューリングについて戦略的に考える必要があります。