Aaron Ricadela | starszy redaktor | 25 lipca 2024 r.
Różne katastrofy mogą wyłączyć krytyczne systemy, uszkodzić biura i centra danych lub sprawić, że bazy danych i aplikacje niezbędne do prowadzenia normalnej działalności biznesowej staną się tymczasowo niedostępne. Plan odzyskiwania po awarii to proces biznesowy i plan technologiczny, który umożliwia szybkie przywrócenie najważniejszych systemów i aplikacji, by można było wznowić pracę, podczas gdy inne będą przywracane.
Odzyskiwanie po awarii obejmuje techniczne plany firmy dotyczące przywracania do pracy zadań obliczeniowych po zakłóceniu, a także metody testowania tych planów przed wystąpieniem katastrofy. W planie odzyskiwania po awarii obciążenia są klasyfikowane według wagi. Firmy dążą do minimalizowania przestojów i utraty danych, jednocześnie równoważąc koszty związane z tym procesem dla każdego obciążenia.
Chociaż odzyskiwanie po awarii od dawna jest ważnym elementem operacji IT, przetwarzanie w chmurze i architektury oprogramowania internetowego obniżają koszty i nakład pracy związany z wdrażaniem kompleksowych planów odzyskiwania po awarii.
Odzyskiwanie po awarii opisuje zasady, technologie i budżet, które firmy przeznaczają na przywracanie ważnych systemów IT do działania po nieoczekiwanych przestojach spowodowanych błędami operatora, niewłaściwym użytkowaniem, błędami oprogramowania, klęskami żywiołowymi lub innymi katastrofami. Przed wystąpieniem zakłóceń firmy muszą określić, które aplikacje o newralgicznym znaczeniu muszą zostać przywrócone natychmiast po katastrofie i uporządkować inne w grupy według wagi, zwane warstwami. Następnie muszą zdecydować, ile przestojów i utraty danych firma może zaakceptować dla każdej aplikacji i odpowiednio zaplanować strategie IT.
Odzyskiwanie po awarii jest ważne, ponieważ nieplanowane przestoje spowodowane zakłóceniami mogą prowadzić do znacznych strat finansowych, wynoszących nawet 100 000 USD na godzinę, co wynika z szacunków branżowych. Długotrwałe przestoje mogą również zaszkodzić reputacji marki i skutkować karami lub sankcjami regulacyjnymi. W niektórych ściśle regulowanych branżach, w tym usługach finansowych, energetyce i opiece zdrowotnej, firmy muszą przywrócić dane i operacje szybciej, niż pozwalają na to konwencjonalne kopie zapasowe danych.
Nieplanowane przestoje mogą również kosztować życie, szczególnie w przypadku usług ratunkowych i opieki zdrowotnej. Jeśli wydarzy się katastrofa, taka jak huragan, tornado lub trzęsienie ziemi, wszystkie usługi są zagrożone. Czy informacje mogą przepływać tam, gdzie są potrzebne, aby uratować życie?
Istnieją dwa krytyczne wskaźniki odzyskiwania po awarii: docelowy czas przywracania (RTO), który mierzy maksymalny czas, w którym system może pozostać offline, oraz docelowy punkt przywracania (RPO), który mierzy, ile danych firma może sobie pozwolić utracić i jest związany z częstotliwością tworzenia kopii zapasowych lub replikacji. W obu przypadkach krótsze progi są lepsze, ale droższe. Organizacje IT często ustalają RTO i RPO dla każdego obsługiwanego systemu, co pozwala im zrównoważyć koszty z krytycznością.
Odzyskiwanie po awarii to dobrze znana praktyka, ale większe wykorzystanie usług w chmurze w połączeniu z lekkimi wdrożeniami pilotażowymi, które wykorzystują aktualne dane na żywo i usługi rezerwowe do restartowania systemu w chmurowym centrum danych, pomaga planistom osiągnąć doskonałe wskaźniki RTO i RPO za mniejsze pieniądze. Wynika to z faktu, że dostawcy chmury inwestują w redundancję w każdej warstwie infrastruktury, co umożliwia zautomatyzowane i częściowo zautomatyzowane procesy przejmowania awaryjnego i odzyskiwania. Są to inwestycje, których klienci już nie muszą ponosić. Ponadto lekkie wdrożenia pilotażowe mogą skrócić czas potrzebny na przywrócenie usług do kilku minut.
Więcej informacji o wdrożeniach odzyskiwania po awarii w chmurze.
Wiele rodzajów katastrof może mieć wpływ na systemy IT, w tym cyberataki, awarie sprzętu, klęski żywiołowe i awarie spowodowane błędami ludzkimi. Niektóre można przewidzieć. Na przykład wszystkie organizacje mogą być celem cyberataków. Niektóre firmy mają siedziby w miejscach, gdzie bardziej prawdopodobne są klęski żywiołowe, takie jak huragany, trzęsienia ziemi i powodzie. Błąd ludzki jest stałym czynnikiem.
Zadanie polega na tym, aby być gotowym do reagowania, gdy coś pójdzie nie tak.
Nieplanowane awarie to niespodziewane przerwy w działaniu systemu lub usługi, których skutkiem są przestoje i zakłócenia normalnego funkcjonowania. Przerwy te mogą wystąpić z powodu omówionych wcześniej czynników i mogą mieć poważne konsekwencje dla firm, w tym utratę przychodu, szkody reputacyjne, spadek zadowolenia klientów, a nawet utratę życia. Konieczne jest wdrożenie planów odzyskiwania po awarii, aby zminimalizować wpływ nieplanowanych przestojów i zapewnić szybkie przywrócenie usług.
Technologie o wysokiej dostępności, które replikują dane między węzłami w klastrze lub łączą serwery w klastrze, umożliwiając ich przełączanie się w razie awarii i utrzymanie pracy, mogą zapewnić bardzo wysoki poziom usług IT. Technologie te mają na celu wyeliminowanie pojedynczych punktów awarii i generalnie są wspierane umowami SLA, które gwarantują procentowy czas dostępności. W chmurze wysoka dostępność chroni infrastrukturę fizyczną, w tym zasilanie, chłodzenie, pamięć masową, sieci i serwery. Oprogramowanie do równoważenia obciążenia na poziomie aplikacji pomaga również zapewnić wysoki poziom dostępności.
Natomiast odzyskiwanie po awarii chroni przed wieloma punktami awarii i ma na celu przywrócenie krytycznych obciążeń do stanu operacyjnego po ekstremalnych zakłóceniach, takich jak trzęsienie ziemi lub huragan, które zniszczyłyby obiekt. Lokalizacje odzyskiwania po awarii są zazwyczaj geograficznie odległe od siebie.
Zarówno technologie wysokiej dostępności, jak i odzyskiwania po awarii powinny być częścią kompleksowego planu ciągłości działania.
Głównym celem planu odzyskiwania po awarii jest zapewnienie jednostkom biznesowym możliwości kontynuowania pracy w czasie kryzysu. Plany odzyskiwania po awarii obejmują procesy szybkiego restartowania usług przetwarzania i ograniczania strat w danych i dolarach. Ich celem jest również spełnienie wymogów regulacyjnych dotyczących ciągłości działania i przechowywania danych.
Dwa główne wskaźniki planów przywracania awaryjnego to: docelowy czas przywracania (RTO) i docelowy punkt przywracania (RPO). Każdy system, w którym prowadzona jest działalność biznesowa, może mieć różne wymagania dotyczące RTO i RPO w zależności od umów SLA między IT a odpowiednimi jednostkami biznesowymi.
Dla każdej aplikacji lub usługi RTO to maksymalny dozwolony czas przestoju po nieplanowanym wyłączeniu, podczas gdy RPO mierzy maksymalną ilość utraconych danych, którą firma może tolerować. Krótsze/mniejsze progi są lepsze, ale generalnie droższe. Organizacje IT mogą ustawić RTO i RPO dla każdego obsługiwanego systemu, aby zrównoważyć koszty z krytycznością.
Plany odzyskiwania po awarii obejmują dokładną ocenę potencjalnego ryzyka związanego z katastroficznymi zdarzeniami, możliwych szkód w operacjach, wpływu na pracowników i zewnętrznych interesariuszy oraz strat finansowych lub kar regulacyjnych, które mogą zostać nałożone w wyniku tych zdarzeń.
W ramach opracowywania planu odzyskiwania po awarii firmy muszą określić sponsorów wykonawczych i zespoły, których to dotyczy; katalogować zasoby fizyczne i informatyczne, które mogą zostać uszkodzone w wyniku katastrofy; oraz wziąć pod uwagę potencjalny wpływ na klientów, dostawców, partnerów i innych interesariuszy.
Działy IT muszą zdecydować, które obciążenia można przywrócić z kopii zapasowych, które wymagają danych na żywo w połączeniu z usługami działającymi z mniejszą wydajnością, a które wymagają pełnej mocy obliczeniowej. W niektórych przypadkach aktywne systemy, które zostaną wyłączone, automatycznie przełączą się na systemy rezerwowe, co powoduje minimalne przestoje i zerową utratę danych. W innych przypadkach przełączanie będzie wykonywane ręcznie. Zespoły IT będą chciały wybrać miejsca kopii zapasowych i opracować plan, który pozwoli na szybkie uruchomienie aplikacji. Chmura jest dużą pomocą. Firmy muszą również szukać zależności IT, które mogłyby utrudnić ponowne uruchomienie operacji, czyli przypadki, w których jedna wyłączona aplikacja uniemożliwia ponowne uruchomienie innej.
Oprócz tych aspektów technicznych kadra kierownicza i działy biznesowe powinny mieć opracowane plany komunikacji i reagowania w sytuacjach kryzysowych, a także procedury szkolenia pracowników w zakresie planu odzyskiwania po awarii, testowania i przeprowadzania symulacji, a stale doskonalić te plany.
Każdy plan odzyskiwania po awarii powinien zawierać ocenę ryzyka zdarzeń, które mogłyby zakłócić działalność firmy, analizę wpływu na aplikacje oraz oszacowanie wynikających z tego strat finansowych. Analiza wpływu biznesowego powinna obejmować RTO i RPO dla każdej aplikacji. Firmy mogą następnie opracować plany odzyskiwania i zdecydować, gdzie warto zrezygnować z wyższych kosztów na rzecz skrócenia czasu odzyskiwania i celów punktu odzyskiwania.
Podejścia do tworzenia kopii zapasowych i odzyskiwania danych znajdują się na spektrum kosztów wydajności i obejmują:
Nie wystarczy utworzyć inwentaryzacji IT, określić warstwy aplikacji i mapować zależności. Aby odzyskiwanie po awarii działało na poziomie, jakiego oczekuje firma, każda technologia, od systemów operacyjnych po aplikacje, musi być nadmiarowa. Sukces odzyskiwania po awarii zależy również od regularnych testów, którymi mogą być ćwiczenia symulacyjne, w których interesariusze omawiają kroki werbalnie lub fizycznie przechodzą przez środki podejmowane przez dział IT, oraz testowanie komponentów systemu, które są używane tylko podczas katastrof.
Przepisy dotyczące raportowania finansowego i ochrony danych mają również wpływ na plany odzyskiwania po awarii. Na przykład ustawa Sarbanesa-Oxleya, amerykańska korporacyjna ustawa o raportowaniu finansowym, określa wymagania dotyczące przechowywania danych. Amerykańska ustawa o przenośności i odpowiedzialności ubezpieczenia zdrowotnego (HIPAA) wymaga planów awaryjnych dla elektronicznych informacji zdrowotnych na wypadek katastrofy, a ogólne rozporządzenie o ochronie danych (RODO) Unii Europejskiej nakłada obowiązek zapewnienia dostępności danych osobowych obywateli w czasie katastrofy.
Disaster Recovery as a Service (DRaaS) to usługa w chmurze, która pozwala firmom uruchamiać aplikacje w chmurze publicznej lub chmurze hybrydowej, z planem odzyskiwania po awarii realizowanym w obiektach dostawców chmury, a nie w lokalnym centrum danych. Oparte na chmurze oferty DRaaS umożliwiają firmom zdalne przenoszenie obciążeń, baz danych i aplikacji między regionami chmurowymi oraz automatyzację kroków niezbędnych do odzyskania systemów biznesowych bez konieczności zmiany ich architektury lub korzystania ze specjalistycznego oprogramowania do zarządzania. Bardzo ważne jest, aby rozwiązanie DRaaS dostawcy chmury zapewniało wysoką dostępność w regionie rezerwowym, aby na wypadek katastrofalnego wydarzenia było dostępnr i działało sprawnie.
Firmy mogą korzystać z odzyskiwania po awarii w chmurze, aby zaplanować odzyskiwanie danych po klęsce żywiołowej, która zniszczy infrastrukturę, lub po incydencie cybernetycznym, takim jak atak ransomware, w wyniku którego dostęp do zasobów sieci lokalnej zostaje odcięty. Biorąc pod uwagę, że dane mogą być przechowywane w chmurze regionalnej, strategia ta może być zgodna z przepisami o ochronie danych, takimi jak RODO. DRaaS może być również dobrym rozwiązaniem, gdy budżety są ograniczone, ponieważ koszty mogą być niższe niż w przypadku tworzenia nadmiarowych lokalizacji odzyskiwania.
Opracowanie planu odzyskiwania po awarii powinno rozpocząć się od oceny ryzyka potencjalnych katastrof i ich wpływu na systemy informatyczne i procesy biznesowe. Następnie zespoły IT, działy biznesowe oraz kierownictwo powinny ocenić zasoby i systemy według ich znaczenia i przypisywać strategie odzyskiwania po awarii, aby je chronić, biorąc pod uwagę pożądane RTO i RPO oraz dostępny budżet. Plany odzyskiwania po awarii są częścią większych planów zapewnienia ciągłości działania, które mają na celu skrócenie czasu od katastrofy, cyberataku lub przestoju spowodowanego błędem technicznym do momentu odzyskania pełnej funkcjonalności. Muszą być stale testowane i aktualizowane.
Tradycyjne odzyskiwanie po awarii opiera się na nadmiarowych serwerach i urządzeniach pamięci masowej znajdujących się w firmowym centrum danych lub na tworzeniu kopii zapasowych danych biznesowych i instancji aplikacji w odległych centrach danych, aby problem w jednej lokalizacji geograficznej nie spowodował uszkodzenia kopii znajdujących się w odległych miejscach. Oparte na chmurze strategie odzyskiwania po awarii pozwalają firmom zaoszczędzić na kosztach początkowych, przechowując mniejsze lub rezerwowe kopie instancji aplikacji w chmurze publicznej, skalując je poprzez dodanie zasobów obliczeniowych, gdy muszą zostać uruchomione w sytuacji awaryjnej. Firmy mogą również rozproszyć krytyczne aplikacje w wielu regionach chmurowych.
Procedura odzyskiwania po awarii zawiera przegląd etapów i sekwencji niezbędnych do ponownego uruchomienia systemów, odzyskania danych i komunikowania się w czasie kryzysu. Instrukcje odzyskiwania po awarii zawierają więcej szczegółów na temat procesów odzyskiwania i powiązanej z nimi dokumentacji. Zapewniają łatwe do śledzenia listy kontrolne dotyczące przenoszenia operacji cyfrowych w celu zapewnienia bezpieczeństwa w sytuacjach awaryjnych, a także ułatwiają testowanie lub przełączanie awaryjne w trakcie kryzysu. Procedury i instrukcje pokazują firmom, jak etapowo przeprowadzać operacje odzyskiwania, a także identyfikują krytyczne systemy i umowy SLA.
Procedury odzyskiwania po awarii obejmują ocenę ryzyka, zespoły zaangażowane w plan, a także wsparcie zarządzania, strategie odzyskiwania i procedury testowania. Instrukcje mogą zawierać szczegółowe listy kontrolne dla różnych baz danych, serwerów i narzędzi sieciowych, aby pracownicy mogli wykonywać kroki odzyskiwania pod presją czasu.
Odzyskiwanie po awarii to proces polegający na wykonaniu każdego z ustalonych wcześniej w planie DR kroku lub zadania wymaganego do przywrócenia infrastruktury, baz danych i aplikacji do stanu pełnej sprawności. Do opisania przejścia stosu aplikacji do innej lokalizacji służą dwa terminy: przejmowanie awaryjne i przełączanie.
Przejmowanie awaryjne umożliwia szybkie przełączenie na system zapasowy podczas nieoczekiwanych kryzysów, w przerw w dostawie prądu i awarii sprzętu. Jest stosowane, gdy aplikacje, bazy danych i maszyny wirtualne uległy awarii, a zasoby, takie jak pamięć masowa, dane i systemy operacyjne, są w niestabilnym stanie.
Przełączanie to uporządkowane przejście do systemu zapasowego podczas zaplanowanego wyłączenia w celu przeprowadzenia konserwacji. Pozwala na wyłączenie aplikacji, baz danych oraz maszyn wirtualnych lub serwerów. W takim przypadku zarówno region podstawowy, jak i rezerwowy działają normalnie, a pracownicy działów IT przenoszą systemy z jednego regionu do drugiego w celu przeprowadzenia konserwacji lub dokończenia aktualizacji.
Elastyczność przetwarzania w chmurze pozwala firmom wdrażać strategie odzyskiwania po awarii, które spełniają ich wymagania, bez nadmiernego zwiększania budżetu. Rozwiązania chmury hybrydowej, w których niektóre zasoby działają lokalnie, a niektóre w chmurze publicznej, mogą obniżyć koszty odzyskiwania po awarii. Architektury chmurowe, w tym mikrousługi, umożliwiają uruchamianie komponentów oprogramowania na rozproszonych serwerach wirtualnych, co czyni je mniej podatnymi na wiele rodzajów katastrof.
Międzyregionalne rozwiązania do odzyskiwania po awarii chronią organizacje przed przestojami, takimi jak te spowodowane przez huragany, które uniemożliwiłyby dostęp do systemów hostowanych tylko w jednym centrum danych. Usługi mogą działać w odpornych na awarie, geograficznie odległych i izolowanych domenach dostępności poza strefą wpływu. Cały stos aplikacji w danym systemie, w tym maszyny wirtualne, bazy danych i aplikacje, można przenieść do innego regionu chmurowego w innej lokalizacji.
Chmura hybrydowa to popularna architektura, która pozwala firmom przenieść niektóre obciążenia z własnych centrów danych do infrastruktury chmurowej. Może to być również pomocne w przypadku odzyskiwania po awarii. Wdrożenie architektury hybrydowej zazwyczaj wymaga uruchamiania obciążeń na serwerach wirtualnych, dzięki czemu podstawowy sprzęt w centrum danych w chmurze można łatwo zmienić bez wpływu na operacje.
Gdy obciążenia zostaną zwirtualizowane, można je ponownie uruchomić w środowisku chmurowym, gdy główne centra danych staną się niedostępne. Centra danych w chmurze mogą stanowić ekonomiczną alternatywę dla rozproszonych geograficznie centrów danych.
Wielochmurowe rozwiązania DR chronią aplikacje i dane dzięki rozłożeniu komponentów aplikacji w infrastrukturach chmurowych co najmniej dwóch dostawców. Strategia ta może być odpowiednia dla firm, które korzystają z więcej niż jednego dostawcy chmury, pozwalając im ustalić cele dotyczące czasu i punktu przywracania dla różnych aplikacji, przy jednoczesnym zarządzaniu kosztami i podejmowaniu decyzji dotyczących rozproszenia geograficznego. Proces odzyskiwania po awarii w wariancie multicloud może również wynikać z projektu usług i aplikacji.
Usługi orkiestracji i zarządzania mogą zapewnić kompleksowe odzyskiwanie po awarii dla wszystkich warstw stosu aplikacji, w tym infrastruktury, baz danych i oprogramowania pośredniczącego. DRaaS redukuje liczbę błędów ludzkich i minimalizuje czas odzyskiwania, szybko wykonując procesy odzyskiwania po awarii, aby przywrócić stosy aplikacji w różnych regionach.
Oracle Cloud Infrastructure (OCI) Full Stack Disaster Recovery umożliwia klientom zarządzanie przenoszeniem infrastruktury, baz danych i aplikacji między regionami OCI na całym świecie. Klienci mogą korzystać z usługi Full Stack DR bez konieczności przeprojektowywania lub ponownego wdrażania istniejących infrastruktur, baz danych lub aplikacji, jednocześnie eliminując potrzebę stosowania specjalnych serwerów pamięci masowej lub serwerów zarządzania.
Twórz, testuj i wdrażaj aplikacje na platformie Oracle Cloud — bezpłatnie.
Dlaczego odzyskiwanie po awarii jest istotne dla firm?
Nieplanowane przestoje w przedsiębiorstwie są kosztowne. Ponad dwie trzecie z nich kosztuje ponad 100 000 USD, według grupy doradczej IT Uptime Institute, podczas gdy jedna czwarta nieplanowanych przestojów IT kosztuje ponad 1 milion USD.
Jakie są najważniejsze elementy planu odzyskiwania po awarii?
Plan odzyskiwania po awarii obejmuje strategię firmy dotyczącą wyboru lokalizacji kopii zapasowych lub wdrażania obciążeń obliczeniowych w chmurze publicznej w sposób, który pozwala na szybkie wznowienie działania. Organizacje muszą również klasyfikować swoje krytyczne i ważne aplikacje biznesowe oraz mapować zależności między nimi, które mogą utrudnić ponowne uruchomienie oprogramowania.
Czym różni się odzyskiwanie po awarii od tworzenia kopii zapasowych danych?
Tworzenie kopii zapasowych danych na zdalnym serwerze lub witrynie jest jednym z elementów odzyskiwania po awarii, ale nowoczesne plany obejmują znacznie więcej. Firmy muszą uwzględnić strategie technologiczne, które łączą replikację danych z dostępnością usługi, aby utrzymać koszty pod kontrolą, jednocześnie umożliwiając zrestartowanie aplikacji z małej, rezerwowej instancji.
W jaki sposób przetwarzanie w chmurze wpływa na odzyskiwanie po awarii?
Technologie chmurowe mogą zapewnić zabezpieczenia na czas katastrofy, dzieląc regiony chmury na domeny dostępności, które są od siebie odizolowane i odporne na awarie. Firmy mogą replikować systemy w celu zapewnienia wysokiej dostępności i odzyskiwania po awarii, korzystając z zasobów i usług często oferowanych przez dostawcę chmury.