Aaron Ricadela | senior-schrijver | 25 juli 2024
Er zijn allerlei situaties denkbaar waarin kritieke systemen niet meer beschikbaar zijn, kantoren en datacenters beschadigd raken of de databases en applicaties die nodig zijn om normale bedrijfsactiviteiten uit te voeren, tijdelijk onbruikbaar zijn. Een noodherstelplan is een stappenplan voor de processen en technologieën van een bedrijf om snel een back-up te maken van de belangrijkste systemen en applicaties, zodat het werk kan worden hervat terwijl andere zaken worden hersteld.
Noodherstel (DR) omvat de technische plannen van een bedrijf om de computerworkloads weer online te krijgen na een verstorende gebeurtenis, evenals de methoden om het playbook te testen voordat calamiteiten plaatsvinden. In een noodherstelplan worden workloads op volgorde van belangrijkheid gerangschikt. Bedrijven willen downtime van computing en verloren data zoveel mogelijk beperken en tegelijkertijd de kosten voor elke workload in evenwicht houden.
Hoewel noodherstel al lang een belangrijk onderdeel van IT-activiteiten is, verlagen cloudcomputing en software-architecturen die voor internet zijn ontworpen de kosten en het werk van het implementeren van uitgebreide noodherstelplannen.
Noodherstel omvat het beleid, de technologieën en het budget dat bedrijven besteden aan het online brengen van belangrijke IT-systemen na onverwachte downtime veroorzaakt door fouten van operators, storingen, softwarefouten, natuurrampen of andere calamiteiten. Al voordat een verstoring optreedt, moeten bedrijven identificeren welke bedrijfskritische applicaties onmiddellijk na een ramp moeten worden hersteld en anderen rangschikken in belangrijke groepen, ook wel lagen of tiers genaamd. Vervolgens moeten ze beslissen hoeveel downtime en dataverlies acceptabel is voor elke applicatie en de IT-strategieën dienovereenkomstig plannen.
Noodherstel is belangrijk omdat ongeplande downtime veroorzaakt door verstorende gebeurtenissen kan leiden tot aanzienlijke financiële verliezen, in de orde van grootte van $ 100.000 per uur, volgens schattingen van de branche. Langdurige downtime kan ook de reputatie van een merk schaden en regelgevende berispingen of sancties tot gevolg hebben. In sommige sterk gereguleerde sectoren, waaronder financiële dienstverlening, energie en gezondheidszorg, moeten bedrijven data- en computeractiviteiten sneller herstellen dan conventionele back-ups mogelijk maken.
Ongeplande downtime kan ook levens kosten op gebieden zoals noodhulpdiensten en gezondheidszorg. Als er een catastrofale gebeurtenis is, zoals een orkaan, tornado of aardbeving, lopen alle diensten gevaar. Is informatie toegankelijk waar deze nodig is om levens te redden?
Er zijn twee zeer belangrijke meetwaarden voor noodherstel: RTO (doelstelling voor hersteltijd), waarmee de maximale tijd wordt gemeten dat een systeem offline kan blijven en RPO (doelstelling voor herstelpunt), waarmee wordt gemeten hoeveel data een bedrijf zich kan veroorloven te verliezen. RPO is gekoppeld aan de frequentie van back-ups of replicatie. Voor beide meetwaarden zijn kortere drempels beter, maar duurder. IT-organisaties stellen vaak een RTO en RPO in voor elk systeem dat ze uitvoeren, zodat ze de kosten in evenwicht kunnen brengen met de kritiekheid.
Noodherstel wordt veelvuldig toegepast, maar een grotere inzet van cloudservices in combinatie met zogenaamde pilot light-implementaties, die live, up-to-date data gebruiken met stand-by services om een systeem opnieuw op te starten in een clouddatacenter, helpt planners om uitstekende RTO- en RPO-meetwaarden te realiseren voor minder geld. Dat komt omdat cloudproviders investeren in redundantie op elke infrastructuurlaag, waardoor geautomatiseerde en semi-automatische failover- en herstelprocessen mogelijk zijn. Dit zijn investeringen die klanten niet meer hoeven te doen. Bovendien is het door pilot light-implementaties mogelijk services binnen enkele minuten weer operationeel te krijgen.
Meer informatie over noodherstelimplementaties in de cloud volgt.
Veel soorten rampen kunnen van invloed zijn op IT-systemen, waaronder cyberaanvallen, hardwarefouten, natuurrampen en uitval als gevolg van menselijke fouten. Sommigen rampen kun je op inspelen. Zo kunnen alle organisaties het doelwit zijn van cyberaanvallen. Sommige bedrijven zijn gevestigd op locaties waar natuurrampen zoals orkanen, aardbevingen en overstromingen vaker op optreden. Menselijke fouten zijn uiteraard een constante.
Het is dan ook belangrijk om snel te kunnen reageren als er iets misgaat.
Niet-geplande uitval zijn onverwachte onderbrekingen in een systeem of service die leiden tot downtime en verstoring van normale activiteiten. Deze uitval kan optreden als gevolg van de zojuist besproken factoren en kan ernstige gevolgen hebben voor bedrijven, waaronder verloren omzet, reputatieschade, verminderde klanttevredenheid en zelfs verlies van mensenlevens. Het is essentieel om herstelplannen op te stellen om de impact van niet-geplande uitval te minimaliseren en een snel herstel van services te garanderen.
Technologieën voor hoge beschikbaarheid waarmee data tussen nodes in een cluster of op clusterservers worden gerepliceerd zodat deze processen van elkaar kunnen overnemen en workloads draaiende kunnen houden, kunnen zorgen voor zeer hoge IT-serviceniveaus. Deze technologieën zijn gericht op het elimineren van single points of failure en worden over het algemeen ondersteund door SLA's die uptime-percentages garanderen. In cloudcomputing zorgt hoge beschikbaarheid voor bescherming van de fysieke infrastructuur, inclusief stroom, koeling, opslag, netwerken en servers. Software voor load balancing op applicatieniveau helpt ook een hoge mate van uptime te garanderen.
Noodherstel daarentegen beschermt tegen meerdere storingspunten en heeft tot doel kritieke workloads na een extreme verstoring weer operationeel te maken, zoals wanneer een faciliteit uitvalt door een aardbeving of orkaan. Locaties voor noodherstel liggen meestal geografisch ver uit elkaar.
Technologieën voor zowel hoge beschikbaarheid als noodherstel moeten deel uitmaken van een uitgebreid plan voor bedrijfscontinuïteit.
Het primaire doel van een noodherstelplan is ervoor te zorgen dat bedrijfsonderdelen tijdens een crisis kunnen blijven functioneren. Noodherstelplannen omvatten processen voor het snel opnieuw opstarten van computerservices en het beperken van verlies van data en geld. Daarnaast zijn ze gericht op het voldoen aan wettelijke vereisten voor bedrijfscontinuïteit en databewaring.
De twee primaire meetwaarden voor noodherstelplannen zijn RTO (doelstelling voor hersteltijd) en RPO (doelstelling voor herstelpunt). Elk systeem dat binnen een bedrijf wordt uitgevoerd, kan verschillende RTO- en RPO-vereisten hebben, afhankelijk van de SLA's tussen IT en de relevante bedrijfsonderdelen.
Voor elke applicatie of service is de RTO de maximaal toegestane uitvaltijd na een niet-geplande uitval, terwijl de RPO de maximale hoeveelheid dataverlies meet die een bedrijf bereid is te tolereren. Kortere/kleinere drempels zijn beter, maar over het algemeen duurder. IT-organisaties kunnen een RTO en RPO instellen voor elk systeem dat ze uitvoeren om kosten in evenwicht te brengen met het belang van het systeem.
Noodherstelplannen omvatten grondige beoordelingen van de potentiële risico's van catastrofale gebeurtenissen, de schade aan activiteiten die ze mogelijk zouden kunnen veroorzaken, hoe werknemers en externe belanghebbenden kunnen worden getroffen, en de financiële verliezen of boetes die daarvan het gevolg kunnen zijn.
Als onderdeel van het ontwikkelen van een noodherstelplan moeten bedrijven uitvoerende sponsors en betrokken teams identificeren, fysieke en IT-activa catalogiseren die tijdens een noodsituatie kunnen worden geschaad, en de mogelijke gevolgen voor klanten, leveranciers, partners en andere belanghebbenden overwegen.
IT-afdelingen moeten beslissen welke workloads kunnen worden hersteld vanuit back-ups, waarvoor live data nodig zijn in combinatie met services met een lagere capaciteit en welke workloads volledige capaciteit nodig hebben. In sommige gevallen schakelen actieve systemen die uitvallen automatisch over naar stand-bysystemen, met minimale uitvaltijd en geen dataverlies. In andere gevallen is handmatige omschakeling noodzakelijk. IT-teams zullen back-uplocaties willen selecteren en een plan opstellen waarmee ze applicaties snel opnieuw kunnen starten. De cloud is hierbij een uitstekend hulpmiddel. Bedrijven moeten ook zoeken naar IT-afhankelijkheden die het opnieuw opstarten van activiteiten kunnen belemmeren, in gevallen waarin de ene offline applicatie voorkomt dat een andere weer online wordt gebracht.
Naast deze technische aspecten moeten leidinggevenden en bedrijfsonderdelen noodcommunicatie- en reactieplannen hebben, evenals voorzieningen voor het trainen van werknemers over het noodherstelplan, het testen en repeteren ervan via tabletop-tests of walkthroughs en het voortdurend verbeteren ervan.
Elk noodherstelplan moet een risicobeoordeling bevatten van gebeurtenissen die de bedrijfsactiviteiten kunnen onderbreken, een impactanalyse van de applicaties die kunnen worden beïnvloed en een schatting van de daaruit voortvloeiende financiële verliezen. De analyse van de impact op het bedrijf moet RTO's en RPO's voor elke applicatie bevatten. Bedrijven kunnen vervolgens beslissen over hun herstelplannen en bepalen waar het zinvol is om te kiezen voor kortere hersteltijden en snellere herstelbewerkingen tegen hogere kosten.
Benaderingen voor back-up en herstel vallen binnen een prestatiekostenspectrum en omvatten het volgende:
Het is niet voldoende om een IT-inventaris te hebben, applicatielagen te bepalen en afhankelijkheden toe te wijzen. Om noodherstel te laten werken op het niveau dat het bedrijf verwacht, moet elke technologie, van besturingssystemen tot applicaties, redundant zijn. Het succes van noodherstel hangt ook af van regelmatige tests, of dat nu tabletop-oefeningen zijn, waarbij belanghebbenden de stappen mondeling doorlopen, of een fysieke walkthrough van de maatregelen die IT-afdelingen zullen nemen en het testen van de systeemcomponenten die alleen tijdens rampen worden gebruikt.
Regelgeving inzake financiële rapportage en databescherming hebben ook invloed op noodherstelplannen. De Sarbanes-Oxley Act, een Amerikaanse regelgeving voor financiële rapportage, stelt bijvoorbeeld vereisten voor het bewaren van data. De Amerikaanse Health Insurance Portability and Accountability Act (HIPAA) vereist noodplannen voor elektronische gezondheidsinformatie tijdens een ramp en de Algemene Verordening Gegevensbescherming (AVG) van de Europese Unie verplicht de beschikbaarheid van persoonsgegevens van burgers tijdens een ramp.
Disaster Recovery as a Service (DRaaS) is een cloudservice waarmee ondernemingen applicaties kunnen uitvoeren in een openbare cloud of hybride cloud, met een noodherstelplan dat wordt uitgevoerd in de faciliteiten van de cloudprovider in plaats van in een on-premises datacenter. Met DRaaS-producten in de cloud kunnen bedrijven computing-, database- en applicatiebelastingen op afstand overzetten tussen cloudregio's en de stappen automatiseren die nodig zijn om bedrijfssystemen te herstellen zonder ze opnieuw te ontwerpen of gespecialiseerde beheersoftware te gebruiken. Het is van cruciaal belang dat de DRaaS-oplossing van een cloudprovider is ontworpen voor hoge beschikbaarheid in de stand-byregio, zodat de service toegankelijk is en werkt wanneer zich een ramp voordoet.
Bedrijven kunnen noodherstel in de cloud gebruiken om te plannen voor het herstellen van data na een natuurramp die de infrastructuur vernietigt of na een cyberincident, zoals een ransomware-aanval, waarbij de toegang tot lokale netwerkbronnen wordt afgesloten. Omdat de data kan worden opgeslagen in een regionale cloud, kan de strategie conform worden gemaakt met databeschermingsvoorschriften zoals de AVG. DRaaS kan ook een goede oplossing zijn als de budgetten krap zijn, omdat de kosten lager kunnen zijn dan die van het opzetten van redundante herstellocaties.
Het ontwikkelen van een noodherstelplan moet beginnen met een risicobeoordeling van potentiële catastrofale gebeurtenissen en de impact ervan op IT-systemen en bedrijfsprocessen. Vervolgens moeten IT- en brancheteams, ondersteund door het management, assets en systemen rangschikken op hun belang en strategieën voor noodherstel toewijzen om deze componenten te beschermen, rekening houdend met de gewenste RTO's en RPO's en het beschikbare budget. Noodherstelplannen maken deel uit van bredere bedrijfscontinuïteitsplannen voor het overbruggen van de tijd van een ramp, cyberaanval of uitval veroorzaakt door een technische fout tot herstel. Ze moeten voortdurend worden getest en bijgewerkt.
Traditioneel noodherstel is afhankelijk van redundante servers en opslagapparaten die zich in een datacenter van het bedrijf bevinden, of van het maken van back-ups van bedrijfsdata en applicatie-instances in externe datacenters. Een probleem in één geografisch gebied zal dus waarschijnlijk geen schade aan externe kopieën op grote afstand veroorzaken. Met cloudgebaseerde noodherstelstrategieën hoeven bedrijven daarentegen minder kosten vooraf te maken door kleinere of back-ups van applicatie-instances in een openbare cloud op te slaan, die kunnen worden opgeschaald door computingresources toe te voegen wanneer ze in noodgevallen moeten worden geactiveerd. Bedrijven kunnen kritieke applicaties ook over meerdere cloudregio's distribueren.
Een workflow voor noodherstel bevat een overzicht van de stappen en reeksen handelingen die nodig zijn om systemen opnieuw op te starten, data te herstellen en te communiceren tijdens een crisis. Runbooks voor noodherstel gaan gedetailleerder in op herstelprocessen en de bijbehorende documentatie. Ze bieden eenvoudig te volgen checklists om digitale activiteiten in veiligheid te brengen tijdens noodsituaties en ze kunnen testen of failover vergemakkelijken tijdens een noodsituatie. Workflows en runbooks laten bedrijven zien hoe herstel gefaseerd mogelijk is en ze identificeren kritieke systemen en SLA's.
Workflows voor noodherstel omvatten risicobeoordelingen, de commissies die betrokken zijn bij een plan, evenals managementondersteuning, herstelstrategieën en testprocedures. Runbooks kunnen gedetailleerde checklists voor verschillende databases, servers en netwerkapparatuur bevatten, zodat medewerkers onder tijdsdruk herstelstappen kunnen uitvoeren.
Een noodhersteloperatie is het proces van het uitvoeren van elke vooraf bepaalde stap of taak in een noodherstelplan die nodig is om de infrastructuur, databases en applicaties van een organisatie te herstellen naar een volledig operationele toestand. Twee termen, failover en switchover, worden gebruikt om de overgang van een applicatiestack naar een andere locatie te beschrijven.
Failover biedt een snelle overstap naar een back-upsysteem tijdens onverwachte crises, waaronder stroomuitval en uitval van apparatuur. Het wordt gebruikt wanneer applicaties, databases en virtuele machines zijn gecrasht en resources zoals opslag, data en besturingssystemen zich in een onstabiele toestand bevinden.
Switchover is de gestructureerde overgang naar een secundair systeem tijdens geplande uitvaltijd voor onderhoud. Hierbij kunnen applicaties, databases en virtuele machines of servers op de juiste manier worden afgesloten. In dit geval werken zowel de primaire als de stand-byregio normaal en houden IT-medewerkers zich bezig met het verplaatsen van systemen van de ene regio naar de andere voor onderhoud of het voltooien van doorlopende upgrades.
Met de flexibiliteit van cloudcomputing kunnen bedrijven strategieën voor noodherstel implementeren die aan hun vereisten voldoen zonder hun budget te overschrijden. Hybride cloudomgevingen, waarbij sommige computingresources on-premises worden uitgevoerd en andere in een openbare cloud, kunnen de kosten van noodherstel verlagen. Dankzij cloudarchitecturen, waaronder microservices, kunnen softwarecomponenten op gedistribueerde virtuele servers worden uitgevoerd, waardoor ze minder kwetsbaar zijn voor diverse soorten rampen.
Interregionale oplossingen voor noodherstel beschermen organisaties tegen uitval, zoals door orkanen, om te voorkomen dat ze geen toegang meer hebben tot systemen die in slechts één datacenter worden gehost. Services kunnen worden uitgevoerd in fouttolerante, geografisch afzonderlijke en geïsoleerde beschikbaarheidsdomeinen buiten de impactzone. Een volledige applicatiestack voor een bepaald systeem, inclusief virtuele machines, databases en applicaties, kan worden overgezet naar een andere cloudregio op een andere locatie.
De hybride cloud is een populaire architectuur waarmee ondernemingen bepaalde workloads kunnen overzetten van hun eigen datacenters naar de cloudinfrastructuur. Een dergelijke cloudoplossing kan ook nuttig zijn voor noodherstel. Het invoeren van een hybride architectuur vereist over het algemeen het uitvoeren van workloads op virtuele servers, zodat de onderliggende hardware binnen het clouddatacenter eenvoudig kan worden gewijzigd zonder dat dit van invloed is op de activiteiten.
Zodra workloads zijn gevirtualiseerd, kunnen ze opnieuw worden gestart in een cloudomgeving wanneer primaire datacenters niet meer beschikbaar zijn. Clouddatacenters kunnen economische alternatieven zijn voor arrays van geografisch verspreide datacenters.
Multicloud-oplossingen voor noodherstel beschermen applicaties en data door de onderdelen van applicaties te verspreiden over de cloudinfrastructuren van twee of meer cloudproviders. Deze strategie kan geschikt zijn voor bedrijven die meer dan één cloudprovider gebruiken, waardoor ze de RPO en RTO voor verschillende applicaties kunnen instellen terwijl ze kosten beheren en beslissingen nemen over geografische spreiding. Een multicloud-herstelproces kan ook het resultaat zijn van de manier waarop services en applicaties zijn ontwikkeld.
Orkestratie- en beheerservices voor noodherstel kunnen uitgebreid noodherstel bieden voor alle lagen van een applicatiestack, inclusief infrastructuur, databases en middleware. DRaaS vermindert menselijke fouten en minimaliseert de hersteltijd door snel noodherstelworkflows uit te voeren om applicatiestacks in verschillende regio's te herstellen.
Met Full Stack Disaster Recovery van Oracle Cloud Infrastructure (OCI) kunnen klanten de overgang van infrastructuur, databases en applicaties tussen OCI-regio's over de hele wereld beheren. Klanten kunnen Full Stack DR gebruiken zonder de bestaande infrastructuur, databases of applicaties opnieuw te ontwerpen of te implementeren, terwijl hierbij geen speciale beheer- of conversieservers meer nodig zijn.
Bouw, test en implementeer applicaties in Oracle Cloud - helemaal gratis.
Waarom is noodherstel belangrijk voor bedrijven?
Niet-geplande bedrijfsuitval is erg kostbaar. Meer dan twee derde van hen kostte meer dan US $ 100.000 volgens de IT-adviesgroep Uptime Institute, terwijl een kwart van de ongeplande IT-uitval meer dan US $ 1 miljoen kostte.
Wat zijn de belangrijkste onderdelen van een noodherstelplan?
Een noodherstelplan omvat de strategie van een bedrijf voor het selecteren van back-uplocaties of het implementeren van computingworkloads in een openbare cloud op een manier die het mogelijk maakt om bewerkingen snel opnieuw te starten. Organisaties moeten ook hun bedrijfskritische en belangrijke bedrijfsapplicaties een bepaalde prioriteit geven en afhankelijkheden onder hen in kaart brengen die het opnieuw online krijgen van software in de weg zouden kunnen staan.
Wat is het verschil tussen noodherstel en back-up van data?
Het maken van back-ups van data naar een externe server of locatie is een aspect van noodherstel, maar moderne noodherstelplannen omvatten nog veel meer. Bedrijven moeten rekening houden met technologiestrategieën die datareplicatie in evenwicht brengen met de beschikbaarheid van services om de kosten onder controle te houden en applicaties opnieuw te laten starten vanuit een kleine reserve-instance.
Welke invloed heeft cloudcomputing op noodherstel?
Cloudtechnologieën kunnen bij een calamiteit beveiligingsmaatregelen bieden door cloudregio's te scheiden van beschikbaarheidsdomeinen die van elkaar zijn geïsoleerd en fouttolerant zijn. Bedrijven kunnen systemen repliceren voor hoge beschikbaarheid en noodherstel met behulp van de faciliteiten en tools die vaak door de cloudleverancier worden aangeboden.