Storingen zijn onvermijdelijk in de moderne, sterk verbonden wereld met verstrekkende digitale afhankelijkheden. Betrouwbare beschikbaarheid wordt niet gekenmerkt door de afwezigheid van verstoringen, maar door het vermogen van een bedrijf om de impact van een incident op te vangen, een snel herstel uit te voeren en waardetoevoegende processen binnen de kortst mogelijke tijd weer op gang te brengen. Dit artikel laat zien hoe je onzekerheid kunt omzetten in bedrijfscontinuïteit door een goede voorbereiding, een toekomstgericht architectuurontwerp en het bewust omgaan met mogelijke storingen.
Ik wilde dit artikel eigenlijk de titel "De verborgen zwakheden van de cloud" geven, maar ik ben van gedachten veranderd omdat de gevolgen van een grote storing in de cloud allesbehalve verborgen zijn. Volgens mijn vriend Paul Bevan, voormalig hoofd infrastructuuronderzoek bij Bloor Research en nu gepensioneerd, verplaatsen organisaties op bepaalde gebieden hun werklasten naar de cloud en gaan ze ervan uit dat het proces voltooid is. Ze behandelen cloudtransformatie alsof de verantwoordelijkheid nu buiten hun eigen domein ligt en geen verdere aandacht vereist.
Maar migreren naar de cloud, met name de public cloud, is uiteraard veel complexer. Het model van gedeelde verantwoordelijkheid is een tegenhanger van deze enigszins naïeve benadering.
Storing in de cloud is niet ongewoon in de huidige hyperverbonden wereld en bij complexe diensten. Ondanks het geavanceerde ontwerp van hyperscaler-platforms kunnen storingen optreden, met oorzaken die variëren van software-updates, configuratiefouten en netwerkproblemen tot stroomuitval, menselijke fouten of kettingreacties bij afhankelijke diensten.
Nu organisaties steeds meer bedrijfskritische workloads verplaatsen naar cloudomgevingen, kan zelfs een korte downtime langdurige gevolgen hebben voor de beschikbaarheid, het vertrouwen van de klant, de publieke perceptie en de stabiliteit van de inkomsten. Incidenten leggen een ongemakkelijke waarheid bloot: een veerkrachtige dienstverlening kan niet worden uitbesteed - de juiste mechanismen moeten worden ingebed in de architectuur.
Als er een grote storing in de cloud optreedt, zijn de gevolgen vrijwel onmiddellijk voelbaar in alle sectoren. Toepassingen worden trager, API's (Application Programming Interfaces) reageren niet meer, gegevensverwerking komt tot stilstand en klantgerelateerde diensten zijn niet meer beschikbaar (websites genereren foutmeldingen).
De directe business impact omvat het verlies van transactiegegevens, productiviteitsverlies en reputatieschade. Bij de overheid, in de gezondheidszorg, in e-commerce en met name in de financiële sector kan een korte downtime van minuten of milliseconden leiden tot inkomstenverlies, overtreding van compliance-regels, het niet naleven van service level agreements (SLA's) en problemen met de integriteit van gegevens.
De grootste kostenfactoren zijn de hersteltijd, het verlies van klanten en de grotere operationele inspanning die nodig is om het systeem weer normaal te laten functioneren.
Om deze risico's tegen te gaan, maken bedrijven traditioneel gebruik van verschillende risicobeperkende strategieën, waaronder het aanbieden van multi-beschikbaarheidszones (multi-AZ), datareplicatie, DR-configuraties (disaster recovery) of zelfs multi-cloudstrategieën.
Hoewel deze maatregelen in zekere mate helpen, bieden ze geen absolute zekerheid. Een multi-cloudaanpak kan bijvoorbeeld gepaard gaan met latentie, complexe governance-vereisten, trainingsbehoeften en extra bedrijfskosten. Op dezelfde manier kan een back-up- of noodherstelplan alleen gegevens beschermen, maar niet noodzakelijkerwijs beschikbaarheid of naadloze failover- en failbackprocessen garanderen. Met andere woorden: traditionele herstelplannen kunnen te traag en omslachtig zijn voor sommige van de hedendaagse krachtige, data-gedreven en event-gebaseerde architecturen.
Of anders gezegd: redundantie alleen garandeert nog geen beschikbaarheid. De doorslaggevende factor is hoe goed deze systemen zijn ontworpen, geautomatiseerd en regelmatig getest onder storingsomstandigheden.
Hoge beschikbaarheid (High availability, HA) is een belangrijke hoeksteen van een veerkrachtige cloudarchitectuur. Het doel is om downtime tot een minimum te beperken. Dit wordt bereikt door systemen te ontwerpen die blijven functioneren, zelfs wanneer één, twee of alle diensten uitvallen.
Om de theorie in praktijk te brengen, moeten bedrijven actie ondernemen en technieken zoals chaos engineering toepassen. Hierbij worden storingen in productieomgevingen gesimuleerd om te observeren hoe systemen zich in kritieke situaties gedragen. Het identificeren van kwetsbaarheden voordat zich daadwerkelijke incidenten voordoen, geeft bedrijven de kans om hun architectuur en responsmechanismen te optimaliseren.
Netflix wordt beschouwd als een van de pioniers van chaos engineering. Het bedrijf heeft deze aanpak gebruikt om de beschikbaarheid van zijn streamingplatform te waarborgen, ondanks frequente wijzigingen in de infrastructuur. Vergelijkbare benaderingen kunnen bedrijven helpen vertrouwen te krijgen in hun cloudconcepten, ongeacht de provider.
Het bouwen van een HA-geschikte cloudarchitectuur (met beproefde failover- en failbackmechanismen) heeft een prijs: extra financiële kosten en operationele complexiteit. Redundante resources, implementaties in meerdere regio's en geautomatiseerde failovermechanismen vereisen extra investeringen.
Ik heb onlangs gereageerd op een online artikel waarin werd gesteld dat clouddiensten in hun ontwerp ‘veerkracht’ moeten garanderen. Ten eerste is veerkracht niet hetzelfde als HA. Controleer gerust zelf de definities. De twee termen mogen niet met elkaar worden verward of als synoniem worden gebruikt. Ik beschreef ook het volgende scenario in mijn reactie:
Ik heb soortgelijke gesprekken in veel bedrijven gehoord. Het resultaat was in de meeste gevallen hetzelfde, en slechts over één punt bestond altijd consensus: de kosten zijn de doorslaggevende factor.
Veel bedrijven staan onder druk om hun cloudkosten laag te houden. Dit leidt er vaak toe dat veerkracht wordt uitgesteld of helemaal niet wordt geïmplementeerd vanwege budgetbeperkingen. Daarnaast worden cloud-native architecturen geassocieerd met afhankelijkheden op meerdere niveaus (microservices, containers, API's), die gecoördineerde beschikbaarheidsstrategieën vereisen.
De grootste uitdaging hier is om een balans te vinden tussen kostenefficiëntie en betrouwbaarheid. Zakelijke prioriteiten moeten daarom op de een of andere manier in lijn worden gebracht met het technische ontwerp. Niet alle workloads vereisen 99,999 procent beschikbaarheid, wat wel essentieel is voor bedrijfskritische systemen. Het is daarom zinvol om elders in de cloud een minimumniveau van hoge beschikbaarheid in te stellen, zodat een bedrijf in een failoversituatie in elk geval de belangrijkste diensten kan blijven aanbieden.
Een veerkrachtige cloud is geen item op een checklist, maar vereist een cultuur van voorbereiding op noodsituaties. Naarmate digitale ecosystemen zich ontwikkelen, moeten bedrijven verder denken dan alleen back-ups en redundanties. Beschikbaarheid opbouwen betekent een solide architectuur combineren met strikte testen, transparantie en governance.
Ongeacht het platform is elke storing een kans om bestaande aannames te heroverwegen en het ontwerp te verbeteren. De vraag is niet of er een storing zal optreden, maar hoe goed je bedrijf erop is voorbereid als het ergste gebeurt.
Bij T-Systems werken we samen met bedrijven uit verschillende branches om hoog beschikbare, veilige, soevereine en toekomstbestendige cloudarchitecturen te ontwerpen en te implementeren. Onze aanpak combineert diepgaande kennis van cloud-engineering met bewezen HA-raamwerken, observeerbaarheid en geautomatiseerd herstel.
Als betrouwbare partner van toonaangevende hyperscalers zoals Amazon Web Services (AWS), Microsoft Azure en Google Cloud Platform (GCP) helpen we bedrijven het beste uit elk ecosysteem te halen, complexiteit te beheren, kosten te optimaliseren en betrouwbaarheid te vergroten.
Van strategische ontwerp- en architectuurbeoordelingen tot migratie, optimalisatie en doorlopende governance, T-Systems stelt bedrijven in staat om een fundament te leggen voor ononderbroken digitale activiteiten en duurzame transformatie.
Bij het optimaliseren van de beschikbaarheid gaat het niet om het volledig voorkomen van storingen, maar om erop voorbereid te zijn als deze optreden.