Ausfälle sind in der modernen vernetzten Welt mit weitreichenden digitalen Abhängigkeiten unausweichlich. Zuverlässige Verfügbarkeit zeichnet sich nicht durch die Abwesenheit von Störungen aus, sondern durch die Fähigkeit eines Unternehmens, die Auswirkungen eines Zwischenfalls abzufedern, eine schnelle Wiederherstellung durchzuführen und wertschöpfende Prozesse in kürzester Zeit wieder in Gang zu bringen. Dieser Artikel zeigt auf, wie Sie durch gute Vorbereitung, ein vorausschauendes Architekturdesign und den bewussten Umgang mit möglichen Störfällen Unsicherheit in Geschäftskontinuität verwandeln können.
Ich wollte den Beitrag eigentlich „Die verborgenen Schwächen der Cloud“ nennen, habe es mir aber anders überlegt, weil bei einem umfangreichen Cloud-Ausfall die Folgen alles andere als verborgen bleiben. In bestimmten Bereichen, so mein Freund Paul Bevan, ehemaliger Head of Infrastructure Research bei Bloor Research und nun im Ruhestand, verlagern Unternehmen ihre Arbeitslasten in die Cloud und gehen davon aus, dass der Prozess damit abgeschlossen ist. Sie behandeln die Cloud-Transformation so, als würde die Verantwortung nun außerhalb ihrer Zuständigkeit liegen und keine weitere Aufmerksamkeit mehr erfordern.
Aber natürlich ist die Migration in die Cloud, insbesondere in die Public Cloud, weitaus komplexer. Das Modell der geteilten Verantwortung ist ein Gegenkonzept zu dieser etwas naiven Herangehensweise.
Cloud-Ausfälle sind in der heutigen hypervernetzten Welt und bei komplexen Services keine Seltenheit. Trotz des fortschrittlichen Designs von Hyperscaler-Plattformen können Störungen auftreten, deren Ursachen von Software-Updates, Konfigurationsfehlern und Netzwerkproblemen bis hin zu Stromausfällen, menschlichen Fehlern oder Kettenreaktionen bei abhängigen Diensten reichen.
Da Unternehmen geschäftskritische Workloads zunehmend in Cloud-Umgebungen verlagern, kann selbst eine kurze Ausfallzeit langfristige Folgen haben und sich auf die Verfügbarkeit, das Kundenvertrauen, die öffentliche Wahrnehmung und die Umsatzstabilität auswirken. Störfälle zeigen eine unbequeme Wahrheit auf: Eine resiliente Servicebereitstellung lässt sich nicht auslagern – entsprechende Mechanismen müssen in die Architektur eingebettet werden.
Wenn es zu einem größeren Ausfall der Cloud kommt, sind die Auswirkungen sofort in allen Branchen zu spüren. Anwendungen werden langsamer, Anwendungsprogrammierschnittstellen (APIs) reagieren nicht mehr, die Datenverarbeitung kommt zum Stillstand und kundenbezogene Services sind nicht mehr verfügbar (Websites generieren Fehlermeldungen).
Zum unmittelbaren Business Impact zählen der Verlust von Transaktionsdaten, Produktivitätsverluste und Reputationsschäden. Bei Behörden, im Gesundheitswesen, im E-Commerce und insbesondere im Finanzwesen kann eine kurze Ausfallzeit von Minuten oder Millisekunden zu Umsatzverlusten, Verstößen gegen Compliance-Vorschriften, der Nichteinhaltung von Service Level Agreements (SLAs) und Problemen mit der Datenintegrität führen.
Die größten Kostenfaktoren sind jedoch die Wiederherstellungszeit, der Kundenverlust und der erhöhte betriebliche Aufwand, der erforderlich ist, um den Normalzustand wiederherzustellen.
Um diesen Risiken entgegenzuwirken, setzen Unternehmen traditionell verschiedene Risikominderungsstrategien ein, darunter die Bereitstellung von Multi-Availability-Zonen (Multi-AZ), Datenreplikation, Disaster-Recovery-Konfigurationen (DR) oder sogar Multi-Cloud-Strategien.
Auch wenn diese Maßnahmen in gewissem Maße hilfreich sind, bieten sie keine absolute Sicherheit. Ein Multi-Cloud-Ansatz kann beispielsweise mit Latenz, komplexen Governance-Anforderungen, Schulungsbedarf und zusätzlichen Betriebskosten einhergehen. Ebenso kann ein Backup- oder Disaster-Recovery-Plan lediglich Daten schützen, jedoch nicht zwangsläufig die Verfügbarkeit oder nahtlose Failover- und Failback-Abläufe gewährleisten. Mit anderen Worten: Herkömmliche Wiederherstellungspläne können für einige der heutigen leistungsstarken, datenorientierten und ereignisbasierten Architekturen zu langsam und zu schwerfällig sein.
Oder noch etwas anders ausgedrückt: Redundanz allein gewährleistet noch keine Verfügbarkeit. Entscheidend ist, wie gut diese Systeme konzipiert, automatisiert und regelmäßig unter Ausfallbedingungen getestet werden.
Hochverfügbarkeit (High availability, HA) ist in einer resilienten Cloud-Architektur ein wichtiger Eckpfeiler. Das Ziel ist, minimale Ausfallzeiten zu gewährleisten. Dies geschieht durch die Gestaltung von Systemen, die auch dann noch funktionieren, wenn einer, zwei oder alle Services ausfallen.
Um die Theorie praktisch umzusetzen, müssen Unternehmen aktiv werden und Techniken wie das sogenannte Chaos Engineering anwenden. Dabei simuliert man Ausfälle in Produktionsumgebungen, um zu beobachten, wie sich Systeme in kritischen Situationen verhalten. Die Identifizierung von Schwachstellen, bevor tatsächliche Vorfälle auftreten, gibt Unternehmen die Möglichkeit, ihre Architektur und ihre Reaktionsmechanismen zu optimieren.
Netflix gilt als einer der Vorreiter von Chaos Engineering. Das Unternehmen hat diesen Ansatz genutzt, um die Verfügbarkeit seiner Streaming-Plattform trotz häufiger Infrastrukturänderungen zu gewährleisten. Ähnliche Vorgehensweisen können Unternehmen dabei helfen, unabhängig vom Anbieter Vertrauen in ihre Cloud-Konzepte zu gewinnen.
Der Aufbau einer HA-fähigen Cloud-Architektur (mit erprobten Failover- und Failback-Mechanismen) hat einen Preis: finanzieller Mehraufwand und operative Komplexität. Redundante Ressourcen, Bereitstellungen in mehreren Regionen und automatisierte Failovers erfordern zusätzliche Investitionen.
Ich habe kürzlich einen Online-Beitrag kommentiert, in dem es darum ging, dass Cloud-Dienste in ihrer Konzeption „Resilienz“ gewährleisten sollten. Zunächst einmal ist Resilienz nicht dasselbe wie HA. Bitte überprüfen Sie die Definitionen selbst! Die beiden Begriffe dürfen nicht verwechselt oder gleichgesetzt werden. Zudem habe ich in meinem Kommentar folgendes Szenario beschrieben:
Ähnliche Gespräche habe ich in vielen Unternehmen gehört. Das Ergebnis war in den meisten Fällen gleich, und nur in einem Punkt herrschte Einigkeit: Die Kosten sind der entscheidende Faktor.
Viele Unternehmen stehen unter Druck, ihre Cloud-Kosten niedrig zu halten. Das führt häufig dazu, dass Resilienz aufgrund von Budgetbeschränkungen zurückgestellt oder gar nicht erst implementiert wird. Darüber hinaus gehen Cloud-native Architekturen auf mehreren Ebenen mit Abhängigkeiten einher (Microservices, Container, APIs), die koordinierte Verfügbarkeitsstrategien erfordern.
Die größte Herausforderung ist dabei, eine Balance zwischen Kosteneffizienz und Zuverlässigkeit zu finden. Geschäftliche Prioritäten müssen also irgendwie mit technischem Design in Einklang gebracht werden. Nicht alle Workloads erfordern eine Verfügbarkeit von 99,999 Prozent, wie sie für geschäftskritische Systeme unerlässlich ist. Daher ist es sinnvoll, an anderer Stelle in der Cloud ein Minimum an Hochverfügbarkeit herzustellen, das es dem Unternehmen ermöglicht, die wichtigsten Services im Failover-Zustand aufrechtzuerhalten.
Eine resiliente Cloud ist kein Punkt auf einer Checkliste, sondern erfordert eine Kultur der Vorbereitung auf Ernstfälle. Angesichts der Weiterentwicklung digitaler Ökosysteme müssen Unternehmen über Backups und Redundanzen hinausdenken. Verfügbarkeit aufbauen, bedeutet, eine solide Architektur mit strengen Tests, Transparenz und Governance zu kombinieren.
Unabhängig von der Plattform bietet jeder Ausfall die Gelegenheit, bisherige Annahmen zu überdenken und das Design zu verbessern. Die Frage ist nicht, ob es zu einem Ausfall kommen wird, sondern wie gut Ihr Unternehmen darauf vorbereitet ist, wenn der Ernstfall eintritt.
Wir arbeiten bei T-Systems mit Unternehmen aus verschiedenen Branchen zusammen, um hochverfügbare, sichere, souveräne und zukunftsfähige Cloud-Architekturen zu entwerfen und zu implementieren. Unser Ansatz verbindet fundiertes Wissen im Bereich Cloud Engineering mit bewährten HA-Frameworks, Beobachtbarkeit und automatisierter Wiederherstellung.
Als zuverlässiger Partner führender Hyperscaler wie Amazon Web Services (AWS), Microsoft Azure und Google Cloud Platform (GCP) unterstützen wir Unternehmen dabei, das Beste aus jedem Ökosystem herauszuholen, Komplexität zu bewältigen, Kosten zu optimieren und an Zuverlässigkeit zu gewinnen.
Von strategischen Design- und Architekturbewertungen bis hin zu Migration, Optimierung und fortlaufender Governance ermöglicht T-Systems Unternehmen, eine Grundlage für unterbrechungsfreie digitale Abläufe und eine nachhaltige Transformation aufzubauen.
Bei der Optimierung der Verfügbarkeit geht es nicht darum, Ausfälle zu vermeiden, sondern darum, auf diese vorbereitet zu sein.