Cloud-Verfügbarkeit neu gestalten

Die Schwächen der Cloud

Ich wollte den Beitrag eigentlich „Die verborgenen Schwächen der Cloud“ nennen, habe es mir aber anders überlegt, weil bei einem umfangreichen Cloud-Ausfall die Folgen alles andere als verborgen bleiben. In bestimmten Bereichen, so mein Freund Paul Bevan, ehemaliger Head of Infrastructure Research bei Bloor Research und nun im Ruhestand, verlagern Unternehmen ihre Arbeitslasten in die Cloud und gehen davon aus, dass der Prozess damit abgeschlossen ist. Sie behandeln die Cloud-Transformation so, als würde die Verantwortung nun außerhalb ihrer Zuständigkeit liegen und keine weitere Aufmerksamkeit mehr erfordern.

Aber natürlich ist die Migration in die Cloud, insbesondere in die Public Cloud, weitaus komplexer. Das Modell der geteilten Verantwortung ist ein Gegenkonzept zu dieser etwas naiven Herangehensweise.

Cloud-Ausfälle sind in der heutigen hypervernetzten Welt und bei komplexen Services keine Seltenheit. Trotz des fortschrittlichen Designs von Hyperscaler-Plattformen können Störungen auftreten, deren Ursachen von Software-Updates, Konfigurationsfehlern und Netzwerkproblemen bis hin zu Stromausfällen, menschlichen Fehlern oder Kettenreaktionen bei abhängigen Diensten reichen.

Da Unternehmen geschäftskritische Workloads zunehmend in Cloud-Umgebungen verlagern, kann selbst eine kurze Ausfallzeit langfristige Folgen haben und sich auf die Verfügbarkeit, das Kundenvertrauen, die öffentliche Wahrnehmung und die Umsatzstabilität auswirken. Störfälle zeigen eine unbequeme Wahrheit auf: Eine resiliente Servicebereitstellung lässt sich nicht auslagern – entsprechende Mechanismen müssen in die Architektur eingebettet werden.

Wenn es zum Ausfall kommt

Wenn es zu einem größeren Ausfall der Cloud kommt, sind die Auswirkungen sofort in allen Branchen zu spüren. Anwendungen werden langsamer, Anwendungsprogrammierschnittstellen (APIs) reagieren nicht mehr, die Datenverarbeitung kommt zum Stillstand und kundenbezogene Services sind nicht mehr verfügbar (Websites generieren Fehlermeldungen).

Zum unmittelbaren Business Impact zählen der Verlust von Transaktionsdaten, Produktivitätsverluste und Reputationsschäden. Bei Behörden, im Gesundheitswesen, im E-Commerce und insbesondere im Finanzwesen kann eine kurze Ausfallzeit von Minuten oder Millisekunden zu Umsatzverlusten, Verstößen gegen Compliance-Vorschriften, der Nichteinhaltung von Service Level Agreements (SLAs) und Problemen mit der Datenintegrität führen.

Die größten Kostenfaktoren sind jedoch die Wiederherstellungszeit, der Kundenverlust und der erhöhte betriebliche Aufwand, der erforderlich ist, um den Normalzustand wiederherzustellen.

Warum traditionelle Schutzmechanismen nicht ausreichen

Um diesen Risiken entgegenzuwirken, setzen Unternehmen traditionell verschiedene Risikominderungsstrategien ein, darunter die Bereitstellung von Multi-Availability-Zonen (Multi-AZ), Datenreplikation, Disaster-Recovery-Konfigurationen (DR) oder sogar Multi-Cloud-Strategien.

Auch wenn diese Maßnahmen in gewissem Maße hilfreich sind, bieten sie keine absolute Sicherheit. Ein Multi-Cloud-Ansatz kann beispielsweise mit Latenz, komplexen Governance-Anforderungen, Schulungsbedarf und zusätzlichen Betriebskosten einhergehen. Ebenso kann ein Backup- oder Disaster-Recovery-Plan lediglich Daten schützen, jedoch nicht zwangsläufig die Verfügbarkeit oder nahtlose Failover- und Failback-Abläufe gewährleisten. Mit anderen Worten: Herkömmliche Wiederherstellungspläne können für einige der heutigen leistungsstarken, datenorientierten und ereignisbasierten Architekturen zu langsam und zu schwerfällig sein.

Oder noch etwas anders ausgedrückt: Redundanz allein gewährleistet noch keine Verfügbarkeit. Entscheidend ist, wie gut diese Systeme konzipiert, automatisiert und regelmäßig unter Ausfallbedingungen getestet werden.

Vertrauen gewinnen durch Chaos

Hochverfügbarkeit (High availability, HA) ist in einer resilienten Cloud-Architektur ein wichtiger Eckpfeiler. Das Ziel ist, minimale Ausfallzeiten zu gewährleisten. Dies geschieht durch die Gestaltung von Systemen, die auch dann noch funktionieren, wenn einer, zwei oder alle Services ausfallen.
Um die Theorie praktisch umzusetzen, müssen Unternehmen aktiv werden und Techniken wie das sogenannte Chaos Engineering anwenden. Dabei simuliert man Ausfälle in Produktionsumgebungen, um zu beobachten, wie sich Systeme in kritischen Situationen verhalten. Die Identifizierung von Schwachstellen, bevor tatsächliche Vorfälle auftreten, gibt Unternehmen die Möglichkeit, ihre Architektur und ihre Reaktionsmechanismen zu optimieren.

Netflix gilt als einer der Vorreiter von Chaos Engineering. Das Unternehmen hat diesen Ansatz genutzt, um die Verfügbarkeit seiner Streaming-Plattform trotz häufiger Infrastrukturänderungen zu gewährleisten. Ähnliche Vorgehensweisen können Unternehmen dabei helfen, unabhängig vom Anbieter Vertrauen in ihre Cloud-Konzepte zu gewinnen.

Verfügbarkeit, Kosten und Komplexität in Einklang bringen

Der Aufbau einer HA-fähigen Cloud-Architektur (mit erprobten Failover- und Failback-Mechanismen) hat einen Preis: finanzieller Mehraufwand und operative Komplexität. Redundante Ressourcen, Bereitstellungen in mehreren Regionen und automatisierte Failovers erfordern zusätzliche Investitionen.

Ich habe kürzlich einen Online-Beitrag kommentiert, in dem es darum ging, dass Cloud-Dienste in ihrer Konzeption „Resilienz“ gewährleisten sollten. Zunächst einmal ist Resilienz nicht dasselbe wie HA. Bitte überprüfen Sie die Definitionen selbst! Die beiden Begriffe dürfen nicht verwechselt oder gleichgesetzt werden. Zudem habe ich in meinem Kommentar folgendes Szenario beschrieben:

Der CEO befragt den CIO und den CTO zu einer kürzlich aufgetretenen Störung.
Der CIO und der CTO erklären dem CEO, wie viel es kosten wird, HA einzurichten.
Der CEO geht damit zum CFO – doch der winkt ab: „Vergiss es!“

Ähnliche Gespräche habe ich in vielen Unternehmen gehört. Das Ergebnis war in den meisten Fällen gleich, und nur in einem Punkt herrschte Einigkeit: Die Kosten sind der entscheidende Faktor.

Viele Unternehmen stehen unter Druck, ihre Cloud-Kosten niedrig zu halten. Das führt häufig dazu, dass Resilienz aufgrund von Budgetbeschränkungen zurückgestellt oder gar nicht erst implementiert wird. Darüber hinaus gehen Cloud-native Architekturen auf mehreren Ebenen mit Abhängigkeiten einher (Microservices, Container, APIs), die koordinierte Verfügbarkeitsstrategien erfordern.

Die größte Herausforderung ist dabei, eine Balance zwischen Kosteneffizienz und Zuverlässigkeit zu finden. Geschäftliche Prioritäten müssen also irgendwie mit technischem Design in Einklang gebracht werden. Nicht alle Workloads erfordern eine Verfügbarkeit von 99,999 Prozent, wie sie für geschäftskritische Systeme unerlässlich ist. Daher ist es sinnvoll, an anderer Stelle in der Cloud ein Minimum an Hochverfügbarkeit herzustellen, das es dem Unternehmen ermöglicht, die wichtigsten Services im Failover-Zustand aufrechtzuerhalten.

Entwurf einer HA-Architektur

Ausfälle einkalkulieren: Akzeptieren Sie, dass Ausfälle auftreten können, ob im eigenen Rechenzentrum oder in der Public Cloud. Sie gehören bei der Nutzung jeglicher Technologie im Geschäftsleben zur Realität. Kalkulieren Sie bei der Architekturgestaltung den Ausfall einzelner Komponenten ein. Setzen Sie auf entkoppelte Designs, zellbasierte Architekturen, asynchrone Replikation, bewährte Failover-/Failback-Funktionen und automatisierte Wiederherstellungsmechanismen.
Workloads priorisieren: Nicht alle Anwendungen müssen gleichermaßen resilient sein. Klassifizieren Sie Workloads auf Grundlage der geschäftlichen Bedeutung und investieren Sie entsprechend.
Beobachtbarkeit implementieren: Systemübergreifende Echtzeittransparenz und Mustererkennung (mit AIOps) ist von entscheidender Bedeutung. Überwachen Sie Leistungskennzahlen, Abhängigkeiten und die Benutzererfahrung kontinuierlich, um frühzeitig Anzeichen einer Verschlechterung zu erkennen.
Regelmäßig testen: Führen Sie kontrollierte Ausfallsimulationen oder Testtage durch, um Ihre Wiederherstellungsprozesse zu prüfen. Dokumentieren Sie wichtige Erkenntnisse und aktualisieren Sie die Architektur entsprechend.
Wiederherstellung automatisieren: Manuelle Eingriffe verzögern die Wiederherstellung. Verwenden Sie Infrastructure as Code (IaC) und selbstheilende Mechanismen, um eine schnellere Wiederherstellung zu gewährleisten.
Ausgewogener Einsatz der Multi-Cloud: Setzen Sie die Multi-Cloud selektiv ein. Bei manchen Workloads kann Anbietervielfalt die Verfügbarkeit verbessern, bei anderen hingegen kann sie zu unnötiger Komplexität und Kosten führen.
SLAs und gemeinsame Verantwortlichkeiten prüfen: Machen Sie sich mit dem Modell der geteilten Verantwortung Ihres Cloud-Anbieters vertraut. Klären Sie, welche Aspekte der Verfügbarkeit und Sicherheit vom Anbieter abgedeckt werden und was in Ihrer Verantwortung bleibt.
Sie denken, damit ist es nun getan? Weit gefehlt! Überprüfen Sie, was in der Cloud-Hierarchie über Ihnen angesiedelt ist. Auch wenn Sie lokal über gute Ausfallpläne verfügen, kann ein Ausfall, der außerhalb Ihrer Kontrolle liegt, Ihre Pläne durchkreuzen.

Ausfälle in Chancen verwandeln

Eine resiliente Cloud ist kein Punkt auf einer Checkliste, sondern erfordert eine Kultur der Vorbereitung auf Ernstfälle. Angesichts der Weiterentwicklung digitaler Ökosysteme müssen Unternehmen über Backups und Redundanzen hinausdenken. Verfügbarkeit aufbauen, bedeutet, eine solide Architektur mit strengen Tests, Transparenz und Governance zu kombinieren.

Unabhängig von der Plattform bietet jeder Ausfall die Gelegenheit, bisherige Annahmen zu überdenken und das Design zu verbessern. Die Frage ist nicht, ob es zu einem Ausfall kommen wird, sondern wie gut Ihr Unternehmen darauf vorbereitet ist, wenn der Ernstfall eintritt.

Ihr Partner für Sicherheit in der Cloud

Wir arbeiten bei T-Systems mit Unternehmen aus verschiedenen Branchen zusammen, um hochverfügbare, sichere, souveräne und zukunftsfähige Cloud-Architekturen zu entwerfen und zu implementieren. Unser Ansatz verbindet fundiertes Wissen im Bereich Cloud Engineering mit bewährten HA-Frameworks, Beobachtbarkeit und automatisierter Wiederherstellung.

Als zuverlässiger Partner führender Hyperscaler wie Amazon Web Services (AWS), Microsoft Azure und Google Cloud Platform (GCP) unterstützen wir Unternehmen dabei, das Beste aus jedem Ökosystem herauszuholen, Komplexität zu bewältigen, Kosten zu optimieren und an Zuverlässigkeit zu gewinnen.

Von strategischen Design- und Architekturbewertungen bis hin zu Migration, Optimierung und fortlaufender Governance ermöglicht T-Systems Unternehmen, eine Grundlage für unterbrechungsfreie digitale Abläufe und eine nachhaltige Transformation aufzubauen.

Bei der Optimierung der Verfügbarkeit geht es nicht darum, Ausfälle zu vermeiden, sondern darum, auf diese vorbereitet zu sein.

Unsere Portale

Portale im Überblick

Shop

Client Service Center

Cloud-Verfügbarkeit neu gestalten

Risiken in Resilienz verwandeln

Die Schwächen der Cloud

Wenn es zum Ausfall kommt

Warum traditionelle Schutzmechanismen nicht ausreichen

Vertrauen gewinnen durch Chaos

Verfügbarkeit, Kosten und Komplexität in Einklang bringen

Entwurf einer HA-Architektur

Ausfälle in Chancen verwandeln

Ihr Partner für Sicherheit in der Cloud

Richard Simon

Das könnte Sie auch interessieren

Cloud Professional Services

Public Cloud

Teilen Sie Ihre Gedanken mit uns!