Repenser la disponibilité du cloud

Les faiblesses du cloud

J’avais l’intention d’intituler cet article « Les faiblesses cachées du cloud », mais j’ai changé d’avis car en cas de panne de cloud de grande ampleur, les conséquences sont tout sauf cachées. Dans certains domaines, comme l’explique mon ami Paul Bevan, ancien Head of Infrastructure Research chez Bloor Research aujourd’hui à la retraite, les entreprises transfèrent leurs charges de travail vers le cloud et partent du principe que le processus est terminé. Elles traitent la transformation du cloud comme si la responsabilité était désormais hors de leur portée et ne nécessitait plus d’attention.

Mais bien sûr, la migration vers le cloud, et en particulier vers le cloud public, est bien plus complexe. Le modèle de responsabilité partagée est un concept opposé à cette approche quelque peu naïve.

Les pannes de cloud ne sont pas rares dans le monde hyperconnecté d’aujourd’hui et pour les services complexes. Malgré la conception avancée des plateformes hyperscalers, des perturbations peuvent survenir, dont les causes vont des mises à jour logicielles, des erreurs de configuration et des problèmes de réseau aux pannes de courant, aux erreurs humaines ou aux réactions en chaîne des services dépendants.

Étant donné que les entreprises déplacent de plus en plus leurs charges de travail critiques vers des environnements cloud, même une courte période d’indisponibilité peut avoir des conséquences à long terme et un impact sur la disponibilité, la confiance des clients, la perception du public et la stabilité des revenus. Les incidents révèlent une vérité qui dérange : une mise à disposition de services résilients ne peut pas être externalisée : les mécanismes correspondants doivent être intégrés dans l’architecture.

En cas de panne

En cas de panne majeure du cloud, les conséquences se font immédiatement sentir dans tous les secteurs. Les applications deviennent plus lentes, les interfaces de programmation d’applications (API) ne répondent plus, le traitement des données s’arrête et les services liés aux clients ne sont plus disponibles (les sites web génèrent des messages d’erreur).

L’impact immédiat sur l’activité comprend la perte de données transactionnelles, la perte de productivité et l’atteinte à la réputation. Pour les administrations, les services de santé, le commerce électronique et, en particulier, les services financiers, un temps d’arrêt de quelques minutes ou millisecondes peut entraîner des pertes de revenus, des infractions aux règles de conformité, le non-respect des accords sur les niveaux de service (SLA) et des problèmes d’intégrité des données.

Cependant, les principaux facteurs de coût sont le temps de récupération, la perte de clients et l’augmentation des efforts opérationnels nécessaires pour revenir à la normale.

Pourquoi les mécanismes de protection traditionnels ne suffisent pas

Pour contrer ces risques, les entreprises ont traditionnellement recours à différentes stratégies de réduction des risques, notamment le déploiement de zones de disponibilité multiples (Multi-AZ), la réplication des données, les configurations de reprise après sinistre (DR) ou même les stratégies multicloud.

Même si ces mesures sont utiles dans une certaine mesure, elles n’offrent pas une sécurité absolue. Une approche multicloud peut par exemple s’accompagner de latence, d’exigences complexes en matière de gouvernance, de besoins en formation et de coûts d’exploitation supplémentaires. De même, un plan de sauvegarde ou de reprise après sinistre ne peut que protéger les données, mais ne garantit pas nécessairement la disponibilité ou des opérations de basculement et de reprise d’activité transparentes. En d’autres termes : les plans de récupération traditionnels peuvent être trop lents et trop lourds pour certaines des architectures actuelles, puissantes, orientées données et basées sur des événements.

Ou pour le formuler autrement : la redondance seule ne garantit pas la disponibilité. Ce qui compte, c’est la qualité de la conception de ces systèmes, leur automatisation et les tests réguliers en conditions de panne.

Gagner la confiance grâce au chaos

La haute disponibilité (High availability, HA) est une pierre angulaire dans une architecture de cloud résiliente. L’objectif est de garantir des temps d’arrêt minimaux. Pour ce faire, il faut concevoir des systèmes qui continuent de fonctionner même si un, deux ou tous les services sont en panne.
Pour mettre en pratique la théorie, les entreprises doivent être actives et utiliser des techniques telles que l’ingénierie du chaos (Chaos Engineering). Il s’agit de simuler des pannes dans des environnements de production afin d’observer comment les systèmes se comportent dans des situations critiques. L’identification des vulnérabilités avant que les incidents réels ne se produisent permet aux entreprises d’optimiser leur architecture et leurs mécanismes de réaction.

Netflix est considéré comme l’un des précurseurs de l’ingénierie du chaos. L’entreprise a utilisé cette approche pour garantir la disponibilité de sa plateforme de streaming malgré les fréquents changements d’infrastructure. Des approches similaires peuvent aider les entreprises à gagner la confiance dans leurs concepts de cloud, indépendamment du fournisseur.

Concilier disponibilité, coûts et complexité

La mise en place d’une architecture de cloud compatible HA (avec des mécanismes de basculement et de reprise éprouvés) a un coût : dépenses financières supplémentaires et complexité opérationnelle. Les ressources redondantes, les déploiements dans plusieurs régions et les basculements automatisés nécessitent des investissements supplémentaires.

J’ai récemment commenté un article en ligne dans lequel il était dit que les services de cloud computing devaient garantir la « résilience » dans leur conception. Tout d’abord, résilience et HA ne sont pas la même chose. Veuillez vérifier les définitions vous-même ! Les deux termes ne doivent pas être confondus ou assimilés. De plus, j’ai décrit le scénario suivant dans mon commentaire :

Le CEO interroge le CIO et le CTO sur une panne récente.
Le CIO et le CTO expliquent au CEO combien cela va coûter pour mettre en place HA.
Le CEO en parle au CFO, mais celui-ci refuse : « N’y pense même pas ! »

J’ai entendu des conversations similaires dans de nombreuses entreprises. Le résultat a été le même dans la plupart des cas, et un seul point a fait l’objet d’un consensus : le coût est le facteur décisif.

De nombreuses entreprises sont sous pression pour maintenir leurs coûts de cloud computing à un niveau bas. Cela conduit souvent à ce que la résilience soit reportée ou pas du tout mise en œuvre en raison de restrictions budgétaires. En outre, les architectures cloud-natives s’accompagnent de dépendances à plusieurs niveaux (microservices, conteneurs, API) qui nécessitent des stratégies de disponibilité coordonnées.

Le principal défi consiste à trouver un équilibre entre rentabilité et fiabilité. Les priorités commerciales doivent donc être conciliées d’une manière ou d’une autre avec la conception technique. Toutes les charges de travail n’exigent pas une disponibilité de 99,999 %, comme c’est le cas pour les systèmes critiques. Il est donc judicieux d’établir ailleurs dans le cloud un minimum de haute disponibilité qui permette à l’entreprise de maintenir les services les plus importants dans un état de basculement.

Conception d’une architecture HA

Prévoir les pannes : accepter que des pannes puissent survenir, que ce soit dans son propre datacenter ou dans le cloud public. Elles font partie de la réalité de l’utilisation de toute technologie dans le monde des affaires. Lors de la conception de l’architecture, prévoyez la défaillance de certains composants. Misez sur des conceptions découplées, des architectures basées sur des cellules, une réplication asynchrone, des fonctions de basculement/reprise éprouvées et des mécanismes de restauration automatisés.
Donner la priorité aux charges de travail : toutes les applications ne doivent pas être également résilientes. Classez les charges de travail en fonction de leur importance pour l’entreprise et investissez en conséquence.
Mettre en œuvre l’observabilité : la visibilité en temps réel sur l’ensemble du système et la reconnaissance des formes (avec AIOps) sont essentielles. Surveiller en permanence les indicateurs de performance, les dépendances et l’expérience utilisateur afin de détecter rapidement tout signe de détérioration.
Faire régulièrement des essais : effectuez des simulations de panne contrôlées ou des journées de test pour vérifier vos processus de récupération. Documentez les conclusions importantes et mettez à jour l’architecture en conséquence.
Automatiser la restauration : les interventions manuelles retardent le rétablissement. Utilisez l’infrastructure en tant que code (IaC) et les mécanismes d’auto-cicatrisation pour garantir une restauration plus rapide.
Utilisation équilibrée du multi-cloud : déployez le multicloud de manière sélective. Pour certaines charges de travail, la diversité des fournisseurs peut améliorer la disponibilité, mais pour d’autres, elle peut entraîner une complexité et des coûts inutiles.
Examiner les SLA et les responsabilités communes : familiarisez-vous avec le modèle de responsabilité partagée de votre fournisseur de cloud. Clarifiez les aspects de la disponibilité et de la sécurité qui sont couverts par le fournisseur et ceux qui restent de votre responsabilité.
Vous pensez que cela suffit ? Loin de là ! Vérifiez ce qui se trouve au-dessus de vous dans la hiérarchie du cloud. Même si vous disposez localement de bons plans de secours, une panne hors de votre contrôle peut contrecarrer vos plans.

Transformer les échecs en opportunités

Un cloud résilient n’est pas un point sur une liste de contrôle, mais nécessite une culture de préparation aux situations d’urgence. Face à l’évolution des écosystèmes numériques, les entreprises doivent penser au-delà des sauvegardes et des redondances. Construire la disponibilité, c’est combiner une architecture solide avec des tests rigoureux, de la transparence et de la gouvernance.

Indépendamment de la plateforme, chaque défaillance offre l’occasion de reconsidérer les hypothèses précédentes et d’améliorer la conception. La question n’est pas de savoir si une panne se produira, mais de savoir dans quelle mesure votre entreprise est préparée à y faire face si une telle situation se produit.

Votre partenaire pour la sécurité dans le cloud

Chez T-Systems, nous travaillons avec des entreprises de différents secteurs pour concevoir et mettre en œuvre des architectures cloud hautement disponibles, sécurisées, souveraines et pérennes. Notre approche combine des connaissances approfondies en matière d’ingénierie cloud avec des cadres HA éprouvés, l’observabilité et la récupération automatisée.

En tant que partenaire de confiance des principaux hyperscaleurs tels qu’Amazon Web Services (AWS), Microsoft Azure et Google Cloud Platform (GCP), nous aidons les entreprises à tirer le meilleur parti de chaque écosystème, à gérer la complexité, à optimiser les coûts et à gagner en fiabilité.

Des évaluations stratégiques de la conception et de l’architecture à la migration, l’optimisation et la gouvernance continue, T-Systems permet aux entreprises de construire une base pour des opérations numériques ininterrompues et une transformation durable.

L’optimisation de la disponibilité ne consiste pas à éviter les pannes, mais à être prêt à les affronter.

Repenser la disponibilité du cloud

Transformer les risques en résilience

Les faiblesses du cloud

En cas de panne

Pourquoi les mécanismes de protection traditionnels ne suffisent pas

Gagner la confiance grâce au chaos

Concilier disponibilité, coûts et complexité

Conception d’une architecture HA

Transformer les échecs en opportunités

Votre partenaire pour la sécurité dans le cloud

Richard Simon

Cela pourrait également vous intéresser

Services cloud professionnels

Cloud public

Nous attendons votre avis avec impatience