En el mundo moderno, interconectado y con amplias dependencias digitales, las interrupciones son inevitables. La disponibilidad fiable no se caracteriza por la ausencia de fallos, sino por la capacidad de una empresa para amortiguar los efectos de una incidencia, recuperarse con rapidez y reanudar los procesos de creación de valor en el menor tiempo posible. Este artículo muestra cómo convertir la incertidumbre en continuidad empresarial mediante una buena preparación, un diseño de arquitectura previsor y un manejo consciente de las posibles incidencias.
En realidad, quería titular este artículo «Los puntos débiles ocultos del cloud», pero lo pensé mejor porque las consecuencias de un fallo generalizado del cloud no son nada ocultas. En opinión de mi amigo Paul Bevan, antiguo director de Investigación de infraestructuras en Bloor Research y ahora jubilado, en determinados ámbitos las empresas trasladan sus cargas de trabajo al cloud y creen que con esto el proceso ha concluido. A partir de ese momento, tratan la transformación al cloud como si la responsabilidad ya no fuera suya y no requiriera más atención.
Sin embargo, huelga decir que la migración al cloud, sobre todo al cloud público, es mucho más compleja. El modelo de responsabilidad compartida es un concepto contrario a este enfoque un tanto ingenuo.
Vivimos en un mundo hiperconectado en el que se ofrecen servicios complejos, pero aún así, las interrupciones del cloud no son infrecuentes. A pesar del diseño avanzado de las plataformas de hyperscalers, es posible que se produzca interrupciones cuyas causas pueden ir desde actualizaciones de software, errores de configuración y problemas de red hasta cortes de energía, errores humanos o reacciones en cadena en servicios dependientes.
A medida que las empresas trasladan cada vez más las cargas de trabajo críticas para el negocio a entornos cloud, incluso un breve periodo de inactividad puede tener consecuencias a largo plazo y afectar a la disponibilidad, la confianza de los clientes, la percepción pública y la estabilidad de la facturación. Las interrupciones ponen de manifiesto una verdad incómoda: no es posible externalizar la prestación resiliente de servicios, deben integrarse los mecanismos correspondientes en la arquitectura.
Cuando se produce una interrupción importante del cloud, las repercusiones se dejan sentir de inmediato en todos los sectores. Las aplicaciones se ralentizan, las interfaces de programación de aplicaciones (API) dejan de responder, el procesamiento de datos se detiene y los servicios relacionados con los clientes dejan de estar disponibles (los sitios web generan mensajes de error).
Entre las repercusiones inmediatas para las empresas se encuentran la pérdida de datos de transacciones, la pérdida de productividad y el daño a la reputación. En el caso de las autoridades públicas, la sanidad, el comercio electrónico y, en particular, el sector financiero, un breve período de inactividad de minutos o milisegundos puede provocar pérdidas de ingresos, la vulneración de las normas de cumplimiento, incumplimientos de los acuerdos de nivel de servicio (SLA) y problemas con la integridad de los datos.
Sin embargo, los factores de coste más importantes son el tiempo de recuperación, la pérdida de clientes y el aumento del esfuerzo operativo necesario para restablecer la normalidad.
Para contrarrestar estos riesgos, las empresas suelen utilizar diversas estrategias de reducción de riesgos, entre las que se incluyen la implementación de zonas de disponibilidad múltiple (Multi-AZ), la replicación de datos, las configuraciones de recuperación ante desastres (DR) o incluso estrategias multicloud.
Si bien estas medidas son útiles hasta cierto punto, no ofrecen una seguridad absoluta. Por ejemplo, un enfoque multicloud puede implicar latencia, requisitos de gobernanza complejos, necesidades de formación y costes operativos adicionales. Del mismo modo, un plan de copia de seguridad o de recuperación ante desastres solo puede proteger los datos, pero no garantiza necesariamente la disponibilidad o la continuidad de las operaciones de conmutación por error y de conmutación por recuperación. En otras palabras, los planes de recuperación convencionales pueden ser demasiado lentos y pesados para algunas de las potentes arquitecturas actuales, orientadas a los datos y basadas en eventos.
O dicho de otro modo, la redundancia por sí sola no garantiza la disponibilidad. Lo que importa es lo bien diseñados y automatizados que estén estos sistemas y la regularidad con la que se prueban en condiciones de fallo.
La alta disponibilidad (HA) es un pilar importante en una arquitectura de cloud resiliente y su objetivo es garantizar un tiempo de inactividad mínimo. Esto se consigue diseñando sistemas que sigan funcionando incluso aunque fallen uno, dos o todos los servicios.
Para poner en práctica la teoría, las empresas deben actuar y aplicar técnicas como la denominada ingeniería del caos. Esto implica simular fallos en entornos de producción para observar cómo se comportan los sistemas en situaciones críticas. La identificación de puntos débiles antes de que se produzcan incidencias reales ofrece a las empresas la oportunidad de optimizar su arquitectura y sus mecanismos de respuesta.
Netflix es considerada una de las pioneras en ingeniería del caos porque ha utilizado este enfoque para garantizar la disponibilidad de su plataforma de streaming a pesar de los frecuentes cambios en la infraestructura. Los enfoques similares pueden ayudar a las empresas a ganar confianza en sus conceptos de cloud, independientemente del proveedor.
El precio de crear una arquitectura en el cloud con la capacidad de alta disponibilidad (con mecanismos probados de conmutación por error y recuperación) es el aumento del gasto financiero y la complejidad operativa. Los recursos redundantes, los despliegues en varias regiones y las conmutaciones por error automatizadas requieren inversiones adicionales.
Recientemente comenté una publicación en línea que afirmaba que los servicios en el cloud deben garantizar la «resiliencia» en su diseño. En primer lugar, resiliencia no es lo mismo que alta disponibilidad. ¡Comprueba tú mismo las definiciones! Estos términos no deben confundirse ni equipararse. Además, en mi comentario describí el siguiente escenario:
He escuchado conversaciones similares en muchas empresas. El resultado fue el mismo en la mayoría de los casos y solo hubo consenso en un punto: el factor decisivo son los costes.
Muchas empresas se ven presionadas a mantener bajos sus costes de cloud. Esto suele llevar a que la resiliencia se posponga o ni siquiera se implante debido a las restricciones presupuestarias. Además, las arquitecturas nativas del cloud implican dependencias en varios niveles (microservicios, contenedores, API) que requieren estrategias de disponibilidad coordinadas.
El mayor reto en este sentido es encontrar un equilibrio entre la rentabilidad y la fiabilidad. Por lo tanto, es imperativo conciliar de alguna manera las prioridades empresariales con el diseño técnico. No todas las cargas de trabajo requieren una disponibilidad del 99,999 %, que, en cambio, sí es esencial para los sistemas críticos para el negocio. Por lo tanto, lo sensato es establecer un mínimo de alta disponibilidad en otra parte del cloud que permita a la empresa mantener los servicios más importantes en estado de conmutación por error.
Un cloud resiliente no es un punto más en una lista de verificación, sino que requiere una cultura de preparación para casos de emergencia. Dada la evolución de los ecosistemas digitales, las empresas deben pensar más allá de las copias de seguridad y las redundancias. Generar disponibilidad significa combinar una arquitectura sólida con pruebas rigurosas, transparencia y gobernanza.
Independientemente de la plataforma, cada fallo entraña la oportunidad de reconsiderar las suposiciones anteriores y mejorar el diseño. La cuestión no es si se producirá un fallo, sino cuán preparada está tu empresa para cuando se produzca una emergencia.
En T-Systems colaboramos con empresas de diversos sectores para diseñar e implantar arquitecturas en el cloud altamente disponibles, seguras, soberanas y preparadas para el futuro. Nuestro enfoque combina un profundo conocimiento en el ámbito de la ingeniería en el cloud con marcos de alta disponibilidad probados, observabilidad y recuperación automatizada.
Como socio fiable de hyperscalers líderes como Amazon Web Services (AWS), Microsoft Azure y Google Cloud Platform (GCP), ayudamos a las empresas a sacar el máximo partido de cada ecosistema, gestionar la complejidad, optimizar los costes y ganar en fiabilidad.
Desde evaluaciones estratégicas de diseño y arquitectura hasta migración, optimización y gobernanza continua, T-Systems permite a las empresas sentar las bases para unas operaciones digitales ininterrumpidas y una transformación sostenible.
Optimizarla disponibilidad no consiste en evitar las interrupciones, sino en estar preparados para ellas.