Buscar
Joven empresaria trabajando con una tablet en un avión

Rediseñar la disponibilidad del cloud

Cómo las arquitecturas de cloud modernas son cada vez más seguras gracias a medidas inteligentes contra fallos y procesos de recuperación rápidos

27-feb-2026Richard Simon

Convertir los riesgos en resiliencia

En el mundo moderno, interconectado y con amplias dependencias digitales, las interrupciones son inevitables. La disponibilidad fiable no se caracteriza por la ausencia de fallos, sino por la capacidad de una empresa para amortiguar los efectos de una incidencia, recuperarse con rapidez y reanudar los procesos de creación de valor en el menor tiempo posible. Este artículo muestra cómo convertir la incertidumbre en continuidad empresarial mediante una buena preparación, un diseño de arquitectura previsor y un manejo consciente de las posibles incidencias.

 

Los puntos débiles del cloud

En realidad, quería titular este artículo «Los puntos débiles ocultos del cloud», pero lo pensé mejor porque las consecuencias de un fallo generalizado del cloud no son nada ocultas.  En opinión de mi amigo Paul Bevan, antiguo director de Investigación de infraestructuras en Bloor Research y ahora jubilado, en determinados ámbitos las empresas trasladan sus cargas de trabajo al cloud y creen que con esto el proceso ha concluido. A partir de ese momento, tratan la transformación al cloud como si la responsabilidad ya no fuera suya y no requiriera más atención.

Sin embargo, huelga decir que la migración al cloud, sobre todo al cloud público, es mucho más compleja. El modelo de responsabilidad compartida es un concepto contrario a este enfoque un tanto ingenuo.

Vivimos en un mundo hiperconectado en el que se ofrecen servicios complejos, pero aún así, las interrupciones del cloud no son infrecuentes. A pesar del diseño avanzado de las plataformas de hyperscalers, es posible que se produzca interrupciones cuyas causas pueden ir desde actualizaciones de software, errores de configuración y problemas de red hasta cortes de energía, errores humanos o reacciones en cadena en servicios dependientes.

A medida que las empresas trasladan cada vez más las cargas de trabajo críticas para el negocio a entornos cloud, incluso un breve periodo de inactividad puede tener consecuencias a largo plazo y afectar a la disponibilidad, la confianza de los clientes, la percepción pública y la estabilidad de la facturación. Las interrupciones ponen de manifiesto una verdad incómoda: no es posible externalizar la prestación resiliente de servicios, deben integrarse los mecanismos correspondientes en la arquitectura.

Cuando se produce una interrupción

Cuando se produce una interrupción importante del cloud, las repercusiones se dejan sentir de inmediato en todos los sectores. Las aplicaciones se ralentizan, las interfaces de programación de aplicaciones (API) dejan de responder, el procesamiento de datos se detiene y los servicios relacionados con los clientes dejan de estar disponibles (los sitios web generan mensajes de error).

Entre las repercusiones inmediatas para las empresas se encuentran la pérdida de datos de transacciones, la pérdida de productividad y el daño a la reputación. En el caso de las autoridades públicas, la sanidad, el comercio electrónico y, en particular, el sector financiero, un breve período de inactividad de minutos o milisegundos puede provocar pérdidas de ingresos, la vulneración de las normas de cumplimiento, incumplimientos de los acuerdos de nivel de servicio (SLA) y problemas con la integridad de los datos.

Sin embargo, los factores de coste más importantes son el tiempo de recuperación, la pérdida de clientes y el aumento del esfuerzo operativo necesario para restablecer la normalidad.

Por qué los mecanismos de protección tradicionales no son suficientes

Para contrarrestar estos riesgos, las empresas suelen utilizar diversas estrategias de reducción de riesgos, entre las que se incluyen la implementación de zonas de disponibilidad múltiple (Multi-AZ), la replicación de datos, las configuraciones de recuperación ante desastres (DR) o incluso estrategias multicloud.

Si bien estas medidas son útiles hasta cierto punto, no ofrecen una seguridad absoluta. Por ejemplo, un enfoque multicloud puede implicar latencia, requisitos de gobernanza complejos, necesidades de formación y costes operativos adicionales. Del mismo modo, un plan de copia de seguridad o de recuperación ante desastres solo puede proteger los datos, pero no garantiza necesariamente la disponibilidad o la continuidad de las operaciones de conmutación por error y de conmutación por recuperación. En otras palabras, los planes de recuperación convencionales pueden ser demasiado lentos y pesados para algunas de las potentes arquitecturas actuales, orientadas a los datos y basadas en eventos.

O dicho de otro modo, la redundancia por sí sola no garantiza la disponibilidad. Lo que importa es lo bien diseñados y automatizados que estén estos sistemas y la regularidad con la que se prueban en condiciones de fallo.

Ganar confianza a través del caos

La alta disponibilidad (HA) es un pilar importante en una arquitectura de cloud resiliente y su objetivo es garantizar un tiempo de inactividad mínimo. Esto se consigue diseñando sistemas que sigan funcionando incluso aunque fallen uno, dos o todos los servicios.
Para poner en práctica la teoría, las empresas deben actuar y aplicar técnicas como la denominada ingeniería del caos. Esto implica simular fallos en entornos de producción para observar cómo se comportan los sistemas en situaciones críticas. La identificación de puntos débiles antes de que se produzcan incidencias reales ofrece a las empresas la oportunidad de optimizar su arquitectura y sus mecanismos de respuesta.

Netflix es considerada una de las pioneras en ingeniería del caos porque ha utilizado este enfoque para garantizar la disponibilidad de su plataforma de streaming a pesar de los frecuentes cambios en la infraestructura. Los enfoques similares pueden ayudar a las empresas a ganar confianza en sus conceptos de cloud, independientemente del proveedor.

Equilibrar la disponibilidad, los costes y la complejidad

El precio de crear una arquitectura en el cloud con la capacidad de alta disponibilidad (con mecanismos probados de conmutación por error y recuperación) es el aumento del gasto financiero y la complejidad operativa. Los recursos redundantes, los despliegues en varias regiones y las conmutaciones por error automatizadas requieren inversiones adicionales.

Recientemente comenté una publicación en línea que afirmaba que los servicios en el cloud deben garantizar la «resiliencia» en su diseño.  En primer lugar, resiliencia no es lo mismo que alta disponibilidad. ¡Comprueba tú mismo las definiciones! Estos términos no deben confundirse ni equipararse. Además, en mi comentario describí el siguiente escenario:

  • El director general pregunta al director de informática y al director técnico sobre una avería reciente.
  • El director de informática y el director técnico le explican al director general cuánto costará instalar la alta disponibilidad.
  • El director general acude al director financiero, pero este lo descarta: «¡Olvídalo!».

He escuchado conversaciones similares en muchas empresas. El resultado fue el mismo en la mayoría de los casos y solo hubo consenso en un punto: el factor decisivo son los costes.

Muchas empresas se ven presionadas a mantener bajos sus costes de cloud. Esto suele llevar a que la resiliencia se posponga o ni siquiera se implante debido a las restricciones presupuestarias. Además, las arquitecturas nativas del cloud implican dependencias en varios niveles (microservicios, contenedores, API) que requieren estrategias de disponibilidad coordinadas.

El mayor reto en este sentido es encontrar un equilibrio entre la rentabilidad y la fiabilidad. Por lo tanto, es imperativo conciliar de alguna manera las prioridades empresariales con el diseño técnico. No todas las cargas de trabajo requieren una disponibilidad del 99,999 %, que, en cambio, sí es esencial para los sistemas críticos para el negocio. Por lo tanto, lo sensato es establecer un mínimo de alta disponibilidad en otra parte del cloud que permita a la empresa mantener los servicios más importantes en estado de conmutación por error.

Diseño de una arquitectura de alta disponibilidad

  1. Ten en cuenta los fallos: acepta que pueden producirse fallos, tanto en tu propio centro de datos como en el cloud público. Los fallos son inalienables al uso de cualquier tecnología en el ámbito empresarial. Ten en cuenta el fallo de componentes individuales al diseñar la arquitectura. Apuesta por diseños desacoplados, arquitecturas basadas en celdas, replicación asíncrona, funciones de conmutación por error/recuperación probadas y mecanismos de recuperación automatizados.
  2. Prioriza las cargas de trabajo:: no todas las aplicaciones tienen que ser igual de resilientes. Clasifica las cargas de trabajo en función de su importancia para el negocio e invierte en consecuencia.
  3. Implanta la observabilidad: la visibilidad en tiempo real y el reconocimiento de patrones (con AIOps) en todos los sistemas es fundamental. Supervisa continuamente los indicadores de rendimiento, las dependencias y la experiencia del usuario para detectar a tiempo cualquier signo de deterioro.
  4. Realiza pruebas periódicas: realiza simulaciones de fallos controladas o jornadas de pruebas para comprobar tus procesos de recuperación. Documenta los hallazgos importantes y actualiza la arquitectura en consecuencia.
  5. Automatiza la recuperación: las intervenciones manuales retrasan la recuperación. Utiliza la infraestructura como código (IaC) y mecanismos de autorreparación para garantizar una recuperación más rápida.
  6. Uso equilibrado del multicloud: utiliza el multicloud de forma selectiva. En algunas cargas de trabajo, la diversidad de proveedores puede mejorar la disponibilidad, mientras que en otras puede generar complejidad y costes innecesarios.
  7. Comprueba los SLA y las responsabilidades compartidas: familiarízate con el modelo de responsabilidad compartida de tu proveedor de cloud. Aclara qué aspectos de la disponibilidad y la seguridad cubre y cuáles siguen siendo tu responsabilidad.
  8. ¿Crees que con esto ya está todo hecho? ¡Ni mucho menos! Comprueba qué tienes por encima en la jerarquía del cloud. Aunque dispongas de buenos planes de contingencia en el plano local, una avería que escape a tu control puede frustrar tus planes.

Convertir los fallos en oportunidades

Un cloud resiliente no es un punto más en una lista de verificación, sino que requiere una cultura de preparación para casos de emergencia. Dada la evolución de los ecosistemas digitales, las empresas deben pensar más allá de las copias de seguridad y las redundancias. Generar disponibilidad significa combinar una arquitectura sólida con pruebas rigurosas, transparencia y gobernanza.

Independientemente de la plataforma, cada fallo entraña la oportunidad de reconsiderar las suposiciones anteriores y mejorar el diseño. La cuestión no es si se producirá un fallo, sino cuán preparada está tu empresa para cuando se produzca una emergencia.

Tu socio para la seguridad en el cloud

En T-Systems colaboramos con empresas de diversos sectores para diseñar e implantar arquitecturas en el cloud altamente disponibles, seguras, soberanas y preparadas para el futuro. Nuestro enfoque combina un profundo conocimiento en el ámbito de la ingeniería en el cloud con marcos de alta disponibilidad probados, observabilidad y recuperación automatizada.

Como socio fiable de hyperscalers líderes como Amazon Web Services (AWS), Microsoft Azure y Google Cloud Platform (GCP), ayudamos a las empresas a sacar el máximo partido de cada ecosistema, gestionar la complejidad, optimizar los costes y ganar en fiabilidad.

Desde evaluaciones estratégicas de diseño y arquitectura hasta migración, optimización y gobernanza continua, T-Systems permite a las empresas sentar las bases para unas operaciones digitales ininterrumpidas y una transformación sostenible.

Optimizarla disponibilidad no consiste en evitar las interrupciones, sino en estar preparados para ellas.

Información sobre el autor
Retrato del Director Técnico Richard Simon, Transformación Cloud

Richard Simon

Director Técnico, Servicios Profesionales en el Cloud , T-Systems

Todos los artículos y perfil del autor

Esto también podría interesarte

Esperamos tu opinión

¿Tienes alguna idea, sugerencia o pregunta sobre este tema? Te invitamos cordialmente a intercambiar ideas con nosotros. ¡Ponte en contacto con nosotros!
Do you visit t-systems.com outside of Spain? Visit the local website for more information and offers for your country.