Redesenhando a disponibilidade da nuvem

Os pontos fracos da nuvem

Na verdade, eu queria chamar este artigo de "Os pontos fracos ocultos da nuvem", mas mudei de ideia porque as consequências de uma grande interrupção da nuvem são tudo menos ocultas. Em determinadas áreas, de acordo com meu amigo Paul Bevan, ex-diretor de pesquisa de infraestrutura da Bloor Research e agora aposentado, as organizações estão transferindo suas cargas de trabalho para a nuvem e presumindo que o processo está concluído. Eles tratam a transformação da nuvem como se a responsabilidade agora estivesse fora de suas atribuições e não exigisse mais atenção.

Mas é claro que a migração para a nuvem, especialmente a nuvem pública, é muito mais complexa. O modelo de responsabilidade compartilhada é um contraconceito a essa abordagem um tanto ingênua.

As interrupções na nuvem não são incomuns no mundo hiperconectado de hoje e com serviços complexos. Apesar do projeto avançado das plataformas hyperscaler, podem ocorrer interrupções, com causas que vão desde atualizações de software, erros de configuração e problemas de rede até quedas de energia, erros humanos ou reações em cadeia em serviços dependentes.

À medida que as organizações transferem cada vez mais cargas de trabalho essenciais aos negócios para ambientes de nuvem, até mesmo um curto tempo de inatividade pode ter consequências de longo prazo, afetando a disponibilidade, a confiança do cliente, a percepção do público e a estabilidade da receita. Os incidentes revelam uma verdade incômoda: o fornecimento de serviços resilientes não pode ser terceirizado – os mecanismos apropriados devem ser incorporados à arquitetura.

Quando se trata de fracasso

Se houver uma grande interrupção da nuvem, os efeitos serão sentidos imediatamente em todos os setores. Os aplicativos ficam mais lentos, as interfaces de programação de aplicativos (APIs) não respondem mais, o processamento de dados é interrompido e os serviços relacionados ao cliente não estão mais disponíveis (os sites geram mensagens de erro).

O impacto direto nos negócios inclui a perda de dados de transações, perda de produtividade e danos à reputação. Nos setores governamental, de saúde, comércio eletrônico e, principalmente, financeiro, um curto tempo de inatividade de minutos ou milissegundos pode levar à perda de receita, a violações de normas de conformidade, ao não cumprimento de acordos de nível de serviço (SLAs) e a problemas com a integridade dos dados.

No entanto, os maiores fatores de custo são o tempo de recuperação, a perda de clientes e o maior esforço operacional necessário para restaurar o sistema ao seu estado normal.

Por que os mecanismos tradicionais de proteção não são suficientes

Para neutralizar esses riscos, as empresas tradicionalmente empregam várias estratégias de atenuação de riscos, incluindo o fornecimento de zonas de disponibilidade múltipla (multi-AZ), replicação de dados, configurações de disaster recovery (DR) ou até mesmo estratégias multicloud.

Mesmo que essas medidas sejam úteis até certo ponto, elas não oferecem segurança absoluta. Por exemplo, uma abordagem de várias nuvens pode estar associada a latência, requisitos de governança complexos, necessidades de treinamento e custos operacionais adicionais. Da mesma forma, um plano de backup ou disaster recovery pode apenas proteger os dados, mas não necessariamente garantir a disponibilidade ou processos contínuos de failover e failback. Em outras palavras: os planos de recuperação tradicionais podem ser muito lentos e complicados para algumas das arquiteturas atuais de alto desempenho, centradas em dados e baseadas em eventos.

Ou, ainda em outras palavras: a redundância por si só não garante a disponibilidade. O fator decisivo é a qualidade com que esses sistemas são projetados, automatizados e testados regularmente em condições de falha.

Ganhar confiança por meio do caos

A alta disponibilidade (High availability, HA) é um importante pilar de uma arquitetura de nuvem resiliente. O objetivo é minimizar o tempo de inatividade. Isso é obtido por meio do projeto de sistemas que continuam funcionando mesmo que um, dois ou todos os serviços falhem.
Para colocar a teoria em prática, as empresas precisam agir e aplicar técnicas como a engenharia do caos. Isso envolve a simulação de falhas em ambientes de produção para observar como os sistemas se comportam em situações críticas. A identificação de vulnerabilidades antes da ocorrência de incidentes reais dá às empresas a oportunidade de otimizar sua arquitetura e seus mecanismos de resposta.

A Netflix é considerada uma das pioneiras da engenharia do caos. A empresa usou essa abordagem para garantir a disponibilidade de sua plataforma de streaming, apesar das frequentes mudanças na infraestrutura. Abordagens semelhantes podem ajudar as empresas a ganhar confiança em seus conceitos de nuvem, independentemente do provedor.

Harmonização da disponibilidade, dos custos e da complexidade

A criação de uma arquitetura de nuvem com capacidade de HA (com mecanismos de failover e failback testados e aprovados) tem um preço: despesas financeiras adicionais e complexidade operacional. Recursos redundantes, implementações em várias regiões e failovers automatizados exigem investimentos adicionais.

Recentemente, comentei em um artigo on-line sobre como os serviços em nuvem devem ser projetados para garantir a "resiliência". Em primeiro lugar, resiliência não é o mesmo que HA. Verifique você mesmo as definições! Os dois termos não devem ser confundidos ou equiparados. Também descrevi o seguinte cenário em meu comentário:

O CEO pergunta ao CIO e ao CTO sobre um mau funcionamento recente.
O CIO e o CTO explicam ao CEO quanto custará para configurar a HA.
O CEO leva o assunto ao CFO, mas ele não dá importância: "Esqueça isso!"

Já ouvi conversas semelhantes em muitas empresas. O resultado foi o mesmo na maioria dos casos, e houve apenas um ponto de concordância: os custos são o fator decisivo.

Muitas empresas estão sob pressão para manter os custos de nuvem baixos. Isso geralmente faz com que a resiliência seja adiada ou não seja implementada devido a restrições orçamentárias. Além disso, as arquiteturas cloud native estão associadas a dependências em vários níveis (microsserviços, contêineres, APIs), que exigem estratégias de disponibilidade coordenadas.

O maior desafio aqui é encontrar um equilíbrio entre eficiência de custo e confiabilidade. Portanto, as prioridades comerciais devem ser harmonizadas de alguma forma com o projeto técnico. Nem todas as cargas de trabalho exigem 99,999% de disponibilidade, o que é essencial para sistemas críticos para os negócios. Portanto, faz sentido estabelecer um nível mínimo de alta disponibilidade em outro lugar na nuvem que permita à empresa manter os serviços mais importantes em um estado de failover.

Projeto de uma arquitetura de HA

Incluir falhas no cálculo: Aceite que podem ocorrer falhas, seja em seu próprio data center ou na nuvem pública. Elas são uma realidade quando se usa qualquer tecnologia nos negócios. Leve em conta a falha de componentes individuais ao projetar a arquitetura. Confie em designs desacoplados, arquiteturas baseadas em células, replicação assíncrona, funções comprovadas de failover/failback e mecanismos de recuperação automatizados.
Priorizar as cargas de trabalho: Nem todos os aplicativos precisam ser igualmente resilientes. Classifique as cargas de trabalho com base na importância comercial e invista de acordo.
Implementar a observabilidade: A transparência em tempo real entre sistemas e o reconhecimento de padrões (com AIOps) são fundamentais. Monitore continuamente as métricas de desempenho, as dependências e a experiência do usuário para detectar os primeiros sinais de degradação.
Faça testes regularmente: Realize simulações de falhas controladas ou dias de teste para verificar seus processos de recuperação. Documente descobertas importantes e atualize a arquitetura de acordo com elas.
Automatizar a recuperação: A intervenção manual atrasa a recuperação. Use a infraestrutura como código (IaC) e mecanismos de autocorreção para garantir uma recuperação mais rápida.
Uso equilibrado multicloud: Use a multicloud de forma seletiva. Para algumas cargas de trabalho, a diversidade de fornecedores pode melhorar a disponibilidade, mas, para outras, pode levar a complexidade e custos desnecessários.
Verifique os SLAs e as responsabilidades compartilhadas: Familiarize-se com o modelo de responsabilidade compartilhada do seu provedor de nuvem. Esclareça quais aspectos de disponibilidade e segurança são cobertos pelo provedor e quais permanecem sob sua responsabilidade.
Você acha que isso é tudo? Muito longe disso! Verifique o que está acima de você na hierarquia da nuvem. Mesmo que você tenha bons planos de contingência locais, uma interrupção fora do seu controle pode atrapalhar seus planos.

Transformando fracassos em oportunidades

Uma nuvem resiliente não é um item em uma lista de verificação, mas requer uma cultura de preparação para emergências. À medida que os ecossistemas digitais evoluem, as empresas precisam pensar além dos backups e redundâncias. Criar disponibilidade significa combinar uma arquitetura sólida com testes rigorosos, transparência e governança.

Independentemente da plataforma, cada falha é uma oportunidade para repensar as suposições anteriores e aprimorar o projeto. A questão não é se ocorrerá uma interrupção, mas o quanto sua empresa está preparada para ela quando o pior acontecer.

Seu parceiro para segurança na nuvem

Na T-Systems, trabalhamos com empresas de vários setores para projetar e implementar arquiteturas de nuvem altamente disponíveis, seguras, soberanas e preparadas para o futuro. Nossa abordagem combina conhecimento profundo de engenharia de nuvem com estruturas de HA comprovadas, observabilidade e recuperação automatizada.

Como um parceiro confiável dos principais hiperescaladores, como Amazon Web Services (AWS), Microsoft Azure e Google Cloud Platform (GCP), ajudamos as empresas a obter o melhor de qualquer ecossistema, gerenciar a complexidade, otimizar os custos e ganhar confiabilidade.

Desde o design estratégico e avaliações de arquitetura até a migração, otimização e governança contínua, a T-Systems permite que as empresas criem uma base para operações digitais ininterruptas e transformação sustentável.

Otimizar a disponibilidade não significa evitar falhas, mas estar preparado para elas.