Conforme o guia de práticas recomendadas da ITIL, uma interrupção é "um evento que não faz parte da operação-padrão de um serviço e que causa interrupção ou redução na qualidade". Em uma emergência, cada segundo conta para evitar que o dano se amplie. No entanto, os departamentos de TI estão sobrecarregados de modo geral. Neste guia, explicamos como você pode reduzir significativamente o esforço envolvido no isolamento de recursos de autoatendimento.
O isolamento de recursos é um método para resolver incidentes de segurança em TI e também nas práticas recomendadas de nuvem da AWS. Os incidentes de segurança podem ocorrer em dois domínios: o domínio do serviço e o domínio da infraestrutura. Além disso, a AWS pode registrar e monitorar a atividade da nuvem e detectar eventos relacionados à segurança com alguns serviços existentes como, por exemplo, o Amazon CloudTrail, Amazon CloudWatch, registros de acesso ao Amazon S3, registros de fluxo VPC, Amazon GuardDuty, Amazon Detective, AWS Security Hub e Amazon Macie.
A orquestração, automação e resposta de segurança, ou SOAR (Security Orchestration, Automation and Response), é a chave para o gerenciamento eficaz de incidentes. As funções do SOAR consistem em três componentes para operações de segurança mais eficientes: gerenciamento de ameaças e vulnerabilidades, uma resposta padronizada a incidentes de segurança, o chamado runbook, e a automação das operações de segurança. É exatamente isso que o isolamento automático de recursos na nuvem da AWS faz.
O impacto de um incidente no domínio do serviço pode ser grave, levando à interrupção de serviços essenciais, a grandes inconvenientes para os usuários finais e, muitas vezes, até a danos à reputação das organizações. No cosmos da Amazon, os incidentes no domínio do serviço podem afetar a conta AWS de um cliente, mas também as autorizações do Gerenciamento de Identidade e Acesso (IAM), os metadados de recursos e o faturamento. Se os invasores obtiverem acesso à conta do IAM, eles também poderão usar indevidamente as APIs, ou seja, interfaces de programação intermediárias para troca de dados (Interface de Programação de Aplicativos), para interromper a configuração existente.
As possíveis consequências de um incidente no domínio da infraestrutura incluem falhas operacionais, roubo de dados e violações de conformidade. Isso pode incluir infraestruturas de TI, bem como processos de TI. Dependendo da gravidade da violação e do setor afetado, esses incidentes podem ser informados conforme a Lei Geral de Proteção de Dados (LGPD) e resultar em multas significativas por parte das autoridades de proteção de dados da UE. Os incidentes correspondentes incluem dados ou atividades relacionadas à rede, como tráfego para instâncias do Amazon EC2 dentro da VPC, processos e dados em instâncias do Amazon EC2 e outras áreas e serviços, como contêineres.
Se um vazamento for descoberto e o gerenciamento de incidentes de TI o investigar, poderá ser útil isolar especificamente os recursos afetados. O ideal é que isso minimize o possível impacto e impeça que os invasores acessem recursos adicionais. Isso também evita que os dados sejam divulgados de forma não intencional ou sejam acessíveis a terceiros.
Com a ajuda de uma API de segurança e de etapas codificadas manualmente, é possível reduzir significativamente o esforço e o tempo exigidos pelos funcionários do departamento de TI. Posteriormente, as equipes de resposta poderão chamar a API para resolver o problema. Com o tempo, podemos automatizar outras etapas por meio do SOAR e implementar runbooks adicionais. Por fim, é possível processar diversos tipos de incidentes frequentes automaticamente dessa forma.
A solução se concentra no isolamento de usuários IAM e recursos EC2 em contas da AWS. A base: APIs REST altamente seguras, que integram notificações-padrão para equipes de operações e proprietários de contas e aplicativos. A solução usa um fluxo de trabalho de provisionamento padronizado e gerencia os recursos como infraestrutura como código (IaC). Isso significa: O hardware usado é descrito em um código legível por máquina. Isso significa que a estrutura e o gerenciamento da infraestrutura de TI, a segurança cibernética e o gerenciamento de incidentes podem ser altamente automatizados, por exemplo, para viabilizar uma resposta mais rápida a novos requisitos. O fluxograma de arquitetura a seguir ilustra a abordagem da solução.
Ao receber um incidente para isolamento de recursos:
Isso acontece quando ocorre um incidente com isolamento de recursos:
O fluxograma da arquitetura mostra que a solução baseada em API tem por base vários recursos da AWS. Eles são fornecidos e gerenciados com o Terraform como IaC. Definimos uma abordagem-padrão de CI/CD com diferentes ambientes para desenvolvimento, teste e produção. Agrupamos corretamente todo o código desenvolvido e testado no ambiente de desenvolvimento e o disponibilizamos no ambiente de teste para validar a solução com casos de teste funcionais. Se os testes forem bem-sucedidos, toda a configuração será executada no ambiente de produção. A API de autoatendimento para responder a incidentes de segurança é ativada posteriormente.
Ao codificar runbooks de resposta a incidentes para usuários e fornecer a API ou os aplicativos a usuários válidos, obtemos os seguintes benefícios de resposta a incidentes de segurança para o gerenciamento de incidentes:
OAWS CAF, o guia de resposta a incidentes de segurança da AWS e a estrutura bem arquitetada recomendam que os clientes formulem procedimentos conhecidos de resposta a incidentes e testem os seus runbooks antes de um incidente ou problema. Os testes preventivos de processos reduzem o tempo de resposta em um ambiente de produção e podem, dessa forma, evitar danos maiores.
Quando as empresas codificam processos em código e infraestrutura definidos, elas podem se preparar para a captura de dados à medida que coletam artefatos. A codificação padroniza o processo de registro e garante uma sequência repetível e verificável: Quais informações foram coletadas, quando e como? Isso torna menos provável que haja falta de dados para análises futuras. A análise correta é essencial para uma threat intelligence abrangente e um gerenciamento responsivo de incidentes.
Desenvolvemos o processo de isolamento para usuários IAM e instâncias EC2 para o status atual. Além disso, podemos automatizar ainda mais os runbooks e implementá-los como recurso adicional. Ao integrar diferentes funções à mesma API, criamos configurações de segurança e processos de desenvolvimento padronizados. Isso nos permite fornecer todas as funções como APIs REST e integrá-las a outros aplicativos e sistemas.