O Incidente da CrowdStrike: Reflexão e Lições para a Segurança Digital

Publicado a 7/26/2024 por Knowledge Inside em Opiniao
image

Na semana passada, um incidente significativo abalou a confiança no setor de cibersegurança quando uma atualização defeituosa do sensor Falcon da CrowdStrike causou a interrupção de milhões de sistemas Windows em todo o mundo. Apesar de não ser um fabricante que representamos, como CTO da Knowledge Inside, sinto a necessidade de partilhar a minha perspetiva sobre este evento e as suas implicações.

O Incidente

No dia 19 de julho de 2024, uma atualização de configuração do sensor Falcon foi distribuída pela CrowdStrike, resultando em falhas críticas no sistema operativo Windows. Esta atualização defeituosa causou o famoso "Blue Screen of Death" (BSOD) em numerosos dispositivos, levando a reinicializações constantes e impedindo o funcionamento normal dos sistemas afetados. Estima-se que cerca de 8,5 milhões de dispositivos foram impactados globalmente, com maiores problemas reportados em empresas que dependem fortemente de infraestruturas Windows.

O impacto foi vasto e significativo. Empresas de todos os tamanhos e setores viram os seus sistemas paralisados, resultando em grandes perdas financeiras. No setor dos transportes, mais de 5.000 voos foram cancelados devido a falhas nos sistemas de TI dos aeroportos. O custo financeiro deste incidente foi estimado em bilhões de dólares, com apenas uma fração destas perdas cobertas por seguros. 

Resposta e Mitigação

A resposta da CrowdStrike foi rápida, com a empresa a identificar e reverter a atualização problemática. Foram recomendadas várias medidas de mitigação, incluindo a inicialização dos sistemas em modo de segurança para remover os ficheiros defeituosos e a aplicação de atualizações corretivas.

Prevenção Futura

Para prevenir incidentes semelhantes no futuro, a CrowdStrike anunciou que está a implementar várias medidas importantes:

  • Reforço nos Testes de Software: Incluem testes locais, de rollback, de stress, injeção de falhas e de estabilidade, além de verificações adicionais de validação.
  • Implantação Escalonada de Atualizações: Implementação gradual de atualizações, começando com um grupo menor de sensores (Canary Deployment), e monitorização melhorada do comportamento.
  • Controlo e Transparência para Clientes: Proporcionar maior controlo aos clientes sobre quando e onde as atualizações são implementadas, além de fornecer documentação mais detalhada.
  • Validação Independente: Realizar revisões de código de segurança e dos processos de qualidade por entidades terceiras.


Desafios no Desenvolvimento de Software e Responsabilidade

Nos últimos anos, tenho observado uma tendência preocupante no desenvolvimento de software, onde a urgência para lançar atualizações em tempo real frequentemente sobrepõe a qualidade do produto final. Esta realidade reflete-se não só na área da cibersegurança, mas de forma geral. Muitas vezes brincamos que todo software está em "preview" ou "beta", mas esta abordagem tem consequências graves quando falhas críticas ocorrem, especialmente em serviços essenciais como transportes, hospitais e outras infraestruturas críticas.

Deve haver uma reflexão séria sobre o desenvolvimento de software, a qualidade das entregas e a responsabilização dos fabricantes. Quando falhas de software podem paralisar serviços essenciais e colocar vidas em risco, é fundamental questionar a eficácia dos controlos de qualidade e a responsabilidade dos desenvolvedores. É inquietante que grandes fabricantes como a Crowdstrike enfrentem poucas ou nenhumas consequências legais graves, mesmo quando as suas falhas resultam em danos significativos. Esta falta de responsabilização levanta a questão crucial: se o software não é adequado para sistemas críticos, como podemos protegê-los?

O recente incidente destaca a necessidade urgente de mudanças. A qualidade do software deve ser uma prioridade indiscutível, e os fabricantes devem ser responsabilizados de maneira mais rigorosa pelas falhas que causam danos. Precisamos exigir não apenas produtos de alta qualidade, mas também um sistema de responsabilização que garanta que as consequências das falhas sejam devidamente enfrentadas.

Reflexão na Knowledge Inside

Na Knowledge Inside, embora a nossa solução de segurança preferida seja o Microsoft Defender XDR, este incidente é relevante para nós em termos de salvaguardas. Enfatizamos a importância da distribuição gradual de atualizações com atrasos explícitos para sistemas críticos e da definição de planos de contingência e de recuperação de desastres (DR). Estas práticas são essenciais para mitigar riscos e garantir a continuidade dos negócios em caso de falhas inesperadas.
Assim, estamos a redobrar os nossos esforços para garantir que os nossos clientes estejam preparados para enfrentar desafios semelhantes. Este incidente é um alerta para todos nós no setor de TI e cibersegurança. Precisamos continuar a aprimorar as nossas práticas, investir em tecnologias de monitorização avançada e garantir que os nossos protocolos de resposta a incidentes sejam sólidos e eficazes.

Comments