Interrupção da AWS afeta serviços globalmente
A Amazon.com anunciou na noite de segunda-feira, 20 de outubro, que um problema em uma unidade de computação em nuvem localizada em seu data center no norte da Virgínia, EUA, causou uma interrupção significativa que impactou milhares de sites e aplicativos ao redor do mundo, incluindo plataformas populares como Snapchat e Reddit.
Resolução parcial do problema
A empresa informou que havia resolvido a questão central e estava próximo de uma solução completa. No entanto, alguns usuários ainda enfrentavam dificuldades ao utilizar serviços como a carteira digital Venmo e o serviço de videoconferência Zoom. A interrupção levou trabalhadores de diversas cidades, de Londres a Tóquio, a ficarem offline e impossibilitou a realização de tarefas cotidianas, como pagamentos e alterações em passagens aéreas.
Interrupção notável na história da internet
A interrupção foi considerada a maior desde o incidente com a CrowdStrike no ano anterior, que afetou sistemas tecnológicos em setores diversos, incluindo hospitais, bancos e aeroportos, ressaltando a vulnerabilidade das tecnologias interconectadas. Este evento marca pelo menos a terceira ocorrência em cinco anos em que o cluster da AWS em Virgínia, conhecido como US-EAST-1, esteve envolvido em um grande colapso da internet.
Problemas técnicos na raiz da falha
A razão para a interrupção envolveu o Sistema de Nomes de Domínio (DNS), que impediu que os aplicativos localizassem o endereço correto para a API DynamoDB da AWS, um banco de dados em nuvem crucial para armazenar informações de usuários e dados importantes. Após horas de problemas, muitos aplicativos começaram a retornar gradualmente à normalidade na parte da tarde, no entanto, a AWS informou que erros elevados ainda estavam impactando diversos serviços.
Uma comunicação interna, que foi vista pela Reuters, indicava que existiam "toneladas de serviços internos quebrados", e que as soluções estavam sendo implementadas individualmente. Especificamente, o serviço Lambda da AWS estava apresentando erros devido a complicações em um subsistema interno.
Causa raiz identificada
A AWS detalhou que a causa raiz da falha estava relacionada a um subsistema que monitora a saúde de seus balanceadores de carga de rede, ferramentas fundamentais que distribuem o tráfego entre vários servidores, garantindo melhor desempenho e capacidade. O problema teve origem na "rede interna do EC2".
O Elastic Compute Cloud (EC2) é um serviço da Amazon que oferece capacidade de computação sob demanda dentro da AWS, permitindo que empresas operem servidores virtuais essenciais para o desenvolvimento e hospedagem de aplicativos.
Indicativos de recuperação
Embora a AWS tenha relatado sinais iniciais de recuperação em alguns de seus centros de dados, a empresa não forneceu um cronograma específico para a completa recuperação dos serviços. Aplicativos como Reddit e Roblox já apresentavam uma melhora significativa, porém, outros, como Snapchat e Venmo, começaram a relatar novos problemas.
Reflexões de especialistas
Ken Birman, professor de ciência da computação na Universidade de Cornell, enfatizou que desenvolvedores de software precisam implantar uma melhor tolerância a falhas em seus códigos. Ele destacou que a AWS oferece ferramentas que ajudam a proteger os aplicativos contra falhas em seus datacenters, e que criar backups com outros provedores de nuvem é essencial.
Birman mencionou que, quando empresas cortam custos ao desenvolver aplicativos, esquecendo-se de implementar as proteções necessárias contra interrupções, elas podem enfrentar sérios problemas no futuro.
Histórico de interrupções na AWS
A AWS, que oferece capacidade de computação sob demanda e armazenamento de dados, é o maior provedor de serviços de nuvem do mundo, superando a Microsoft Azure e o Google Cloud. Interrupções em seus serviços têm consequências diretas em uma vasta gama de plataformas e serviços que dependem de sua infraestrutura.
Registros anteriores de falhas
O caso recente de 20 de outubro não é isolado. A instalação US-EAST-1, a mais antiga e maior da AWS, já enfrentou interrupções significativas em 2021 e 2020, evidenciando uma possível fragilidade em sua infraestrutura. Esta região frequentemente serve como padrão para muitos serviços oferecidos pela AWS.
Fragilidade da infraestrutura digital
À luz da recente interrupção, especialistas e acadêmicos observam como os serviços digitais se tornaram interdependentes e vulneráveis devido à centralização em poucos provedores de nuvem. Uma falha pode causar enormes transtornos em diversos setores da economia e na vida cotidiana.
Jake Moore, consultor de segurança cibernética da ESET, uma empresa de segurança digital, reiterou que a dependência de infraestruturas frágeis é um risco significativo. No Reino Unido, bancos como Lloyds Bank e Bank of Scotland, bem como empresas de telecomunicações como Vodafone e BT, foram atingidos pela interrupção da AWS.
Impacto econômico da interrupção
A Ookla, proprietária do Downdetector, indicou que mais de 4 milhões de usuários relataram problemas decorrentes do incidente. Um especialista em cibersegurança, Ryan Griffin, afirmou que horas de inatividade resultam em perda significativa de produtividade e receita para grandes empresas.
Alcance da interrupção
Os serviços próprios da Amazon, como o site de compras, Prime Video e Alexa, também sentiram os efeitos da falha, embora o Downdetector tenha apontado uma diminuição na gravidade dos problemas ao longo do tempo. A presidente da Signal, Meredith Whittaker, confirmou que o aplicativo de mensagens da plataforma foi afetado, em contraste com a afirmação de Elon Musk, proprietário do X, de que sua plataforma continuou funcional.
Embora não haja indicações claras de um ataque cibernético por trás da falha ocorrida na segunda-feira, a natureza da interrupção levantou especulações a esse respeito. Rafe Pilling, diretor de inteligência de ameaças da Sophos, explicou que a intrincada rede da AWS significa que qualquer problema pode resultar em grandes desajustes.
Fonte: www.moneytimes.com.br


