Ontem, uma queda de serviço na Cloudflare desestabilizou grandes plataformas como ChatGPT, X, Uber, Canva, Downdetector e alguns outros serviços, deixando os usuários com 500 erros internos de servidor. A Cloudflare rastreou o problema a um arquivo de configuração superdimensionado que afetou sua rede. Uma correção foi implementada por volta das 9h42 ET, levando a uma recuperação gradual, embora alguns usuários estivessem enfrentando problemas contínuos. A Cloudflare confirmou que a queda foi causada por um erro interno de configuração, e não por um ataque cibernético.
A análise das interrupções:
A porta-voz da Cloudflare, Jackie Dutton, disse ao The Beira Isso “A interrupção, que começou por volta das 6h20 ET, estava vinculada a um “arquivo de configuração que é gerado automaticamente para gerenciar o tráfego de ameaças”. “O arquivo ultrapassou o tamanho esperado de entradas e provocou uma falha no sistema de software que gerencia o tráfego de vários serviços da Cloudflare.” Dutton acrescentou que “não há evidências” de ataque ou outra atividade maliciosa.
A Cybersecuritynews informou que “Os problemas da Cloudflare surgiram de uma atualização rotineira das permissões em seu cluster de banco de dados ClickHouse, destinada a melhorar a segurança das consultas distribuídas.
Às 11h05 UTC, a mudança tornou os metadados de tabelas subjacentes no banco de dados ‘r0’ visíveis para os usuários, mas um Gerenciamento de BotsA Consulta do Ment não levou em conta isso, puxando dados duplicados das colunas e inchando um arquivo de recurso crítico para dobrar seu tamanho esperado.
Esse arquivo, atualizado a cada cinco minutos para combater ameaças de bots em evolução via aprendizado de máquina, sobrecarregou o limite rígido do software de 200 recursos, desencadeando pânicos no sistema principal de proxy conhecido como FL.
Inicialmente confundidos com um ataque DDoS massivo coincidindo com o tempo de inatividade da página de status externo da Cloudflare, as falhas flutuantes intrigaram os investigadores, já que arquivos bons e ruins se alternavam durante a implantação gradual do cluster.
O módulo de Gerenciamento de Bots, essencial para pontuar o tráfego automatizado, interrompeu o processamento de requisições e provocou erros em cascata pela rede. No proxy FL2 mais novo, isso causava erros HTTP 5xx diretamente; versões antigas do FL deixavam as pontuações dos bots a zero, potencialmente bloqueando tráfego legítimo para clientes que usavam regras de bloqueio de bots.”
Um porta-voz da Cloudflare disse em um comunicado que, “A causa da queda foi um arquivo de configuração que é gerado automaticamente para gerenciar o tráfego de ameaças. Não havia evidências de ataque cibernético ou atividade maliciosa. “O arquivo ultrapassou o tamanho esperado de entradas e provocou um travamento no sistema de software que gerencia o tráfego de vários serviços da Cloudflare.”
“Resumindo, um bug latente em um serviço que sustentava nossa capacidade de mitigação de bots começou a travar após uma mudança de configuração rotineira que fizemos. Isso se traduziu em uma degradação generalizada da nossa rede e de outros serviços. “Isso não foi um ataque”, escreveu Knecht, referindo-se a um bug que passa despercebido nos testes e não causou falha”, escreveu Dane Knecht, diretor de tecnologia da Cloudflare, Gorjeio.
Quanto custa a queda de energia da Cloudflare?
Quedas como essa podem levar a grandes perdas financeiras para empresas de todos os tamanhos. O provedor de serviços de manutenção de sites, SupportMy.Website, disse à Cybernews que a queda pode custar às empresas entre 5 e 15 bilhões de dólares por cada hora de inatividade.
“No momento, nossos clientes, desde grandes bancos até pequenos negócios familiares, estão tendo dificuldades para fazer negócios e atender aos pedidos dos clientes. Desde a reputação até o resultado financeiro, a Cloudflare é um daqueles sistemas que as empresas às vezes nem percebem que precisam ou nem sequer utilizam. Mas quando está em baixo, eles sentem isso”, disse Jason Long, fundador da SupportMy.Website.
A Parametrix Insurance estima que empresas da Fortune 500 (excluindo a Microsoft) sofreram prejuízos diretos de US$ 5,4 bilhões devido à queda do CrowdStrike em julho de 2024, que causou 8,5 milhões de dispositivos Windows falhando devido a um patch de software falhado.
