domingo, 17 de junho de 2012

Falhas no cloud computing da Amazon no dia 14/06/2012


Muitas pessoas tiveram problemas no dia 14/06/2012 com suas instâncias disponibilizadas no Amazon EC2 na região us-east-1. Com sorte, felizmente, não fui um dos afetados. Mesmo assim tive o interesse de ler o relatório que a Amazon disponibilizou sobre as causas do incidente.

Se errar (e falhar) é humano, então certamente não há uma outra disciplina tão humana quanto a Tecnologia da Informação. Nossa área de atuação possui tantos fatores interligados que torna o improvável muito mais plausível.

Notem a sequência de eventos da falha:
  1. Um cabo de alta tensão que fornecia energia ao datacenter falhou.
  2. Duas subestações de energia desligaram.
  3. Imediatamente os geradores do datacenter foram ligados e o sistema de energia foi trocado sem interrupções.
  4. Após um tempo de operação, um dos geradores superaqueceu graças a um cooler defeituoso, e desligou-se.
  5. Automaticamente todos os equipamentos que estavam ligados àquele gerador tiveram seu circuito de energia trocado para o conjunto de geradores secundário, que também foi ligado de modo imediato.
  6. Infelizmente o disjuntor que ligava o circuito ao conjunto de geradores secundários estava configurado com uma amperagem muito baixa, e desligou no momento da troca.
  7. A partir deste instante os equipamentos conectados àquele gerador ficaram sem energia e foram desligados.
Improvável? Certamente. Isso só evidencia a fragilidade das operações. Se num ambiente de altíssima disponibilidade como o da Amazon uma falha dessas aconteceu, imagine nos pseudo-datacenters ou pseudo-infraestruturas locais que muitas empresas utilizam por aí.

Notem que mesmo com uma falha deste porte, somente uma pequena quantidade de equipamentos ficou sem energia (somente os ligados ao gerador com cooler defeituoso).

Para garantir a continuidade do negócio, é necessário seguir o manual à risca: replicar os dados e o serviço em datacenters em regiões geográficas distintas. Os clientes da Amazon que utilizaram o multi-AZ não foram afetados pela falha.