Recentemente, um incidente ocorreu no data center da Austrália East em Sydney, causado por uma falha térmica devido a uma série de falhas nos chillers. Isso impactou uma zona e teve um tempo de recuperação longo para alguns serviços core. A investigação revelou que a causa raiz foi uma incompatibilidade entre a lógica de tempo do sistema de gerenciamento de refrigeração (CMS) e o controle do chiller, o que levou a 13 dos 19 chillers a requerer intervenção manual para reiniciar.

Essa incidente destacou a necessidade de melhorar a conscientização situacional, perfilando portos de baixa prioridade e priorizando a reinicialização dos chillers com base na carga térmica. A equipe implementou alterações nos procedimentos operacionais de emergência (EOPs) e no sistema de gerenciamento de chillers para prevenir incidentes semelhantes no futuro.

Além disso, a discussão também abordou a importância de priorizar com base na carga dentro dos data halls, escalonamento em todo o seu fleet global e como decidir quais hardware, serviços e racks desligar em caso de incidente. Os palestrantes enfatizaram a importância da coordenação, verificações de segurança e faseamento de equipamentos para evitar surtos durante o processo de recuperação.

Principais Pontos

* Incidente em Sydney causado por falha térmica devido a incompatibilidade entre CMS e chiller controller
* Necessidade de melhor conscientização situacional e priorização de reinicialização de chillers com base na carga térmica
* Implementação de alterações nos EOPs e no sistema de gerenciamento de chillers para prevenir incidentes semelhantes
* Importância de priorizar com base na carga dentro dos data halls e escalonamento em todo o fleet global
* Coordenação, verificações de segurança e faseamento de equipamentos essenciais para evitar surtos durante o processo de recuperação

Lições Aprendidas

* A importância de simular cenários de falha para testar a resiliência da aplicação e aprender com incidentes
* Os clientes devem ter mais controle sobre suas estratégias de recuperação de desastre e não depender apenas da SLA da Microsoft
* A importância de hardenar os serviços para esperar e se preparar para falhas usando ferramentas como Azure Chaos Studio
* A necessidade de melhorar a comunicação e correlação de incidentes juntos

Conclusão

Esses incidentes serviram como uma oportunidade valiosa para aprender e melhorar. A Microsoft está comprometida em melhorar a resiliência e a transparência, investindo em melhorias contínuas em sua resposta a incidentes e ganhando a confiança dos clientes.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *