Muitas vezes falamos sobre sistemas de alta disponibilidade e servidores de missão crítica, porem poucas pessoas param para pensar no sentido real de alta disponibilidade e como obter estatísticas e analisar o funcionamento de determinados sistemas que exigem um design de alta disponibilidade.
Primeiramente é necessário conhecer a diferença básica entre downtime planejado e downtime não-planejado.
Normalmente o downtime planejado acontece ao realizar-mos atualizações críticas de sistema (ie. Kernel) e alguns tipos de manutenção relacionada ao funcionamento base do sistema operacional. Este tipo de downtime deve ser sempre notificado com antecedência aos clientes que dependem do serviço e deve ser feito no menor tempo possível, apesar de não ser uma prática muito correta algumas empresas costumam não contabilizar o downtime planejado em seus relatórios de disponibilidade.
Já o downtime não-planejado normalmente acontece devido a problemas físicos no ambiente computacional, tendo entre suas principais ocorrências problemas elétricos, falhas de hardware, excesso de temperatura no ambiente, problemas de rede / telecomunicações, problemas de segurança, falhas em aplicações e no próprio sistema operacional.
Agora podemos ir ao nosso cálculo de disponibilidade (%), que nada mais é do que a disponibilidade total do serviço dentro do período de um ano, e a partir do valor obtido pode-se ter o nível real de disponibilidade para obtenção de estatísticas e SLA (marketing normalmente adora esses números!).
Os valores mais comuns de disponibilidade relacionados com downtime são:
Lembrando sempre que uptime é totalmente diferente de disponibilidade!
Essa é uma descrição super básica do conceito mas acredito que passa a idéia de como calcular estatísticas em seu ambiente…
Dúvidas, críticas, informações e sugestões são sempre bem vindas!