Data Inicio

07/08/2024 14:57

Data Término

08/08/2024 09:30

Número do Caso

02769130

Problema

O cliente no acionou informando que o monitoramento deles estava com perdas de conexão constantes, o nosso técnico conectou com o cliente e havia, de forma incorreta, identificado que poderia ser um erro de conexão de rede. No dia seguinte as 5:49 fomos acionados por WhatsApp dizendo que o sistema estava totalmente indisponível, comecei a fazer alguns testes e o sistema estava disponível para mim, fui informado que o consultor da Agility já havia reiniciado o broker no servidor. Como o cliente ainda estava com intermitência entramos em uma sala para averiguação dos fatos. Notei que mesmo eu conseguindo conectar havia uma instabilidade, que foi reportada por eles e depois eu mesmo senti essa instabilidade. Validando os logs do nosso monitoramento percebi que o servidor 1 é quem estava perdendo a conexão e voltando sozinho. Tirei ele do ar e o sistema começou à funcionar bem para o cliente. Fiz um levantamento e notei que o servidor 1 este no incidente ocorrido no dia 19/07 com o Crowdstrike e desconfiei dos drivers de rede, então combinei com o cliente que iria atualizar o Windows da VM que estava com Windows Server 2019 para o Windows Server 2022, o que provavelmente iria corrigir os drivers de rede além da versão nova do Windows ser mais estável e leve. Combinamos a retirado do servidor do balanceamento e o mesmo só iria voltas às 13:30, horário este da troca de turno da operação. No horário marcado, o servidor já estava atualizado e testado pela VPN, mas fora do balanceamento, colocamos ele no balanceamento e solicitamos a validação pelo time do cliente que informou que inclusive a operação estava mais rápida. COmbinei com o cliente uma monitoria ativa por 3 dias, onde no primeiro dia já validamos que estava tudo em ordem e também foi combinado de atualizar o outro servidor para o Windows Server 2022 na terça-feira 13/08/2024.

Solução

Atualização do Sistema Operacional para a correção dos drivers de rede.

  1. Retirada da VM do Balanceamento de Carga
  2. Feito um SnapShot da máquina virtual
  3. Atualizado o sistema operacional
  4. Feita a validação pela VPN
  5. Colocada a máquina no balanceamento de carga novamente