3.8. Lidando com Serviços Falhos

O cluster coloca um serviço no estado Falho se não puder iniciá-lo em nenhum dos membros e então não puder pará-lo de maneira limpa. Um estado Falho pode ser causado por diversos problemas, como má configuração enquanto o serviço roda ou pendência/queda do serviço. A Ferramenta de Estado do Cluster exibe o serviço como Falho.

Figura 3-2. Serviço no Estado Falho

NotaNota
 

Você deve desabilitar um serviço Falho antes de poder modificá-lo ou re-habilitá-lo.

Assegure que serviços falhos sejam cuidadosamente tratados. Se os recursos do serviço ainda estão configurados no membro proprietário, iniciar este serviço em outro membro pode causar grandes problemas. Por exemplo: se um sistema de arquivo continua montado no membro proprietário e você iniciar o serviço em outro membro, o sistema de arquivo é monatdo em ambos membros, o que pode provocar a corrupção dos dados. Se a habilitação falhar, o serviço continua no estado Desabilitado.

Após destacar o serviço e clicar em Desabilitar, você pode tentar corrigir o problema que causou o estado Falho. Após modificar o serviço, o software do cluster habilita o serviço no membro proprietário, se possível. Caso contrário, o serviço continua no estado Desabilitado. A lista seguinte detallha os passos a seguir no caso de uma falha no serviço:

  1. Modifique o registro de eventos do cluster para registrar mensagens de depuração. Visualizar os registros pode ajudar a determinar áreas problemáticas. Consulte a Seção 7.6 para mais informações.

  2. Use a Ferramenta de Estado do Cluster para tentar habilitar ou desabilitar o serviço em um dos membros do domínio de transferência ou do cluster. Consulte a Seção 3.3 e a Seção 3.4 para mais informações.

  3. Se o serviço não iniciar ou parar no membro, examine os arquivos de registro /var/log/messages e (se configurado para registrar separadamente) /var/log/cluster, diagnostique e corrija o problema. Talvez seja necessário modificar o serviço para consertar informações incorretas no arquivo de configuração do cluster (ex.: um script de início incorreto), ou executar tarefas manuais no membro proprietário (ex.: desmontar sistemas de arquivo).

  4. Repita a tentativa de habilitar ou desabilitar o serviço no membro. Se repetidas tentativas falharem em corrigir o probelma e você não conseguir habilitar ou desabilitar o serviço, reinicialize o membro.

  5. Se mesmo assim não for possível iniciar o serviço com sucesso, verifique se este pode ser iniciado manualmente fora da estrutura do cluster. Por exemplo: isto pode incluir a montagem manual de sistemas de arquivo e a execução manual do script de início do serviço.