7.10. Diagnosticando e Corrigindo Problemas em um Cluster

Para garantir o diagnóstico apropriado de qualquer problema em um cluster, é necessário habilitar o registro de eventos. Além disso, se houver problemas em um cluster, certifique-se de definir o nível de severidade para DEBUG nos daemons do cluster. Isto registra mensagens descritivas que podem ajudar na solução dos problemas.

NotaNota
 

Após alguma questão ser resolvida, restaure o nível debug para seu valor default ATENÇÃO para evitar a geração de um número excessivo de mensagens de registro. Consulte a Seção 7.6 para mais informações.

Use a Tabela 7-3 para resolver problemas em um cluster.

ProblemaSintomaSolução
Canal SCSI não terminadoErros SCSI aparecem no arquivo de registros

Cada canal SCSI deve ser terminado somente no início e fim. Dependendo da configuração do canal, pode ser necessário habilitar ou desabilitar a terminação nos adaptadores do canal, controladores RAID e unidades de armazenamento. Para suportar o hot plugging, é necessária uma terminação externa para o canal SCSI.
Além disso, certifique-se de que nenhum dispositivo esteja conectado a um canal SCSI usando um cabo maior que 10cm.
Veja a Seção 1.4.4 e a Seção B.3 para informações sobre a terminação de tipos diferentes de canais SCSI.

Canal SCSI mais comprido que o limite máximoErros SCSI aparecem no arquivo de registros

Cada tipo de canal SCSI deve aderir às restrições de comprimento, conforme descrito na Seção B.4.
Além disso, assegure que nenhum dispositivo com uma ponta esteja conectado ao canal LVD SCSI, porque isso faz com que o canal todo seja revertido para o canal de uma ponta, que tem restrições de comprimento mais severas que um canal diferencial.

Números de identificação do SCSI não são únicosErros SCSI aparecem no arquivo de registrosCada dispositivo em um canal SCSI deve ter um número de identificação único. Veja a Seção B.5 para mais informações.
Comandos SCSI com tempo limite antes de serem completosErros SCSI aparecem no arquivo de registros

O esquema de julgamento priorizado em um canal SCSI pode fazer com que dispositivos de baixa prioridade sejam bloqueados por um certo tempo. Isto pode causar o tempo limite de alguns comandos, se um dispositivo de armazenamento de baixa prioridade, como um disco, for incapaz de ganhar o julgamento e completar um comando enviado por uma máquina à sua fila. Para algumas cargas de trabalho, este problema pode ser evitado atribuindo números de identificação SCSI de baixa prioridade aos adaptadores de canal da máquina.
Veja a Seção B.5 para mais informações.

Partição quorum montadaMensagens indicando erros de consistência (checksum) em uma partição quorum aparecem no arquivo de registro

Assegure que os dispositivos raw da partição quorum sejam usados somente para informações do estado do cluster. Estes não podem ser usados para serviços do cluster ou para propósitos fora do cluster, e não podem conter um sistema de arquivo. Veja a Seção 1.4.4.3 para mais informações.
Essas mensagens também podem indicar que o arquivo especial do dispositivo de bloco da partição quorum foi usado erroneamente para propósitos fora do cluster.

Sistema de arquivo do serviço está sujo (unclean)Um serviço desabilitado não pode ser habilitado

Execute manualmente um programa de checagem como o fsck. Então, habilite o serviço.
Note que a infra-estrutura do cluster executa o fsck por default com a opção -p para consertar as inconsistências do sistema de arquivo automaticamente. Para determinados tipos de erro pode ser necessário iniciar manualmente as opções de reparo do sistema de arquivo.

Partições quorum configuradas incorretamenteO arquivo de registro exibe mensagens indicando que uma partição quorum não pode ser acessadaExecute o comando /sbin/shutil -t para verificar se as partições quorum estão acessíveis. Se o comando for bem-sucedido, execute o comando shutil -p nos dois sistemas do cluster. Se o output é diferente nos dois sistemas, as partições quorum não apontam para os mesmos dispositivos nos dois sistemas. Certifique-se de que os dispositivos raw existam e estejam especificados corretamente no arquivo /etc/sysconfig/rawdevices. Veja a Seção 1.4.4.3 para mais informações.
Operação do serviço do cluster falhaMensagens indicando que a operação falhou aparecem no console ou no arquivo de registroHá muitas razões diversas para a falha na operação de um serviço (ex.: um serviço começa ou pára). Para ajudar a identificar a causa do problema, defina o nível de severidade dos daemons do cluster para DEBUG para assim registrar mensagens descritivas. Então, tente a mesma operação novamente e examine o arquivo de registro. Veja a Seção 7.6 para mais informações.
Operação parar um serviço do cluster falha porque um sistema de arquivo não pôde ser montadoMensagens indicando que a operação falhou aparecem no console ou no arquivo de registro

Use os comandos fuser e ps para identificar os processos que estão acessando o sistema de arquivo. Use o comando kill para parar os processos. Use o comando lsof -t sistema_de_arquivo para exibir os números de identificação dos processos que estão acessando o sistema de arquivo específico. Se for preciso, faça um 'pipe' do output para o comando kill.
Para evitar este problema, assegure que somente os processos relacionados ao cluster podem acessar os dados do armazenamento compartilhado. Além disso, modifique o serviço e habilite a desmontagem forçada do sistema de arquivo. Isto possibilita ao serviço do cluster desmontar um sistema de arquivo mesmo que seja acessado por uma aplicação ou usuário.

Entrada incorreta no banco de dados do clusterOperação do cluster está deficienteA Ferramenta de Estado do Cluster pode ser usada para examinar e modificar a configuração do serviço. A Ferramenta de Configuração do Cluster é usada para modificar os parâmetros do cluster.
Entrada incorreta do heartbeat Ethernet no banco de dados do cluster ou no arquivo /etc/hostsEstado do cluster indica que o canal de heartbeat Ethernet está OFFLINE mesmo que a interface seja válida

Examine e modifique a configuração do cluster rodando a Ferramenta de Configuração do Cluster, conforme descrito na Seção 7.4, e corrija o problema.
Além disso, certifique-se de usar o comando ping para enviar um pacote para todas as interfaces de rede usadas no cluster.

Conexão ao comutador de energia com cabo frouxoEstado do comutador de energia usando clufence retorna um erro ou fica pendenteVerifique a conexão do cabo serial.
Porta serial do comutador de energia especificada incorretamente no banco de dados do clusterEstado do comutador de energia usando clufence indica um problemaExamine as configurações correntes e modifique a configuração do cluster rodando a Ferramenta de Configuração do Cluster, conforme especificado na Seção 7.4, e corrija o problema.

Tabela 7-3. Diagnosticando e Corrigindo Problemas em um Cluster