7.10. Diagnosticando y corrigiendo problemas en un cluster

Para asegurar el diagnóstico apropiado de cualquier problema en el cluster, el registro de eventos debe estar activado. Además, si surgen problemas en el cluster, asegúrese de colocar el nivel de severidad a DEBUG para los demonios cluster. Esto registrará mensajes descriptivos que podrían ayudar a resolver problemas.

NotaNota
 

Una vez que todos los problemas hayan sido resueltos, coloque el nivel de depuración a su valor por defecto de WARN para evitar que se generen archivos de registro de mensajes excesivamente grandes. Para más información consulte la Sección 7.6.

Use la Tabla 7-3 para solucionar problemas en un cluster.

ProblemaSíntomaSolución
SCSI bus no terminadoAparecen errores SCSI en el archivo de registro

Cada bus SCSI debe estar terminado sólo al comienzo y al final del bus. Dependiendo de la configuración del bus, puede ser necesario activar o desactivar la terminación en los adaptadores del bus del host, controladores RAID y recintos de almacenamiento. Para soportar la conexión en caliente, se requieren terminaciones externas para terminar un bus SCSI.
Además, asegúrese que ningún dispositivo conectado a un SCSI bus este usando un pedazo más largo de 0.1 metros.
Consulte la Sección 1.4.4 y la Sección B.3 para información sobre la terminación de los diferentes tipos de buses SCSI.

Largo del SCSI bus mayor que el límite máximoAparecen errores SCSI en el archivo de registro

Cada tipo de SCSI bus debe adherirse a las restricciones de largo, como se describe en la Sección B.4.
Además, asegúrese que no haya dispositivos de una sola punta conectados al LVD SCSI bus, porque esto producirá que el bus entero se invierta a un bus de una sola punta, lo cual tiene restricciones más severas en cuanto al largo que un bus diferencial.

Número de identificación SCSI no únicosAparecen errores SCSI en el archivo de registroCada dispositivo en un SCSI bus debe tener un número de identificación único. Para más información, consulte la Sección B.5.
Se termina el tiempo para los comandos SCSI antes de que estos sean completadosAparecen errores SCSI en el archivo de registro

El esquema de arbitraje de prioridades de un SCSI bus puede resultar en el bloqueo de dispositivos con baja prioridad por un cierto período de tiempo. Esto puede provocar que algunos comandos agoten el tiempo de espera (time out), si un dispositivo del almacenamiento con prioridad baja, tal como un disco, no puede ganar el arbitraje y completar la ejecución de un comando que un host le ha puesto en cola. Para algunas cargas de trabajo, este problema puede ser evitado asignando un número de identificación SCSI de baja prioridad a los adaptadores de bus del host.
Vea la Sección B.5 para más información.

Particiones quorum montadasAparecen mensajes en el archivo de registro indicando errores de sumas de verificación en una partición quorum

Asegúrese que los dispositivos brutos de la partición quorum sean usados solamente para información sobre el estado del cluster. Estos no pueden usarse para servicios del cluster o para propósitos no-cluster y tampoco pueden contener un sistema de archivos. Consulte la Sección 1.4.4.3 para más información.
Estos mensajes pueden también indicar que el archivo especial del dispositivo de bloque para la partición quorum ha sido erróneamente usado para propósitos no-cluster.

El servicio de sistema de archivo no está limpioUn servicio desactivado no puede ser activado nuevamente

Manualmente ejecute un programa de chequeo tal como fsck. Luego, active el servicio.
Note que la infraestructura del cluster ejecuta fsck por defecto con la opción -p para reparar automáticamente las inconsistencias de un sistema de archivos. Para tipos de errores particularmente notorios, puede que se requiera iniciar manualmente las opciones de reparación de sistemas de archivos.

Las particiones quorum no están establecidas correctamenteAparece un mensaje en el registro de eventos indicando que una partición quorum no puede ser accesadaEjecute el comando /sbin/shutil -t para verificar que las particiones quorum están accesibles. Si el comando es exitoso, ejecute el comando shutil -p en ambos sistemas cluster. Si la salida es diferente en los sistemas, las particiones quorum no apuntan a los mismos dispositivos en ambos sistemas. Verifique para asegurarse que los dispositivos brutos existen y están correctamente especificados en el archivo /etc/sysconfig/rawdevices. Para más información vea la Sección 1.4.4.3.
La operación del servicio cluster fallaAparecen mensajes en el archivo de registro de eventos o en la cónsola indicando que la operación falló.Hay muchas razones diferentes para que la operación de un servicio falle (por ejemplo, una parada o arranque del servicio). Para ayudar a identificar la causa del problema, coloque el nivel de severidad para los demonios del cluster a DEBUG para así registrar mensajes descriptivos. Luego, intente nuevamente la operación y examine el archivo de registro. Consulte la Sección 7.6 para más información.
La parada del servicio cluster falla porque no se pudo desmontar un sistema de archivoAparecen mensajes en el registro o en la cónsola indicando que la operación falló

Use los comandos fuser y ps para identificar los procesos que están accesando el sistema de archivos. Use el comando kill para detener los procesos. Use el comando lsof -t file_system para desplegar los números de identificación de los procesos que están accesando el sistema de archivos especificado. Si se necesita, entube la salida al comando kill.
Para evitar este problema, asegúrese que sólo procesos relacionados al cluster puedan accesar data en almacenamiento compartido. Además, modifique el servicio y habilite el desmontaje forzado para el sistema de archivo. Esto permite que el servicio cluster pueda desmontar un sistema de archivos aún si está siendo accesado por una aplicación o usuario.

Entrada incorrecta en la base de datos del clusterLa operación del cluster está dañadaLa Herramienta de estado del cluster puede ser usada para examinar y modificar la configuración del servicio. La Herramienta de estado del cluster es usada para modificar los parámetros del cluster.
Entrada incorrecta del ethernet heartbeat en la base de datos del cluster o en el archivo /etc/hostsEl estado del cluster indica que un canal Ethernet heartbeat está OFFLINE aún cuando la interfaz es válida

Examine y modifique la configuración del cluster ejecutando la Herramienta de configuración del cluster, como se especifica en la Sección 7.4 y corrija el problema.
Además, asegúrese de usar el comando ping para enviar un paquete a todas las interfaces de red usadas en el cluster.

Conexión suelta del cable al interruptorEl estado del interruptor utilizando clufence devuelve un error o se suspendeVerifique la conexión del cable serial.
Puerto serial del interruptor especificado incorrectamente en la base de datos del clusterEl estado del interruptor clufence indica un problemaExamine las propiedades actuales y modifique la configuración del cluster ejecutando la Herramienta de configuración del cluster, como se especifica en la Sección 7.4, y corrija el problema.

Tabla 7-3. Diagnosticando y corrigiendo problemas en un cluster