3.8. Manipular servicios fallidos

El cluster coloca un servicio en el estado Fallido si es incapaz de arrancarlo exitosamente en todos los miembros y luego no lo puede detener limpiamente. Un estado Fallido puede ser causado por varios problemas, tales como una configuración errónea mientras el servicio está en ejecución o que este se suspendió o falló. La Herramienta de estado del cluster muestra el servicio cuando esta Fallido.

Figura 3-2. Servicio en estado Fallido

NotaNota
 

Debe inhabilitar un servicio Fallido antes de que pueda modificar o habilitar el servicio.

Asegúrese de manejar cuidadosamente los servicios fallidos. Si hay recursos del servicio todavía configurados en el miembro propietario, el arrancar el servicio en el otro miembro puede causar problemas significativos. Por ejemplo, si un sistema de archivos se mantiene montado en el sistema propietario y se arranca el servicio en el otro miembro, el sistema de archivos será montado en ambos miembros, lo cual puede causar corrupción de los datos. Si la activación falla, el servicio permanecerá en el estado Inhabilitado.

Puede intentar corregir el problema que provocó el estado Fallido, luego de colocar el servicio en el estado Inhabilitado. Después de modificar el servicio, el software del cluster activará el servicio en el sistema propietario, si es posible, o permanecerá en el estado Inhabilitado. La lista que sigue muestra los pasos detallados a seguir en el evento de una falla de servicio:

  1. Modifique el registro de eventos del cluster para registrar mensajes de depuración. La visualización de los registros de mensajes puede ayudar a determinar áreas problema. Vea la Sección 7.6 para más información.

  2. Use la Herramienta de estado del cluster para tratar de activar o desactivar el servicio en alguno de los miembros cluster o del dominio de failover. Vea la Sección 3.3 y Sección 3.4 para más información.

  3. Si el servicio no arranca o se detiene en el miembro, examine los archivos de registro /var/log/messages y /var/log/cluster (si están configurados separadamente) y diagnostique y corrija el problema. Puede necesitar modificar el servicio para corregir información incorrecta en el archivo de configuración (por ejemplo, un script de arranque incorrecto) o puede que se requiera realizar tareas manuales en el sistema propietario (por ejemplo, desmontar un sistema de archivos).

  4. Intente nuevamente activar o desactivar el servicio en el miembro.Si luego de repetidos intentos aún no se logra corregir el problema y activar o desactivar el servicio, reinicie el miembro.

  5. Si todavía no se logra arrancar el servicio exitósamente, verifique si el servicio puede ser reiniciado manualmente fuera del marco del cluster. Por ejemplo, esto puede incluir montar manualmente los sistemas de archivos y manualmente ejecutar el script de arranque.