7.10. Diagnostic et correction des problèmes dans un cluster

Pour assurer un bon diagnostic de tout type de problèmes dans un cluster, l'enregistrement des événements doit être activé. En outre, si des problèmes surviennent dans un cluster, assurez-vous de fixer le niveau de sévérité à DEBUG pour les démons du cluster. Ceci permettra d'enregistrer un message descriptif qui aidera peut-être à résoudre les problèmes.

NoteRemarque
 

Une fois toutes les anomalies corrigées, changez le niveau de débogage à sa valeur par défaut, à savoir WARN, afin d'éviter que les fichiers journaux des messages ne deviennent excessivement longs. Reportez-vous à la Section 7.6 pour davantage d'informations.

Utilisez le Tableau 7-3 pour résoudre les problèmes dans un cluster.

ProblèmeSymptômeSolution
Bus SCSI pas arrêtéDes erreurs SCSI apparaissent dans le fichier journal (logfile)

Chaque bus SCSI doit être arrêté seulement au début ou à la fin du bus. Selon la configuration du bus, il sera peut-être nécessaire d'activer ou de désactiver la requête d'arrêt dans l'adaptateur bus hôte, les contrôleurs RAID et les baies de stockage. Pour supporter un branchement à chaud (hot plugging), une requête d'arrêt externe est nécessaire pour interrompre un bus SCSI.
De plus, assurez-vous qu'aucun périphérique n'est connecté au bus SCSI au moyen d'un tronçon d'une longueur supérieure à 0,1 mètre.
Consultez la Section 1.4.4 et la Section B.3 pour toute information sur l'arrêt des différents types de bus SCSI.

La longueur du bus SCSI supérieure à la limite maximaleDes erreurs SCSI apparaissent dans le fichier journal (logfile)

Chaque type de bus SCSI doit respecter les restrictions de longueur, comme il l'est décrit dans la Section B.4.
De plus, assurez-vous qu'aucun périphérique asymétrique n'est connecté au bus LVD SCSI, sinon le bus entier se transformera en bus asymétrique dont les restrictions de longueur sont plus strictes que celles d'un bus différentiel.

Numéros d'identification SCSI pas uniquesDes erreurs SCSI apparaissent dans le fichier journal (logfile)Chaque périphérique sur un bus SCSI doit avoir un numéro d'identification unique. Consultez la Section B.5 pour de plus amples informations.
Les commandes SCSI ont expiré avant la fin de l'exécutionDes erreurs SCSI apparaissent dans le fichier journal (logfile)

Le processus d'arbitrage prioritaire sur un bus SCSI peut entraîner l'arrêt des périphériques à basse priorité pendant un certain temps. Ceci peut également entraîner l'arrêt de certaines commandes, si un périphérique à faible priorité de mémoire, comme un disque, ne peut pas gagner l'arbitrage et finit une commande qu'un hôte a envoyé dans la file attente. Pour certaines charges de travail, ce problème peut être évité en assignant aux adaptateurs bus hôtes un numéro d'identification SCSI à basse priorité.
Consultez la Section B.5 pour de plus amples informations.

Partition Quorum montéeDes messages indiquant la présence d'erreurs lors des sommes de contrôle sur une partition Quorum apparaissent dans le fichier journal

Assurez-vous que les périphériques bruts de la partition Quorum sont seulement utilisés pour des informations sur l'état du cluster. Ils ne peuvent pas être utilisés pour des services du cluster ou pour des buts externes au cluster, et ne peuvent pas contenir un système de fichiers. Consultez la Section 1.4.4.3 pour de plus amples informations.
Ces messages peuvent également indiquer que le fichier spécial des périphériques blocs sous-jacent de la partition Quorum a été utilisé à tort pour des buts externes au cluster.

Le service du système de fichiers n'est pas propreUn service désactivé ne peut être activé

Lancez manuellement un programme de contrôle comme fsck. Ensuite, activez le service.
Notez que l'infrastructure du cluster lance par défaut fsck avec l'option -p pour réparer automatiquement les inconsistances du système de fichiers. Pour des types d'erreur particulièrement flagrants, vous devrez peut-être engendrer manuellement des options de réparation du système de fichiers.

Les partitions Quorum ne sont pas configurées correctementMessages dans le fichier journal indiquant que l'accès à la partition Quorum n'est pas possible.Exécutez la commande /sbin/shutil -t pour vérifier que l'accès aux partitons Quorum est bien possible. Si la commande réussit, exécutez la commande shutil -p sur les deux systèmes cluster. Si la sortie est différente sur les deux systèmes, les partitions Quorum ne renvoient pas aux mêmes périphériques sur les deux systèmes. Assurez-vous que les périphériques bruts existent et sont spécifiés correctement dans le fichier /etc/sysconfig/rawdevices. Consultez la Section 1.4.4.3 pour de plus amples informations.
Le fonctionnement du service du cluster échoueMessages indiquant que l'opération n'apparaît pas sur la console ou dans le fichier journal.Il y a bien des raisons différentes pour lesquelles le fonctionnement d'un service échoue (par exemple, l'arrêt ou le démarrage d'un service). Pour permettre d'identifier la cause du problème, fixez le niveau de sévérité du démon du cluster à DEBUG afin d'enregistrer des messages descriptifs. Ensuite, relancez l'operation et examinez le fichier journal. Consultez la Section 7.6 pour de plus amples informations.
L'arrêt du service du cluster échoue car un système de fichiers ne peut pas être démonté.Des messages indiquant que l'opération a échoué apparaissent sur la console ou dans le fichier journal.

Utilisez les commandes fuser et ps pour identifier les processus qui accèdent au système de fichiers. Utilisez la commande kill pour arrêter le processus. Utilisez la commande lsof -t file_system pour afficher les numéros d'identification correspondant aux processus qui accèdent au système de fichiers spécifié. Si besoin est, redirigez la sortie au moyen d'un tube (pipe) vers la commande kill.
Afin d'éviter ce problème, assurez-vous que seuls les processus associés au cluster peuvent accéder aux données en stockage partagé. De plus, modifiez le service et permettez un démontage forcé pour le système de fichiers. Ceci permet au service du cluster de démonter un système de fichiers même si une application ou un utilisateur y a accès.

Entrée incorrecte dans la base de données du clusterLe fonctionnement des opération du cluster est affectéL'Outil de statut du cluster peut être utilisé pour examiner et modifier la configuration du service. L'Outil de configuration du cluster est utilisé pour modifier les paramètres du cluster.
Entrée de pulsations Ethernet incorrecte dans la base de données du cluster ou dans le fichier /etc/hostsLe statut du cluster indique que le canal de pulsations Ethernet est OFFLINE bien que l'interface soit valide.

Examinez et modifiez la configuration du cluster en exécutant l'Outil de configuration du cluster,comme il l'est spécifié dans la Section 7.4 et corrigez le problème.
De plus, assurez-vous d'utiliser la commande ping pour envoyer un paquet à toutes les interfaces réseau utilisées dans le cluster.

Faux contact avec l'interrupteurLe statut de l'interrupteur utilisant clufence renvoie une erreur ou se bloqueVérifiez la connexion du câble série.
L'interrupteur du port série est spécifié de façon incorrecte dans la base de données du clusterLe statut de l'interrupteur utilisant clufence indique qu'il y a un problèmeExaminez les paramètres actuels et modifiez la configurations du cluster en exécutant l'Outil de configuration du cluster, comme il l'est précisé dans la Section 7.4 et corrigez le problème.

Tableau 7-3. Diagnostic et correction des problèmes dans un cluster