Suite de cluster de Red Hat: Configuration et gestion d'un cluster | ||
---|---|---|
Précédent | Chapitre 2. Configuration du cluster | Suivant |
Pour vous assurer que le logiciel de cluster a été configuré correctement, utilisez les outils suivants qui se trouvent dans le répertoire /sbin :
Testez les partitions partagées et assurez-vous qu'elles sont accessibles.
Invoquez l'utilitaire /usr/sbin/shutil avec l'option -v pour tester l'accessibilité des partitions partagées. Consultez la Section 2.11.1 pour de plus amples informations.
Testez le fonctionnement des interrupteurs d'alimentation.
Si des interrupteurs sont utilisés dans la configuration matérielle du cluster, exécutez la commande clufence sur chaque membre pour vous assurer qu'il puisse prendre en relais à distance l'autre membre. Ne lancez pas cette commande alors que le logiciel de cluster tourne. Consultez la Section 2.11.2 pour de plus amples informations.
Assurez-vous que tous les membres font tourner la même version de logiciel.
Invoquez les commandes rpm -q clumanager et rpm -q redhat-config-cluster sur chaque membre pour afficher la révision des RPM du logiciel de cluster qui a été installée.
La section suivante traite de façon plus détaillée les utilitaires du cluster.
Les partitions partagées doivent faire référence au même périphérique physique sur tous les membres. Invoquez l'utilitaire /usr/sbin/shutil avec la commande -v pour tester les partitions partagées et vérifier qu'elles sont accessibles.
Si la commande aboutit, exécutez la commande /usr/sbin/shutil -p /cluster/header sur tous les membres pour afficher un résumé de la structure des données d'en-tête pour les partitions partagées. Si la sortie est différente sur les membres, les partitions partagées ne renvoient pas aux mêmes périphériques sur tous les membres. Vérifiez que les périphériques bruts existent et sont spécifiés correctement dans le fichier /etc/sysconfig/rawdevices. Consultez la Section 1.4.4.3 pour de plus amples informations.
Dans l'exemple suivant, les partitions partagées font référence au même périphérique physique sur les membres du cluster clu1.example.com et clu2.example.com via la commande /usr/sbin/shutil -p /cluster/header :
/cluster/header is 140 bytes long SharedStateHeader { ss_magic = 0x39119fcd ss_timestamp = 0x000000003ecbc215 (14:14:45 May 21 2003) ss_updateHost = clu1.example.com |
Tous les champs dans la sortie de la commande /usr/sbin/shutil -p /cluster/header devraient être les mêmes que lorsqu'elle est exécutée sur tous les membres du cluster. Si la sortie n'est pas la même sur tous les membres, exécutez les opérations suivantes :
Examinez le fichier /etc/sysconfig/rawdevices sur chaque membre et assurez-vous que les périphériques bruts d'entrée-sortie de caractères et les périphériques blocs pour les partitions partagées primaires et secondaires ont été spécifiés de manière précise. S'ils ne sont pas les mêmes, éditez le fichier et corrigez toute erreur. Relancez alors l'Outil de configuration du cluster. Consultez la Section 2.5 pour de plus amples informations.
Assurez-vous de bien avoir créé les périphériques bruts pour les partitions partagées sur chaque membre. Consultez la Section 1.4.4.3 pour de plus amples informations.
Sur chaque membre, examinez les messages de démarrage du système en exécutant dmesg |less au moment où ce dernier demande au sous-système SCSI de déterminer la configuration du bus. Vérifiez que tous les membres identifient bien les mêmes périphériques de stockage partagé et leur assignent le même nom.
Vérifiez qu'aucun membre n'essaie de monter un système de fichiers sur la partition partagée. Par exemple, assurez-vous que le périphérique même (par exemple, /dev/sdb1) n'est pas inclus dans le fichier /etc/fstab.
Après avoir effectué ces tâches, relancez l'utilitaire /usr/sbin/shutil avec l'option -p.
Si, dans la configuration matérielle du cluster, des interrupteurs réseau ou des interrupteurs reliés à des câbles série sont utilisés, installez le logiciel de cluster et invoquez la commande clufence pour les tester. Invoquez cette commande sur chaque membre pour vous assurer que la prise de relais est bien possible par l'un ou l'autre. Si le test est positif, vous pouvez alors démarrer le cluster.
La commande clufence ne peut tester un interrupteur de façon précise que si le logiciel de cluster ne tourne pas. En effet, pour les interrupteurs attachés aux câbles série, seul un programme à la fois peut accéder au port série qui connecte un interrupteur à un membre. Lorsque la commande clufence est utilisée, elle vérifie le statut du logiciel de cluster. Si le logiciel de cluster est lancé, la commande est interrompue et un message demandant d'arrêter le logiciel de cluster apparaît.
Les options de la commande clufence sont les suivantes :
-d — Activer le débogage
-f — Éteindre un membre
-u — Activer un membre
-r — Redémarrer (prendre en relais) un membre
-s — Vérifier le statut de tous les commutateurs qui contrôlent le membre
Lors du test des interrupteurs, la première étape est de s'assurer que chaque membre du cluster peut bien communiquer avec l'interrupteur auquel il est relié. L'exemple suivant des sorties de la commande clufence montre que le membre du cluster peut en effet communiquer avec son interrupteur :
[27734] info: STONITH: rps10 at /dev/ttyS0, port 0 controls clumember1.example.com [27734] info: STONITH: rps10 at /dev/ttyS0, port 1 controls clumember2.example.com |
Dans le cas d'une erreur dans la sortie de clufence, vérifiez les éléments suivants :
Pour les interrupteurs reliés à des câbles série :
Vérifiez que le fichier spécial des périphériques correspondant au port série de la connexion de l'interrupteur distant (par exemple,/dev/ttyS0) est déterminé correctement dans le fichier de configuration du cluster. De l'Outil de configuration du cluster, ouvrez la boîte de dialogue Contrôleur d'alimentation pour vérifier la valeur du port série. Si nécessaire, utilisez un paquetage d'émulateur de terminal tel que minicom pour tester l'accès du membre du cluster au port série.
Assurez vous qu'un programme qui ne fait pas partie du cluster (par exemple, un programme getty ) n'utilise pas le port série pour la connexion de l'interrupteur distant. Vous pouvez utiliser la commande lsof pour effectuer cette tâche.
Assurez-vous que la connexion du câble à l'interrupteur distant est correcte. Vérifiez que le bon type de câble est utilisé (par exemple, un interrupteur RPS-10 a besoin d'un câble null modem) et que toutes les connexions sont solidement attachées.
Vérifiez que tout commutateur dip physique ou tout commutateur rotatif sur l'interrupteur est bien défini.
Pour des interrupteurs reliés au réseau :
Vérifiez que la connexion réseau aux interrupteurs reliés au réseau est opérationnelle. La plupart des interrupteurs ont un voyant lumineux pour indiquer s'il existe une connectivité.
Il devrait être possible d'utiliser la commande ping pour vérifier la connectivité de l'interrupteur réseau ; dans le cas contraire, l'interrupteur n'est peut être pas configuré correctement pour ses paramètres réseau.
Vérifiez que le bon mot de passe et le bon nom de connexion (selon le type d'interrupteur) ont été déterminés dans le fichier de configuration du cluster (comme établi en utilisant l'Outil de configuration du cluster et en affichant les propriétés spécifiées dans la boîte de dialogue Contrôleur d'alimentation). Une bonne astuce de diagnostic est de vérifier l'accès Telnet à l'interrupteur réseau en utilisant les mêmes paramètres que ceux spécifiés dans la configuration du cluster.
Après vous être assuré que la communication avec l'interrupteur est bien établie, essayez de prendre le relais de l'autre membre du cluster. Auparavant, il est recommandé de s'assurer que l'autre membre du cluster n'effectue pas activement de fonctions importantes (comme fournir des services du cluster à des clients actifs). L'exécution de la commande clufence -f clumember2.example.com affiche la sortie suivante lors d'un arrêt réussi et d'une opération de fencing (clôture) (ce qui signifie que le système ne reçoit pas d'alimentation de l'interrupteur jusqu'à ce que sa clôture soit enlevée) :
[7397] info: STONITH: rps10 at /dev/ttyS0, port 0 controls clumember1.example.com [7397] info: STONITH: rps10 at /dev/ttyS0, port 1 controls clumember2.example.com [7397] notice: STONITH: clumember2.example.com has been fenced! |
Assurez-vous que tous les membres font tourner la même version du logiciel de Gestionnaire de cluster de Red Hat.
Pour afficher la version de l'Outil de configuration du cluster et de l'Outil de statut du cluster, utilisez l'une des méthodes suivantes :
Choisissez Aide => À propos. Le dialogue À propos inclut les numéros de version.
Invoquez les commandes suivantes :
rpm -q redhat-config-cluster rpm -q clumanager |
La version du paquetage clumanager peut également être déterminée en exécutant la commande clustat -v.
Précédent | Sommaire | Suivant |
Ajout d'un service au cluster | Niveau supérieur | Configuration de syslogd pour l'enregistrement des événements |