Anhang B. Zusätzliche Informationen zur Hardware

Die folgenden Abschnitte liefern zusätzliche Informationen zur Konfiguration von Hardware in einem Cluster-System.

B.1. Einrichten von Strom-Controllern

In diesem Abschnitt werden Power Controller beschrieben. Weitere Informationen über Power Controller und deren Rolle in einer Cluster-Umgebung finden Sie unter Abschnitt 1.1.3.

B.1.1. Stromschalter

Eine Liste seriell-verbundener und netzwerk-verbundener Stromschalter die durch Red Hat, Inc. für LVS Cluster-Stromkontrolle getestet oder unterstützt werden, finden Sie in der Red Hat Hardware-Kompatibilitätsliste unter der folgenden URL:

http://hardware.redhat.com/hcl/

B.1.2. Einrichten von Watchdog Stromschaltern

Eine Beschreibung des Benutzungsmodells für Watchdog-Timer als eine Vorrichtung zur Gewährleistung von Datenintegrität im Cluster ist in Abschnitt 1.1.3 zu sehen. Wie in diesem Abschnitt beschrieben gibt es zwei Arten von Watchdog-Timern: Hardware-basiert und Software-basiert.

Die folgenden Informationen beschreiben die Aufgaben, die zum Einrichten von Watchdog-Timern in der Hardware Konfiguration im Cluster erforderlich sind.

Unabhängig vom eingesetzten Typ von Watchdog-Timern ist es notwendig, entsprechende Gerätedateien für die Watchdog-Timer zu erzeugen. Die kann mit den folgenden Befehlen erzielt werden:

cd /dev
./MAKEDEV watchdog

Wenn Sie das Cluster Configuration Tool verwenden, wird für jedes neu zum Cluster hinzugefügte System die Software Watchdog Funktionalität standardmäßig aktiviert.

B.1.2.1. Konfigurieren des Software Watchdog-Timer

Jedes Cluster-System kann von einem Software Watchdog-Timer Gebrauch machen, um Datenintegrität zu unterstützen, da keine spezielle Hardware erforderlich ist. Die Cluster Software lädt automatisch das entsprechende ladbare Kernel Modul softdog.

Sollte der Cluster zur Benutzung des Software Watchdog-Timer konfiguriert sein, wird der Cluster Quorum Daemon (clumembd) das Zeitintervall in periodischen Intervallen zurücksetzen. Sollte clumembd beim Zurücksetzen des Intervalls fehlschlagen, wird sich das ausgefallene Cluster System selbst neustarten.

Wenn der Software Watchdog-Timer benutzt wird, besteht das, wenn auch kleine, Risiko, dass das System in einer Weise hängt, welche das Ausführen des Software Watchdog Thread nicht ermöglicht. In diesem unwahrscheinlichen Fall, wird das andere Cluster Member eventuell die Services des hängenden Systems übernehmen. Normalerweise ist dies eine sichere Operation; aber im unwahrscheinlichen Fall, dass das hängende Cluster Member sich erholt, kann es zur Korruption von Daten kommen. Um das mögliche Auftreten dieser Verletzlichkeit bei der Verwendung von Software Watchdog-Timern zu Verringern, sollten Administratoren zudem den NMI Watchdog-Timer konfigurieren, wie auch einen externen Stromschalter (falls vorhanden).

B.1.2.2. Einschalten des NMI Watchdog-Timer

Sollten Sie Software Watchdog-Timer zur Unterstützung der Datenintegrität verwenden, ist es auch empfohlen, Nicht-Maskierbare Interrupt (NMI) Watchdog-Timer einzuschalten, um eine verbesserte Datenintegrität zu gewährleisten. Der NMI Watchdog-Timer ist ein unterschiedlicher Mechanismus zum Veranlassen des Neustarts des Systems im Falle eines Hängens, wobei die Interrupts blockiert sind. Der NMI Watchdog kann in Zusammenhang mit dem Software Watchdog-Timer benutzt werden.

Nicht wie der Software Watchdog-Timer, welcher vom Cluster Quorum Daemon (cluquorumd) zurückgesetzt wird, der NMI Watchdog-Timer zählt die System Interrupte. Ein gesundes System wird normalerweise hunderte von Interrupten pro Sekunde erhalten. Sollten in einem 5 Sekunden Intervall keine Interrupte auftreten, hängt das System und der NMI Watchdog-Timer wird ablaufen, was ein Neustart des Systems veranlasst.

Eine robuste Lösung für Datenintegrität kann durch das Kombinieren der Überwachung des Cluster Quorum Daemon mit dem Software Watchdog-Timer zusammen mit System Status Checks niedriger Priorität des NMI Watchdog implementiert werden.

Fehlerfreie Operation des NMI Watchdog-Timer Mechanismus erfordert es, dass die Cluster-Member einen APIC-Chip auf dem System-Board haben.

Der NMI Watchdog-Timer wird auf unterstützten Systemen durch Hinzufügen von nmi_watchdog=1 zu der Befehlszeile des Kernel eingeschaltet. Hier ist ein Beispiel der Datei /etc/grub.conf:

AnmerkungAnmerkung
 

Die folgenden GRUB und LILO Bootloader-Konfigurationen treffen nur auf die x86-Architektur von Red Hat Enterprise Linux zu.

# grub.conf
default=0
timeout=10
splashimage=(hd0,0)/grub/splash.xpm.gz
title HA Test Kernel (2.4.9-10smp)
        root (hd0,0)
        # This is the kernel's command line.
        kernel /vmlinuz-2.4.9-10smp ro root=/dev/hda2 nmi_watchdog=1

# end of grub.conf

Auf Systemen, die LILO verwenden, fügen Sie "nmi_watchdog=1" zum Abschnitt append in der Datei /etc/lilo.conf hinzu. Zum Beispiel:

# lilo.conf
prompt
timeout=50
default=linux
boot=/dev/hda
map=/boot/map
install=/boot/boot.b
lba32

image=/boot/vmlinuz-2.4.9-10smp
        label=linux
        read-only
        root=/dev/hda2
        append="nmi_watchdog=1"

# end of lilo.conf

Führen Sie /sbin/lilo nach dem Bearbeiten der Datei /etc/lilo.conf aus, damit die Änderungen wirksam werden.

Um festzustellen, ob der Server NMI Watchdog-Timer unterstützt, versuchen Sie zuerst "nmi_watchdog=1" zur Befehlszeile des Kernel hinzuzufügen, wie oben beschrieben. Nach dem Booten des Systems, loggen Sie sich als root ein und geben Sie folgenden Befehl an:

cat /proc/interrupts

Die Ausgabe sollte ähnlich der folgenden sein:

           CPU0       
  0:    5623100          XT-PIC  timer
  1:         13          XT-PIC  keyboard
  2:          0          XT-PIC  cascade
  7:          0          XT-PIC  usb-ohci
  8:          1          XT-PIC  rtc
  9:     794332          XT-PIC  aic7xxx, aic7xxx
 10:     569498          XT-PIC  eth0
 12:         24          XT-PIC  PS/2 Mouse
 14:          0          XT-PIC  ide0
NMI:    5620998       
LOC:    5623358 
ERR:          0
MIS:          0

Der relevante Teil in der obigen Anzeige ist es zu überprüfen, dass die NMI ID auf der linken Seite erscheint. Sollte der NMI Wert größer Null sein, dann unterstützt der Server den NMI Watchdog.

Sollte diese Methode fehlschlagen, das ist, wenn NMI gleich Null ist, versuchen Sie den Parameter nmi_watchdog=2 anstelle von nmi_watchdog=1, wie vorhergehend beschrieben, dem Kernel zu übergeben. Überprüfen Sie auch hier /proc/interrupts nach dem Booten des Systems. Sollte NMI ungleich Null sein, dann wurde der NMI Watchdog nicht richtig konfiguriert. Sollte NMI gleich Null sein, unterstützt Ihr System den NMI Watchdog-Timer nicht.

B.1.2.3. Konfigurieren von Hardware Watchdog-Timern

Der Kernel liefert Treiber-Support für verschiedene Hardware Watchdog-Timer. Einige dieser Timer sind direkt auf dem Systemboard, während andere Hardware-Komponenten, wie PCI Karten, sind. Hardware-basierte Watchdog-Timer liefern eine ausgezeichnete Provision für Datenintegrität im Cluster, da diese unabhängig vom Systemprozessor arbeiten, und demnach vollständig funktionstüchtig auch bei einem Hängen des Systems sind, und das System demnach auch in diesen Fällen neustarten können.

Wegen dem Fehlen einer Uniformität unter Low-Level Hardware Watchdog Komponenten, ist es schwierig eine Beschreibung zur Feststellung ob ein gegebenes System solche Komponenten unterstützt zu Verallgemeinern. Viele Low-Level Hardware Watchdog Komponenten sind nicht selbst-identifizierend.

Um die oben genannten Watchdog-Timer für den Kernel zu konfigurieren, ist es notwendig, die entsprechenden Einträge in die Datei /etc/modules.conf aufzunehmen. Sollte, zum Beispiel, ein Intel-810-basierter TCO Watchdog-Timer benutzt werden, ist die folgende Zeile zu /etc/modules.conf hinzuzufügen:

alias wdt i810-tco