7.10. Erkennen und Beheben von Problemen im Cluster

Um eine sorgfältige Diagnose von Problemen im Cluster zu gewährleisten, muss Event-Logging eingeschaltet sein. Zusätzlich, sollte ein Problem im Cluster auftreten, stellen Sie den Schwerheitsgrad für die Cluster-Daemons auf DEBUG. Dies wird erklärende Mitteilungen in die Log-Datei schreiben, die Ihnen bei der Behebung der Probleme helfen können.

AnmerkungAnmerkung
 

Sollte das Problem behoben sein, setzen Sie den Schwerheitsgrad zurück auf WARN, um die Erzeugung von übermäßig langen Log-Dateien zu vermeiden. Sehen Sie Abschnitt 7.6 für weitere Informationen.

Benutzen Sie Tabelle 7-3 für Themen, welche Troubleshooting im Cluster betreffen.

ProblemSymptomLösung
SCSI Bus nicht abgeschlossenSCSI Fehler erscheinen in der Log-Datei

Jeder SCSI Bus muss jeweils nur an den beiden Enden abgeschlossen werden. Je nach Konfiguration des Busses, mag es notwendig sein, Host-Bus-Adapter, RAID-Controller, und Speichereinheiten abzuschließen. Um Hot-Plugging zu unterstützen, ist ein externer Abschluss des SCSI-Busses erforderlich.
Zusätzlich, stellen Sie sicher, dass keine Geräte an den SCSI-Bus angeschlossen sind, welche einen Stub von mehr als 10 Zentimeter benutzen.
Sehen Sie Abschnitt 1.4.4 und Abschnitt B.3 für Informationen zum Abschluss verschiedener Typen von SCSI-Bussen.

Die Länge des SCSI Busses überschreitet das erlaubte LimitSCSI Fehler erscheinen in der Log-Datei

Jeder Typ von SCSI-Bus muss den Einschränkungen in Länge entsprechen, die in Abschnitt B.4 beschrieben sind.
Zusätzlich, stellen Sie sicher, dass einseitig abgeschlossene Geräte zum LVD SCSI-Bus verbunden sind, da dies dazu führt, dass der gesamte Bus ein einseitig abgeschlossener Bus wird, und ein solcher noch strikteren Längen-Restriktionen unterliegt als der Differential-Bus.

SCSI Identifikationsnummern sind nicht eindeutigSCSI Fehler erscheinen in der Log-DateiJedes an einen SCSI-Bus angeschlossene Gerät muss eine eindeutige Identifikationsnummer haben. Sehen Sie Abschnitt B.5 für weitere Informationen.
SCSI Befehle brechen vor Abschluss mit einem Timeout abSCSI Fehler erscheinen in der Log-Datei

Das priorisierte Zustellungsschema auf einem SCSI-Bus kann dazu führen, dass Geräte mit niedriger Priorität für einige Zeit blockiert werden. Dies kann einen Timeout von Befehlen hervorrufen, sollte ein Speichergerät mit niedriger Priorität, wie eine Platte, keine Zustellung erhalten und dementsprechend einen vom Host aufgerufenen Befehl nicht ausführen können. Für einige Arbeitsaufgaben kann dieses Problem umgangen werden, indem den Host-Bus-Adaptern niedrige SCSI-Identifikationsnummern zugewiesen werden.
Sehen Sie Abschnitt B.5 für weitere Informationen.

Quorum PartitionenMitteilungen, welche auf checksum-Fehler in einer der Quorum Partitionen hinweisen, erscheinen in der Log-Datei

Stellen Sie sicher, dass die für die Quorum-Partitionen bestimmten Raw-Geräte nur für Statusinformationen des Clusters verwendet werden. Diese können weder für die Cluster-Services, noch für andere, nicht Cluster-bezogene Zwecke, verwendet werden, und dürfen auch kein Dateisystem enthalten. Sehen Sie Abschnitt 1.4.4.3 für weitere Informationen.
Diese Meldungen könnten auch darauf hinweisen, dass die Gerätedateien der Quorum-Partition fälschlicherweise für nicht Cluster-bezogene Zwecke verwendet wurden.

Service Dateisystem ist unsauberEin ausgeschalteter Service kann nicht eingeschaltet werden

Führen Sie ein Testprogramm wie fsck aus. Schalten Sie dann den Service ein.
Beachten Sie, dass die Cluster-Infrastruktur fsck standardmäßig mit der Option -p ausführt, um Inkonsistenzen im Dateisystem automatisch zu reparieren. Bei schwerwiegenderen Fehlertypen ist es eventuell erfordert einige Reparaturvorgänge manuell zu starten.

Quorum Partitionen sind nicht richtig eingestelltMitteilungen, welche anzeigen, dass auf eine Quorum Partition nicht zugegriffen werden kann, erscheinen in der Log-DateiFühren Sie den Befehl /sbin/shutil -t aus, um zu überprüfen, ob auf die Quorum-Partitionen zugegriffen werden kann. Sollte dies Erfolg haben, führen Sie den Befehl shutil -p auf jedem der beiden Cluster Systeme aus. Sollten die Ausgaben unterschiedlich sein, dann weisen die Quorum-Partitionen nicht zu den selben Geräten auf beiden Systemen. Prüfen Sie, und stellen Sie sicher, dass die Raw-Geräte existieren und in der Datei /etc/sysconfig/rawdevices richtig angegeben sind. Sehen Sie Abschnitt 1.4.4.3 für weitere Informationen.
Cluster Service Operation fehlgeschlagenMitteilung, welche anzeigt, dass Operation fehlgeschlagen ist, wird an der Konsole oder in der Log-Datei erscheinenEs gibt viele verschiedene Gründe für das Fehlschlagen einer Service-Operation (zum Beispiel, einem service stop oder start). Um den Grund des Problems zu ermitteln, setzen Sie den Schwerheitsgrad der Cluster-Daemons auf DEBUG, damit beschreibende Meldungen angezeigt werden. Versuchen Sie danach die Operation erneut und untersuchen Sie die Log-Datei. Sehen Sie Abschnitt 7.6 für weitere Informationen.
Cluster service stop fehlgeschlagen, da der Unmount eines Dateisystems nicht durchgeführt werden kannMitteilung, welche anzeigt, dass Operation fehlgeschlagen ist, wird an der Konsole oder in der Log-Datei erscheinen

Benutzen Sie die Befehle fuser und ps um festzustellen, welche Prozesse auf die Dateisysteme zugreifen. Benutzen Sie den Befehl kill um diese Prozesse zu beenden. Benutzen Sie den Befehl lsof -t file_system um die Identifikationsnummern dieser Prozesse zu erhalten. Falls benötigt, benutzen Sie den Pipe-Operator, um die Ausgabe an den Befehl kill zu übergeben.
Um dieses Problem zu umgehen, stellen Sie sicher, dass lediglich Cluster-bezogene Prozesse auf den gemeinsamen Speicher zugreifen können. Zusätzlich, modifizieren Sie den Service und wählen Sie ein zwangsweises Unmount von Dateisystemen. Dies ermöglicht es dem Cluster Service einen Unmount eines Dateisystems durchzuführen, auch wenn andere Applikationen oder Benutzer auf dieses zugreifen.

Falscher Eintrag in der Cluster DatenbankCluster Operation ist gestörtCluster Status Tool kann verwendet werden, um die Service-Konfiguration zu untersuchen und zu modifizieren. Cluster Configuration Tool wird verwendet, um die Cluster-Parameter zu modifizieren.
Falscher Eintrag zum Ethernet Heartbeat in der Cluster Datenbank oder der Datei /etc/hostsCluster Status zeigt dem Ethernet Heartbeat Kanal als OFFLINE, obwohl die Schnittstelle gültig ist

Untersuchen und modifizieren Sie die Cluster-Konfiguration durch Ausführen von Cluster Configuration Tool, wie in Abschnitt 7.4 angegeben, und beheben Sie das Problem.
Zusätzlich, verwenden Sie den Befehl ping um ein Paket zu allen Netzwerk-Schnittstellen im Cluster zu senden.

Lockere Kabelverbindung zum StromschalterStatusabfrage des Stromschalters mittels clufence gibt einen Fehler zurück oder hängtÜberprüfen Sie die serielle Kabelverbindung.
Serielle Schnittstelle des Stromschalters in der Cluster Datenbank falsch angegebenStatusabfrage des Stromschalters mittels clufence zeigt ein Problem anUntersuchen Sie die augenblicklichen Einstellungen und modifizieren Sie die Cluster-Konfiguration durch Ausführen von Cluster Configuration Tool, wie in Abschnitt 7.4 angegeben, und beheben Sie das Problem.

Tabelle 7-3. Erkennen und Beheben von Problemen im Cluster