7.10. Diagnosticare e Correggere gli errori nel Cluster

Per assicurare una diagnosi corretta di qualsiasi problema presente in un cluster, abilitare l'event logging. In aggiunta, se emergono problemi in un cluster, assicurarsi d'impostare il livello di severitá DEBUG per i demoni del cluster. Ciò permette la registrazione di messaggi descrttivi che possono aiutare a risolvere i diversi problemi.

NotaNota Bene
 

Quando qualsiasi problema é stato risolto, impostare nuovamente il livello di debug al suo valore di default WARN per evitare la generazione di file troppo grandi del messaggio di registrazione. Consultate la Sezione 7.6 per maggiori informazioni.

Usare Tabella 7-3 per risolvere il problema presente nel cluster.

ProblemaSintomoSoluzione
il bus SCSI non é terminatogli errori dell'SCSI sono presenti nel file registrato

Ogni bus SCSI deve essere terminato solo all'inizio e alla fine del bus. A seconda della configurazione del bus, puó essere necessario abilitare o disabilitare la terminazione negli adattatori del bus host, i controller RAID, e le enclosure dello storage. Per supportare l'hot plugging, un fattore esterno é richiesto per terminare un bus SCSI.
In aggiunta, assicurarsi che nessun dispositivo é collegato ad un bus SCSI usando uno stub di lunghezza superiore a 0.1 metri.
Vedere la Sezione 1.4.4 e la Sezione B.3per informazioni inerenti la terminazione dei diversi tipi di bus SCSI.

lunghezza del bus SCSI maggiore del limite massimogli errori dell'SCSI sono presenti nel file registrato

Ogni tipo di bus SCSI deve rispettare le restrizioni in lunghezza, come descritto in la Sezione B.4.
In aggiunta, assicurare che nessun dispositivo single-ended sia collegato al bus SCSI LVD, questo per evitare che il bus stesso venga convertito in un bus single-ended, il quale ha delle restrizioni maggiori rispetto ad un diverso tipo di bus.

numeri d'identificazione SCSI non unicigli errori dell'SCSI sono presenti nel file registratoOgni dispositivo su di un bus SCSI deve avere un numero unico di identificazione. Per maggiori informazioni controllare la Sezione B.5.
i comandi dell'SCSI scadono prima del completamentogli errori dell'SCSI sono presenti nel file registrato

Lo schema arbitrario prioritario su di un bus SCSI puó risultare in un blocco dei dispositivi a bassa-prioritá per un certo periodo di tempo. Questo puó causare una interruzione dei comandi, se un dispositivo di memoria a bassa prioritá, come un disco, non é capace di completare un comando che un host gli ha affidato. Per alcuni carichi, questo problema puó essere evitato assegnando numeri d'identificazione SCSI a bassa prioritá agli adattatori del bus host.
Consultare la Sezione B.5 per maggiori informazioni.

Partizioni del quorum montateI messaggi che indicano errori della somma di controllo "checksum" su di una partizione del quorum, vengono visualizzati nel log file

Assicurarsi che i raw device della partizione del quorum siano usati solo per le informazioni sullo stato del cluster. Essi non possono essere usati per i servizi del cluster o per scopi non riguardanti il cluster, e non puó contenere un file system. Consultare la Sezione 1.4.4.3 per maggiori informazioni.
Questi messaggi possono indicare che un file speciale del dispositivo a blocco per la partizione del quorum, é stato erroneamente usato per scopi non riguardanti il cluster.

Il file system del servizio non é chiaroUn servizio disabilitato non puó essere abilitato

Eseguire manualmente un programma di controllo come fsck. Poi, abilitare il servizio.
Notare che l'infrastruttura del cluster esegue per default fsck con l'opzione -p, per correggere automaticamente le inconsistenze del file system. Per particolari tipi di errore, é possibile che l'utente venga chiamato ad iniziare manualmente le opzioni per la riparazione del filesystem.

Le partizioni del Quorum non sono impostate correttamentei messaggi inerenti l'inaccessibilitá della partizione del quorum sono presenti nel log fileEseguire il comando /sbin/shutil -t per controllare se le partizioni del quorum sono accessibili. Se il comando ha successo, eseguire il comando shutil -p su entrambi i sistemi del cluster. Se il risultato sui sistemi é diverso, le partizioni del quorum non indicano gli stessi dispositivi su entrambi i sistemi. Assicurarsi che la fila dei dispositivi sia presente e che sia correttamente specificata nel file /etc/sysconfig/rawdevices. Vedere la Sezione 1.4.4.3 per maggiori informazioni.
Errore nel funzionamento del servizio del ClusterI messaggi riguardanti il funzionamento non appaiono sulla console o nel log fileCi sono molteplici ragioni che determinano l'incorretto funzionamento di un servizio (per esempio, l'avvio o l'arresto del servizio). Per aiutare a identificare la causa del problema, impostare il livello di severitá per i demoni del cluster su DEBUG in modo da poter registrare i messaggi descrittivi. Successivamente, riprovare il funzionamento ed esaminare il file log. Vedere la Sezione 7.6 per maggiori informazioni.
La terminazione del servizio del cluster non ha successo perché un file system non puó essere smontato "unmounted"I messaggi riguardanti il funzionamento non appaiono sulla console o nel log file

Usare i comandi fuser e ps per identificare i processi che stanno per accedere al file system. Usare il comando kill per fermare tali processi. Usare il comando lsof -t file_system per visualizzare i numeri d'identificazione per i processi che stanno per accedere ad un file system specificato.
Per evitare questo problema, assicurarsi che solo i processi relativi al cluster possono accedere ai dati della memoria condivisa. In aggiunta, modificare il servizio ed abilitare la procedura di unmount del file system. Ció abilita il servizio del cluster al procedimento di unmount di un file system anche se un'applicazione o un utente è già potuto accedere.

Entry non corretta nel database del clusterIl funzionamento del cluster é alteratoIl Tool dello stato del Cluster può essere usato per esaminare e configurare la configurazione del servizio. Il Tool di configurazione del Cluster é usato per modificare i parametri del cluster.
Inserimento non corretto del Ethernet heartbeat nel database del cluster o nel file/etc/hostsLa condizione del Cluster indica che un canale Ethernet heartbeat é OFFLINE anche se l'interfaccia é valida

Esaminare e modificare la configurazione del cluster eseguendo Tool di configurazione del Cluster, come specificato in la Sezione 7.4, e correggere il problema.
In aggiunta, essere sicuri di usare il comando ping per inviare un pacchetto a tutte le interfacce di rete usate nel cluster.

Connessione Loose cable per interruttoriLo stato dell'interruttore di alimentazione ritorna un errore o viene sospeso usando clufenceControllare la connessione seriale del cavo.
Porta seriale dell'interruttore non correttamente specificato nel database del clusterLa condizione dell'interruttore indica un problema usando clufenceEsaminare le impostazioni correnti e modificare la configurazione del cluster eseguendo Tool di configurazione del Cluster, come specificato nel la Sezione 7.4, e correggere il problema.

Tabella 7-3. Diagnosticare e Correggere gli errori nel Cluster