假如叢集硬體設定中使用了電源開關,請在每一部叢集系統上執行 clufence 工具程式, 以確定它可以遠端的 power-cycle 其他叢集成員。
假如指令成功的話,請在兩部叢集系統上執行 shutil -p 指令來顯示 quorum 分割區的表頭 資料結構的摘要。 假如所產生的輸出不同,表示兩部系統的 quorum 分割區並不指向同一個裝置。 請檢查 raw 裝置是存在的,而且在 /etc/sysconfig/rawdevices 檔案中已經正確地指定了。 請參考 第 1.4.4.3 節 以取得更多資訊。
假如叢集硬體設定中使用了網路或序列連線的電源開關,請安裝叢集軟體並且執行 clufence 指令來測試電源開關。 請在每一部叢集系統上執行這個指令,以確保它可以遠端的 power-cycle 其他叢集成員。 假如測試成功的話,那麼便可以啟動叢集了。
clufence 指令可以正確地測試一部電源開關,clufence 指令的格式如下:
usage: clufence [-d] [-[furs] <member>] -d Turn on debugging -f <member> Fence (power off) <member> -u <member> Unfence (power on) <member> -r <member> Reboot (power cycle) <member> -s <member> Check status of all switches controlling <member> |
當您測試電源開關時,第一個步驟便是確保每一部叢集成員都可以成功地與所連接的電源開關進行通訊。 以下 clufence 指令的範例輸出顯示出叢集成員可以與它的電源開關通訊。
[23750] info: STONITH: baytech at 192.168.1.31, port 1 controls clu2 [23750] info: STONITH: baytech at 192.168.1.31, port 2 controls clu3 [23750] info: STONITH: wti_nps at 192.168.1.29, port clu4 controls clu4 [23750] info: STONITH: wti_nps at 192.168.1.29, port clu5 controls clu5 |
輸出中的任何錯誤都可能表示下列類型的問題:
對於序列連線的電源開關:
請檢驗遠端電源開關連線序列連接埠的裝置特殊檔案(例如 /dev/ttyS0)已經在 叢集資料庫中正確指定了,如同透過 叢集設定工具 所建立的。 假如必要的話, 請使用一個終端機模擬套件(如 minicom)來測試叢集系統是否可以存取序列埠。
請確認非叢集的程式(如 getty 程式)沒有使用遠端電源開關連線的序列埠,您可以使用 lsof 指令來做這項檢查。
請檢查連接遠端電源開關的纜線配置是正確的,並檢驗是否使用了正確的纜線類型(如一部 RPS-10 電源開關 需要一條 null 數據機纜線),而且所有的連線都已經安全地固定了。
請檢驗電源開關上任何實體的 DIP 開關或旋轉開關都已設定正確。
對於網路連線的電源開關:
請檢驗網路為基礎之電源開關的網路連線是沒問題的,大部分的開關裝置都有一個連接燈號以指出連線狀況。
您應該可以 ping 該網路電源開關,假如不行的話,表示該電源開關的網路參數未設定正確。
檢驗叢集設定資料庫(由執行 叢集設定工具 所建立的)中已經指定了正確的 密碼與登入名稱(取決於開關類型),一個很有用的診斷方法便是使用如叢集設定中所指定的相同參數來進行 Telnet 存取網路開關。
在成功地檢驗與電源開關的通訊後,請試著 power-cycle 其他叢集成員。 在這之前,建議您先確認其他叢集 成員並不正在執行任何重要的功能(如伺服叢集服務給現行的用戶端),您可以執行下列指令:
clufence -r clu3 |
下列描述了一個成功的 power cycle 操作:
Successfully power cycled host clu3. |