如果群集无法在所有成员上成功地启动某个服务,然后又无法完整地停止该服务,它就会把这个服务标为「失效」。「失效」状态的导致原因多种多样,可能是因为服务的配置错误,也可能是因为服务被挂起或崩溃。群集状态工具会把这个服务的状态显示为「失效」。
![]() | 注记 |
---|---|
在修改或重新启用服务前,你必须禁用「失效」的服务。 |
请确定要谨慎地处理失效的服务。如果服务资源仍旧在拥有它的成员上被配置,在另一个成员上启动它可能会导致重大问题。例如,如果某个文件系统在拥有服务的成员上仍被挂载,而你在另一个成员上启动了这个服务,文件系统就会在两个成员上都被挂载,这会导致数据损坏。如果启用失败,服务就仍会处于「禁用」状态。
突出显示了服务并点击了「禁用」后,你可以试图修正导致「失效」状态的问题。修改了服务后,若可能,群集软件会启用拥有这个服务的成员上的服务,否则,服务就仍会处于「禁用」状态。以下列表详细地列举了在服务失败后应采取的步骤:
修改群集事件记录方式来记录调试消息。查阅日志可以帮助你判定出现问题的地方。详情请参阅第 7.6 节。
如果服务不能在成员上启动或停止,请检查 /var/log/messages 和(如果被配置单独记录)/var/log/cluster 日志文件,然后诊断并修正问题。你可能需要修改该服务来修正群集配置文件中的不正确的信息(例如,不正确的启动脚本),或者你可能需要在拥有该服务的成员上执行手工任务(例如卸载文件系统)。
在成员上重复进行启用或禁用服务的试探。如果这些试探都无法修正问题和启用或禁用该服务,则重新引导成员。
如果仍不能够成功地启动该服务,请校验该服务是否能够在群集外被手工地重新启动。例如:这可能会包括手工地挂载文件系统和手工地运行服务启动脚本。