预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共30页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

HACMP维护文档胡枫什么是HACMP在我们解释什么是HACMP以前,我们先来定义一下高可用性的概念。Highavailability:在当今复杂的环境下,成功实现IT应用的一个关键要素就是提供不间断的应用服务和数据保护。HA就是这样一个可以通过消除计划内/计划外宕机事件从而向客户应用提供不间断服务的部件,它能达到消除从硬件到软件的单点故障(SPOFs)。实现一个高可用性解决方案,需要:冗余服务器、冗余网络、冗余网络接口卡、监视、故障检测、故障诊断、自动接管、自动重新控制HACMP的主要目标就是消除单点故障。IBM针对AIX的高可用性解决方案--HACMP群集技术,它包括以下两个组件:高可用性(HA):该进程保证应用在用户复制共享资源时是可用的。群集多处理(CMP):该进程提供在同一节点上多个应用共享或并发访问数据。基于HACMP的高可用性解决方案提供自动失效检测、诊断、应用恢复和节点重新控制。在恰当的应用中,HACMP还可以在并行应用处理中提供对数据的并发访问,从而提供更高的可扩展性。高可用性系统VS容错系统容错系统:它是提供冗余的设计为不间断操作。这样的系统中所有的组件都是双份的(不管硬件还是软件),CPU、内存、磁盘都有特殊的设计来提供不间断服务。这样的系统是非常昂贵和非常专业的。只有在要求0宕机的环境中,容错系统设备和方案才有需求。高可用性系统:配置为高可用性的系统是一组软件、硬件的组合,可以保证系统失效后在可接受的宕机时间内恢复。在这种系统中,软件负责监测到环境故障后将应用交给另一个机器实现队员机器的接管。因此,在这种环境下重要的是消除SPOF。例如,如果只有一个网络连接,就需要提供第二块网卡以备主网卡失效后接管。另一点就是通过将数据放在所有节点都可以访问的共享磁盘上并实现镜像。HACMP相关概念1、群集拓扑:包含基本的群集组件——节点、网络、通讯接口、通讯设备、通讯适配器。2、群集资源:被设为高可用性的实体(例如文件系统、裸设备、服务IP标签、应用等)。所有资源被组织成资源组(RG),HACMP保持唯一实体——资源组——的高可用性。资源组可以被一个节点访问或者在并发应用中同时被多个节点访问。3、Fallover:在活动节点出现故障时,将资源组从活动节点转移到备份节点的动作。4、Fallback:原来的活动节点恢复时,将资源组切换回原节点的动作。这是将失效节点重新集成到集群的标准动作。HACMP相关术语要理解HACMP的正确功能并利用它,就必须知道一些术语:1、群集(Cluster):为共享资源和相互通讯而通过网络连接在一起的独立主机(节点)。HACMP负责定义在协同的系统中哪个节点提供服务哪个节点不提供服务。所有节点共同负责维护应用的功能可用。2、节点(Node):在群集中所有运行AIX系统和HACMP软件的IBMp系列服务器都是节点。每个节点都有一个资源集(磁盘、文件系统、IP地址、应用)在该节点失效时可以被群集中其他节点接管。3、资源(Resource):是在群集配置中可以从一个节点转移到其他节点的逻辑组件。所有必须提供高可用性应用的资源被构成资源组(RG)。当节点失效时,资源组中的组件被一同从一个节点移动到另一个节点。一个群集可以有多个RG,从而提高节点的效率(也就是HACMP中的Multi-Processing)。HACMP相关术语4、接管:在群集内部节点之间传送资源的操作称为接管。如果一个节点发生硬件故障或AIX故障,它的资源应用会被移到另一个节点。5、客户:客户就是可以通过局域网访问群集节点应用的一个系统。客户通过运行客户端程序连接到应用所在的服务器上。HACMP的实现(此处略去)AIX中需要配置网络、共享磁盘、LVM组件等串行网络由于服务网卡和备份网卡都是采用TCP/IP进行通讯的,如果某节点的TCP/IP子系统发生故障或者网络拥塞,就会造成Keep-alive包无法正常传输。此时因为所有的心跳停止了,其它节点将错误地认为该节点故障,导致其它节点试图接管资源,群集及其资源将处于不稳定状态。因此HACMP中必须配置一条串行网络,当LAN故障时,可以提供另外的Keep–alive路由。由于串行网络不用TCP/IP协议,所以TCP/IP子系统的故障并不意味着HACMP故障,使得群集可以分清网络故障和节点故障,避免出现孤立节点HACMP日常系统管理维护日常日志2:/tmp/cm.log:(未找到)保存HACMP中clstrmgr进程产生信息的时间;HACMP技术人员在clstrmgr处于debug模式下排错需要参考此文件内容。重启集群服务,这个文件就会被重写,因此需要做好备份。(/var/hacmp/log中有参考日志文件)/var/h