重庆政务服务:AIX系统故障解决案例

来源:百度文库 编辑:九乡新闻网 时间:2024/07/08 21:54:33

1:现象:

B80_1

# errpt -dH

IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION

FE9E9357   0612035609 P H pdisk0         DISK OPERATION ERROR

2712BEF2   0102124409 T H ent0           TRANSMIT FAILURE

B80_2

# errpt -dH

IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION

03913B94   0820171409 U H LVDD           HARDWARE DISK BLOCK RELOCATION ACHIEVED

613E5F38   0820171409 P H LVDD           I/O ERROR DETECTED BY LVM

21F54B38   0820171409 P H hdisk0         DISK OPERATION ERROR

2712BEF2   0717180109 T H ent0           TRANSMIT FAILURE

03913B94   0514183009 U H LVDD           HARDWARE DISK BLOCK RELOCATION ACHIEVED

613E5F38   0514183009 P H LVDD           I/O ERROR DETECTED BY LVM

21F54B38   0514183009 P H hdisk0         DISK OPERATION ERROR

2:分析过程:

B80_1

# errpt -aj FE9E9357

---------------------------------------------------------------------------

LABEL:          SSA_DEVICE_ERROR

IDENTIFIER:     FE9E9357

Date/Time:       Fri Jun 12 03:56:56

Sequence Number: 37

Machine Id:      000C19DF4C00

Node Id:         b80_1

Class:           H

Type:            PERM

Resource Name:   pdisk0

Resource Class:  pdisk

Resource Type:   scsd

Location:        20-58-0F06-08-P

VPD:            

        Manufacturer................IBM    

        Machine Type and Model......DMVC36B

        Part Number.................18P2199    

        ROS Level and ID............0061

        Serial Number...............F80AF74E7K

        EC Level....................F25900   

        Device Specific.(Z2)........CUSNA061 

        Device Specific.(Z3)........18P2199    

        Device Specific.(Z4)........01151

Description

DISK OPERATION ERROR

Probable Causes

DASD DEVICE

Failure Causes

DISK DRIVE

 

        Recommended Actions

        PERFORM PROBLEM DETERMINATION PROCEDURES

B80_2

# errpt -aj 613E5F38

---------------------------------------------------------------------------

LABEL:          LVM_IO_FAIL

IDENTIFIER:     613E5F38

Date/Time:       Thu Aug 20 17:14:30

Sequence Number: 5643

Machine Id:      000C1A0F4C00

Node Id:         b80_2

Class:           H

Type:            PERM

Resource Name:   LVDD

Resource Class:  NONE

Resource Type:   NONE

Location:        NONE

Description

I/O ERROR DETECTED BY LVM

Probable Causes

POWER, DRIVE, ADAPTER, OR CABLE FAILURE

 

        Recommended Actions

        RUN DIAGNOSTICS AGAINST THE FAILING DEVICE

 

Detail Data

PHYSICAL VOLUME DEVICE MAJOR/MINOR

000E 0001

ERROR CODE AS DEFINED IN sys/errno.h

         110

BLOCK NUMBER

    28545296

LOGICAL VOLUME DEVICE MAJOR/MINOR

000A 0004

PHYSICAL BUFFER TRANSACTION TIME

          10

从以上可以看出B80_1的pdisk0需要更换,pdisk0为ibm的7133硬盘。Hdisk0为系统根盘。

3:处理过程:

1):更换系统根盘

HDISK0和HDISK1做成MIRROR,是ROOTVG。

先做系统备份

tctl –f /dev/rmt0 rewind

smitty mksysb

查看HDISK0的S/N,P/N号等,在换盘的时候做对照

lscfg –vl hdisk0

查看物理卷

lspv

查看逻辑卷组

lsvg

查看在用的逻辑卷组

lsvg –o

查看所有硬盘(包括逻辑盘)的状态

lsdev –Cc disk

查看7133磁盘柜硬盘状态

lsdev –Cc pdisk

 

停HACMP

smitty clstop

使用lsvg –o 命令会看不到一些(应用)VG(1号机会接管);使用 netstat –i命令可以看到系统SVC地址会变成BOOT地址

把HDISK0从ROOTVG中不做MIRROW

unmirrorvg rootvg hdisk0

查看物理卷

lspv

这时HDISK0不在和HDISK1为MIRROR

把hdisk0从rootvg中去除

reducevg rootvg hdisk0

在HDISK1上创建boot image

bosboot –ad hdisk1

改变启动设备的顺序

bootlist –m normal hdisk1 cd0

删除HDISK0

rmdev –l disk0 –d

lspv

lscfg –vl hdisk0

以上2条命令不会显示HDISK0的相关信息

 

关机

shutdown –F

把2号机的外设机箱取出,更换硬盘。注意要标好各电缆的位置

 

开机

lspv

发现多出HDISK4,而我们需要的是HDISK0

删除HDISK4

rmdev –l hdisk4 –d

cfgmgr

lspv

发现多出HDISK0,HDISK4,可能是我前面删除HDISK0,没有做cfgmgr的原因

删除HDISK4,HDISK0

rmdev –l hdisk4 –d

rmdev –l hdisk0 –d

cfgmgr

lspv

好了,HDISK0出现了

把HDISK0加到ROOTVG中

extendvg rootvg hdisk0

做MIRROR

mirrorvg –c 2 rootvg

查看PV

lspv

OK

在HDISK0,HDISK1上创建boot image

bosboot –ad hdisk0

bosboot –ad hdisk1

改变启动设备的顺序

bootlist –m normal hdisk0,hdisk1 cd0

 

重启动2号机

shutdown –Fr

 

关闭1号机的HACMP.

Smitty clstop

重启动1号机

shutdown –Fr

启动1号机的HACMP

smitty clstart

 

启动2号机的HACMP

smitty clstart

 

一切OK

2)更换7133硬盘

smitty ssaraid

List Status of all Defined SSA RAID Arrays

当RAID中的硬盘出现问题时,此RAID的状态是“degraded”

 

1. 可用以下命令判断硬盘是否被被阵列(Array)剔除(reject):

smit ssaraid

List/Identify SSA Physical Disks

List Rejected Array Disks

 

如果硬盘没有被阵列(Array)剔除(reject)

smitty ssaraid

Change Member Disks in an SSA RAID Array

Remove a disk from an SSA RAID Array

选择相应的阵列(array)和想要更换的硬盘(pdisk#)。

 

2. 物理上更换硬盘。

 

3. 运行下列命令。

rmdev -dl pdisk# --从系统中删除想更换硬盘的定义。

cfgmgr -vl ssar ---从新配置新加的硬盘。

 

4. smitty ssaraid

Change/Show use of an ssa physical disk

将新加硬盘的状态变为 Array Candidate.

 

5. smiity ssaraid

Change Member Disks in an SSA RAID Array

Add a disk to an SSA RAID Array

将新硬盘加入阵列(Array)。

 

此时,用 smitty ssaraid

List Status of all Defined SSA RAID Arrays

检查此阵列应为“Rebuilding”状态,在Rebuilding完成后阵列

返回“Good”状态。

 

结果:以上操作都正常,系统正常。