重庆政务服务:AIX系统故障解决案例
1:现象:
B80_1
# errpt -dH
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
FE9E9357 0612035609 P H pdisk0 DISK OPERATION ERROR
2712BEF2 0102124409 T H ent0 TRANSMIT FAILURE
B80_2
# errpt -dH
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
03913B94 0820171409 U H LVDD HARDWARE DISK BLOCK RELOCATION ACHIEVED
613E5F38 0820171409 P H LVDD I/O ERROR DETECTED BY LVM
21F54B38 0820171409 P H hdisk0 DISK OPERATION ERROR
2712BEF2 0717180109 T H ent0 TRANSMIT FAILURE
03913B94 0514183009 U H LVDD HARDWARE DISK BLOCK RELOCATION ACHIEVED
613E5F38 0514183009 P H LVDD I/O ERROR DETECTED BY LVM
21F54B38 0514183009 P H hdisk0 DISK OPERATION ERROR
2:分析过程:
B80_1
# errpt -aj FE9E9357
---------------------------------------------------------------------------
LABEL: SSA_DEVICE_ERROR
IDENTIFIER: FE9E9357
Date/Time: Fri Jun 12 03:56:56
Sequence Number: 37
Machine Id: 000C19DF4C00
Node Id: b80_1
Class: H
Type: PERM
Resource Name: pdisk0
Resource Class: pdisk
Resource Type: scsd
Location: 20-58-0F06-08-P
VPD:
Manufacturer................IBM
Machine Type and Model......DMVC36B
Part Number.................18P2199
ROS Level and ID............0061
Serial Number...............F80AF74E7K
EC Level....................F25900
Device Specific.(Z2)........CUSNA061
Device Specific.(Z3)........18P2199
Device Specific.(Z4)........01151
Description
DISK OPERATION ERROR
Probable Causes
DASD DEVICE
Failure Causes
DISK DRIVE
Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES
B80_2
# errpt -aj 613E5F38
---------------------------------------------------------------------------
LABEL: LVM_IO_FAIL
IDENTIFIER: 613E5F38
Date/Time: Thu Aug 20 17:14:30
Sequence Number: 5643
Machine Id: 000C1A0F4C00
Node Id: b80_2
Class: H
Type: PERM
Resource Name: LVDD
Resource Class: NONE
Resource Type: NONE
Location: NONE
Description
I/O ERROR DETECTED BY LVM
Probable Causes
POWER, DRIVE, ADAPTER, OR CABLE FAILURE
Recommended Actions
RUN DIAGNOSTICS AGAINST THE FAILING DEVICE
Detail Da
PHYSICAL VOLUME DEVICE MAJOR/MINOR
000E 0001
ERROR CO
110
BLOCK NUMBER
28545296
LOGICAL VOLUME DEVICE MAJOR/MINOR
000A 0004
PHYSICAL BUFFER TRANSACTION TIME
10
从以上可以看出B80_1的pdisk0需要更换,pdisk0为ibm的7133硬盘。Hdisk0为系统根盘。
3:处理过程:
1):更换系统根盘
HDISK0和HDISK1做成MIRROR,是ROOTVG。
先做系统备份
tctl –f /dev/rmt0 rewind
smitty mksysb
查看HDISK0的S/N,P/N号等,在换盘的时候做对照
lscfg –vl hdisk0
查看物理卷
lspv
查看逻辑卷组
lsvg
查看在用的逻辑卷组
lsvg –o
查看所有硬盘(包括逻辑盘)的状态
lsdev –Cc disk
查看7133磁盘柜硬盘状态
lsdev –Cc pdisk
停HACMP
smitty clstop
使用lsvg –o 命令会看不到一些(应用)VG(1号机会接管);使用 netstat –i命令可以看到系统SVC地址会变成BOOT地址
把HDISK0从ROOTVG中不做MIRROW
unmirrorvg rootvg hdisk0
查看物理卷
lspv
这时HDISK0不在和HDISK1为MIRROR
把hdisk0从rootvg中去除
reducevg rootvg hdisk0
在HDISK1上创建boot image
bosboot –ad hdisk1
改变启动设备的顺序
bootlist –m normal hdisk1 cd0
删除HDISK0
rmdev –l disk0 –d
lspv
lscfg –vl hdisk0
以上2条命令不会显示HDISK0的相关信息
关机
shutdown –F
把2号机的外设机箱取出,更换硬盘。注意要标好各电缆的位置
开机
lspv
发现多出HDISK4,而我们需要的是HDISK0
删除HDISK4
rmdev –l hdisk4 –d
cfgmgr
lspv
发现多出HDISK0,HDISK4,可能是我前面删除HDISK0,没有做cfgmgr的原因
删除HDISK4,HDISK0
rmdev –l hdisk4 –d
rmdev –l hdisk0 –d
cfgmgr
lspv
好了,HDISK0出现了
把HDISK0加到ROOTVG中
extendvg rootvg hdisk0
做MIRROR
mirrorvg –c 2 rootvg
查看PV
lspv
OK
在HDISK0,HDISK1上创建boot image
bosboot –ad hdisk0
bosboot –ad hdisk1
改变启动设备的顺序
bootlist –m normal hdisk0,hdisk1 cd0
重启动2号机
shutdown –Fr
关闭1号机的HACMP.
Smitty clstop
重启动1号机
shutdown –Fr
启动1号机的HACMP
smitty clstart
启动2号机的HACMP
smitty clstart
一切OK
2)更换7133硬盘
smitty ssaraid
List Status of all Defined SSA RAID Arrays
当RAID中的硬盘出现问题时,此RAID的状态是“degraded”
1. 可用以下命令判断硬盘是否被被阵列(Array)剔除(reject):
smit ssaraid
List/Identify SSA Physical Disks
List Rejected Array Disks
如果硬盘没有被阵列(Array)剔除(reject)
smitty ssaraid
Change Member Disks in an SSA RAID Array
Remove a disk from an SSA RAID Array
选择相应的阵列(array)和想要更换的硬盘(pdisk#)。
2. 物理上更换硬盘。
3. 运行下列命令。
rmdev -dl pdisk# --从系统中删除想更换硬盘的定义。
cfgmgr -vl ssar ---从新配置新加的硬盘。
4. smitty ssaraid
Change/Show use of an ssa physical disk
将新加硬盘的状态变为 Array Candidate.
5. smiity ssaraid
Change Member Disks in an SSA RAID Array
Add a disk to an SSA RAID Array
将新硬盘加入阵列(Array)。
此时,用 smitty ssaraid
List Status of all Defined SSA RAID Arrays
检查此阵列应为“Rebuilding”状态,在Rebuilding完成后阵列
返回“Good”状态。
结果:以上操作都正常,系统正常。