Reinicio de un servidor VIO

Si se reinicia un servidor VIO, se pueden recuperar los discos en los clientes AIX ejecutando el comando “varyonvg rootvg”. Las situaciones donde puede pasar esto puede ser por alguna falla en el VIOS, que se quede inhibido o al aplicar algún software como updates, upgrades, o parches que requieran reinicio.

Simulé una falla dando de baja el VIOS2. Como lo esperaba, la particion de AIX continuó ejecutándose sin interrupción. La red se recuperó transparentemente, y el AIX continuó ejecutándose con el disco espejeado que quedó.

Despues de reiniciar el VIOS, recuperé el disco en el AIX que estaba “missing” ejecutando “varyonvg rootvg”. Eso activa el disco y sincroniza las particiones con estado “stale”.

Este procedimiento de recuperación es válido en un reinicio/falla del VIOS. Sin embargo, no cubre el recuperarse por el daño de un disco.

Comentarios: Una mala interpretación común es que el comando “lspv” muestre los discos fallidos. Pero el comando “lspv” solo muestra el estado de los discos al momento del arranque. No mostrará un error de disco posterior. Para detectar el disco que falta, use “lsvg [-lp] vgname”.

Para este ejemplo usaremos el VIOC (VIO Client/AIX cliente/AIX LPAR) segwasp1drp.

Revisión Previa
[root@segwasp1drp ~]# lspv
hdisk0          00f68e969172e70a                    rootvg          active
hdisk1          00f68e960d1d48df                    rootvg          active


[root@segwasp1drp ~]# lsvg -p rootvg
rootvg:
PV_NAME           PV STATE          TOTAL PPs   FREE PPs    FREE DISTRIBUTION
hdisk0            active            639         435         127..52..00..128..128
hdisk1            active            639         467         127..83..01..128..128


[root@segwasp1drp ~]# lsvg -l rootvg
rootvg:
LV NAME             TYPE       LPs     PPs     PVs  LV STATE      MOUNT POINT
hd5                 boot       1       2       2    closed/syncd  N/A
hd6                 paging     16      32      2    open/syncd    N/A
hd8                 jfs2log    1       2       2    open/syncd    N/A
hd4                 jfs2       38      76      2    open/syncd    /
hd2                 jfs2       72      144     2    open/syncd    /usr
hd9var              jfs2       14      28      2    open/syncd    /var
hd3                 jfs2       4       8       2    open/syncd    /tmp
hd1                 jfs2       1       2       2    open/syncd    /home
hd10opt             jfs2       13      26      2    open/syncd    /opt
hd11admin           jfs2       4       8       2    open/syncd    /admin
lg_dumplv           sysdump    32      32      1    closed/syncd  N/A
livedump            jfs2       8       16      2    open/syncd    /var/adm/ras/livedump
[root@segwasp1drp ~]#
Se apaga el VIOS2
$ shutdown -restart
Shutting down the VIO Server could affect Client Partitions. Continue [y|n]?
Nótese que “lspv” muestra los discos activos. Esto es normal porque “lspv” solo muestra el estado del disco del último inicio, no el estado actual.
[root@segwasp1drp ~]# lspv
hdisk0          00f68e969172e70a                    rootvg          active
hdisk1          00f68e960d1d48df                    rootvg          active

El comando correcto para revisar el estado del disco es “lsvg -p ”

[root@segwasp1drp ~]# lsvg -p rootvg
rootvg:
PV_NAME           PV STATE          TOTAL PPs   FREE PPs    FREE DISTRIBUTION
hdisk0            active            639         435         127..52..00..128..128
hdisk1            missing           639         467         127..83..01..128..128

Además puede ver las PVs y PPs que no están disponibles (stale) usando “lsvg ”

[root@segwasp1drp ~]# lsvg  rootvg
VOLUME GROUP:       rootvg                   VG IDENTIFIER:  00f68e9600004c00000001349172fd00
VG STATE:           active                   PP SIZE:        32 megabyte(s)
VG PERMISSION:      read/write               TOTAL PPs:      1278 (40896 megabytes)
MAX LVs:            256                      FREE PPs:       902 (28864 megabytes)
LVs:                12                       USED PPs:       376 (12032 megabytes)
OPEN LVs:           10                       QUORUM:         1 (Disabled)
TOTAL PVs:          2                        VG DESCRIPTORS: 3
STALE PVs:          1 <-----                 STALE PPs:      15 <----
ACTIVE PVs:         1                        AUTO ON:        yes
MAX PPs per VG:     32512
MAX PPs per PV:     1016                     MAX PVs:        32
LTG size (Dynamic): 256 kilobyte(s)          AUTO SYNC:      no
HOT SPARE:          no                       BB POLICY:      relocatable
PV RESTRICTION:     none
[root@segwasp1drp ~]#

[root@segwasp1drp ~]# lsvg -l rootvg
rootvg:
LV NAME             TYPE       LPs     PPs     PVs  LV STATE      MOUNT POINT
hd5                 boot       1       2       2    closed/syncd  N/A
hd6                 paging     16      32      2    open/syncd    N/A
hd8                 jfs2log    1       2       2    open/stale    N/A
hd4                 jfs2       38      76      2    open/stale    /
hd2                 jfs2       72      144     2    open/stale    /usr
hd9var              jfs2       14      28      2    open/stale    /var
hd3                 jfs2       4       8       2    open/stale    /tmp
hd1                 jfs2       1       2       2    open/syncd    /home
hd10opt             jfs2       13      26      2    open/syncd    /opt
hd11admin           jfs2       4       8       2    open/syncd    /admin
lg_dumplv           sysdump    32      32      1    closed/syncd  N/A
livedump            jfs2       8       16      2    open/syncd    /var/adm/ras/livedump
Se inicia el VIOS2
varyonvg sincroniza los discos
[root@segwasp1drp ~]# varyonvg rootvg

Ya no hay PPs ni PVs en stale

[root@segwasp1drp ~]# lsvg  rootvg
VOLUME GROUP:       rootvg                   VG IDENTIFIER:  00f68e9600004c00000001349172fd00
VG STATE:           active                   PP SIZE:        32 megabyte(s)
VG PERMISSION:      read/write               TOTAL PPs:      1278 (40896 megabytes)
MAX LVs:            256                      FREE PPs:       902 (28864 megabytes)
LVs:                12                       USED PPs:       376 (12032 megabytes)
OPEN LVs:           10                       QUORUM:         1 (Disabled)
TOTAL PVs:          2                        VG DESCRIPTORS: 3
STALE PVs:          0 <----                  STALE PPs:      0 <----
ACTIVE PVs:         2                        AUTO ON:        yes
MAX PPs per VG:     32512
MAX PPs per PV:     1016                     MAX PVs:        32
LTG size (Dynamic): 256 kilobyte(s)          AUTO SYNC:      no
HOT SPARE:          no                       BB POLICY:      relocatable
PV RESTRICTION:     none

El disco hdisk1 está activo de nuevo.

[root@segwasp1drp ~]# lsvg -p rootvg
rootvg:
PV_NAME           PV STATE          TOTAL PPs   FREE PPs    FREE DISTRIBUTION
hdisk0            active            639         435         127..52..00..128..128
hdisk1            active            639         467         127..83..01..128..128

Los LV están sincronizados

[root@segwasp1drp ~]# lsvg -l rootvg
rootvg:
LV NAME             TYPE       LPs     PPs     PVs  LV STATE      MOUNT POINT
hd5                 boot       1       2       2    closed/syncd  N/A
hd6                 paging     16      32      2    open/syncd    N/A
hd8                 jfs2log    1       2       2    open/syncd    N/A
hd4                 jfs2       38      76      2    open/syncd    /
hd2                 jfs2       72      144     2    open/syncd    /usr
hd9var              jfs2       14      28      2    open/syncd    /var
hd3                 jfs2       4       8       2    open/syncd    /tmp
hd1                 jfs2       1       2       2    open/syncd    /home
hd10opt             jfs2       13      26      2    open/syncd    /opt
hd11admin           jfs2       4       8       2    open/syncd    /admin
lg_dumplv           sysdump    32      32      1    closed/syncd  N/A
livedump            jfs2       8       16      2    open/syncd    /var/adm/ras/livedump

Al ejecutar “varyonvg rootvg” para sincronizar los discos marca el error 0516-1747.

[root@segwasp1drp ~]# varyonvg rootvg
0516-1747 varyonvg: Cannot varyon volume group with an active dump device on
        a missing physical volume. Use sysdumpdev to temporarily replace the
        dump device with /dev/sysdumpnull and try again.
[root@segwasp1drp ~]# 

Se tiene que modificar temporalmente el “sysdump” para que permita sincronizar.

Primero listamos.

[root@segwasp1drp ~]# sysdumpdev  -l
primary              /dev/lg_dumplv
secondary            /dev/sysdumpnull
copy directory       /var/adm/ras
forced copy flag     TRUE
always allow dump    FALSE
dump compression     ON
type of dump         traditional
[root@segwasp1drp ~]#

Y ahora modificamos.

[root@segwasp1drp ~]# sysdumpdev -p /dev/sysdumpnull
primary              /dev/sysdumpnull
secondary            /dev/sysdumpnull
copy directory       /dump
forced copy flag     FALSE
always allow dump    FALSE
dump compression     ON
[root@segwasp1drp ~]#