SyntaxHighlighter

viernes, 4 de mayo de 2012

Cambiando un Disco Duro en un HP Proliant

Shit happens!! Si, solo es cuestión de tiempo. Tarde o temprano todo aparato electrónico acaba fallando, incluso si es de buena calidad. Ayer, cuando me disponía a cambiar la cinta de copia de seguridad de uno de nuestros servidores me di cuenta de que uno de los discos duros tenía iluminado el led de fallo.

Recuerdo la primera vez que nos falló un disco en el trabajo. Fue en un servidor clónico, muy potente, poco después de comprarlo. Entonces todas nuestras aplicaciones estaban alojadas en este servidor. Aprendimos mucho aquella vez: es mejor invertir en un servidor que te dé garantías y en un buen servicio técnico que en uno tipo "hacendado" por muy potente que sea, lo importante que es poder confiar en tu sistema de copias de seguridad, que debes prever situaciones de emergencia, que andar con pies de plomo y tener todo medianamente bien atado es imprescindible si quieres ahorrarte muchos dolores de cabeza porque LA GENTE SOLO SE ACUERDA DE " EL INFORMÁTICO" CUANDO ALGO FALLA. Por eso sustituimos esa máquina por nuestro primer HP Proliant, ahora tenemos 15.

Lavadora o servidor??

No quiero hacer de comercial de HP, seguro que Dell, Sun o cualquier marca de renombre tienen buen hardware, proveen de herramientas software adecuadas y disponen de un servicio técnico de calidad.

Bueno, voy al grano. Se nos ha roto uno de los discos que, junto con otros 3, formaba parte de un conjunto RAID 1+0. Como con esta configuración RAID podemos "perder" un disco, todo el sistema sigue funcionando. Los discos para estos sistemas vienen incrustados en una especie de chasis que facilita su manejo y además da información del estado de los mismos por medio de una serie de leds.

Disco defectuoso
Podemos confirmar esta información usando una de las herramientas del paquete Proliant Support Pack hpacucli. La sintaxis es la siguiente:


[root@localhost hpacucli]# hpacucli ctrl all show config

Smart Array 641 in Slot 3     (sn: XXXXX)

   array A (Parallel SCSI, Unused Space: 0 MB)

      logicaldrive 1 (273.5 GB, RAID 1+0, Interim Recovery Mode)

      physicaldrive 1:2   (port 1:id 2 , Parallel SCSI, 146 GB, Failed)
      physicaldrive 1:3   (port 1:id 3 , Parallel SCSI, 146.8 GB, OK)
      physicaldrive 1:4   (port 1:id 4 , Parallel SCSI, 146.8 GB, OK)
      physicaldrive 1:5   (port 1:id 5 , Parallel SCSI, 146.8 GB, OK)

Como vemos en la salida de hpacucli el disco en el slot 2 está defectuoso.

Si contamos con un contrato de mantenimiento con HP el proceso de pedido se facilita mucho. Solo tienes que dar el número de serie del servidor y el modelo del disco. Podemos verlo usando también las herramientas de HP PSP. En pocas horas recibes el disco e incluso te pueden enviar un técnico para que lo reemplace sin coste adicional. Usando hpasmcli podemos ver toda la información del servidor.

HP management CLI for Linux (v1.0)
Copyright 2004 Hewlett-Packard Development Group, L.P.

--------------------------------------------------------------------------
NOTE: Some hpasmcli commands may not be supported on all Proliant servers.
      Type 'help' to get a list of all top level commands.
--------------------------------------------------------------------------
hpasmcli> show server
System        : ProLiant ML350 G4p
Serial No.    : CZJ6XXXXX      
ROM version   : D19 02/15/2006
iLo present   : Yes
Embedded NICs : 1
 NIC1 MAC: XX:XX:XX:XX:XX:XX

Processor: 0
 Name         : Intel Xeon
 Stepping     : 10
 Speed        : 3000 MHz
 Bus          : 800 MHz
 Socket       : 1
 Level2 Cache : 2048 KBytes
 Status       : Ok

Processor: 1
 Name         : Intel Xeon
 Stepping     : 10
 Speed        : 3000 MHz
 Bus          : 800 MHz
 Socket       : 2
 Level2 Cache : 2048 KBytes
 Status       : Ok

Processor total  : 2

Memory installed : 4096 MBytes
ECC supported    : Yes

Arriba tenemos el número de serie del servidor. Y para ver la información del disco podemos utilizar de nuevo hpacucli:

[root@localhost hpacucli]# hpacucli ctrl slot=3 pd all show detail

Smart Array 641 in Slot 3

   array A (Failed)

      physicaldrive 1:2
         SCSI Bus: 1
         SCSI ID: 2
         Status: Failed
         Drive Type: Data Drive
         Interface Type: Parallel SCSI
         Transfer Mode: Sync Narrow
         Size: 146 GB
         Transfer Speed: 10 MB/Sec
         Rotational Speed: 10000
         Firmware Revision: HPB1
         Serial Number: XXXXXX
         Model: COMPAQ  BD14689BB9      
      physicaldrive 1:3
         SCSI Bus: 1
         SCSI ID: 3
         Status: OK
         Drive Type: Data Drive
         Interface Type: Parallel SCSI
         Transfer Mode: Ultra Narrow
         Size: 146.8 GB
         Transfer Speed: 20 MB/Sec
         Rotational Speed: 10000
         Firmware Revision: HPB1
         Serial Number: XXXXXX
         Model: COMPAQ  BD14689BB9      
      physicaldrive 1:4
         SCSI Bus: 1
         SCSI ID: 4
         Status: OK
         Drive Type: Data Drive
         Interface Type: Parallel SCSI
         Transfer Mode: Ultra Wide
         Size: 146.8 GB
         Transfer Speed: 40 MB/Sec
         Rotational Speed: 10000
         Firmware Revision: HPB4
         Serial Number: XXXXXX
         Model: COMPAQ  BD1468A4C5      
      physicaldrive 1:5
         SCSI Bus: 1
         SCSI ID: 5
         Status: OK
         Drive Type: Data Drive
         Interface Type: Parallel SCSI
         Transfer Mode: Ultra Wide
         Size: 146.8 GB
         Transfer Speed: 40 MB/Sec
         Rotational Speed: 15000
         Firmware Revision: HPB1
         Serial Number: XXXXXX
         Model: COMPAQ  BF1468AFEB

Si alguna vez habéis visto el precio de una buena controladora de discos os habréis dado cuenta que hay un gran salto entre las las controladoras de "andar por casa" y las de gama empresarial. La respuesta es muy sencilla "hacen magia": Hot Swap de discos, reconstrucción de conjuntos RAID de varios tipos de forma rápida y transparente... Tan fácil como extraer el disco defectuoso e introducir el nuevo, la controladora se encarga de todo.

Cambiando el disco

Si consultamos otra vez el estado de la controladora de discos podemos ver que se ha detectado correctamente el cambio y que el proceso de reconstrucción del RAID ha comenzado, cosa que ya notábamos en los indicadores led de los discos duros asociados al conjunto RAID.

[root@localhost hpacucli]# hpacucli ctrl all show config

Smart Array 641 in Slot 3     (sn: XXXX)

   array A (Parallel SCSI, Unused Space: 0 MB)

      logicaldrive 1 (273.5 GB, RAID 1+0, Recovering 1.6% complete)

      physicaldrive 1:2   (port 1:id 2 , Parallel SCSI, 146.8 GB, Rebuilding)
      physicaldrive 1:3   (port 1:id 3 , Parallel SCSI, 146.8 GB, OK)
      physicaldrive 1:4   (port 1:id 4 , Parallel SCSI, 146.8 GB, OK)
      physicaldrive 1:5   (port 1:id 5 , Parallel SCSI, 146.8 GB, OK)

Según la rapidez del disco y la controladora la reconstrucción tardará más o menos. En nuestro servidor con discos de 10K rpm ha tardado alrededor de 40 minutos, en caliente, ejecutándose en segundo plano mientras el servidor seguía funcionando con normalidad.

Resumen de órdenes de hpacucli
Resumen de órdenes de hpasmcli

1 comentario:

freness dijo...

Buen articulo.
En mi caso, un RAID 0 de 4 me fallo; tuve que recurrir a un servicio de recuperacion de datos en un laboratorio de nombre Onretrieval ya que el problema de dos discos del RAID no era logico. No podia resolverlo con algun software de recuperaciones...
Saludos.