Shit happens!! Si, solo es cuestión de tiempo. Tarde o temprano todo aparato electrónico acaba fallando, incluso si es de buena calidad. Ayer, cuando me disponía a cambiar la cinta de copia de seguridad de uno de nuestros servidores me di cuenta de que uno de los discos duros tenía iluminado el led de fallo.
Recuerdo la primera vez que nos falló un disco en el trabajo. Fue en un servidor clónico, muy potente, poco después de comprarlo. Entonces todas nuestras aplicaciones estaban alojadas en este servidor. Aprendimos mucho aquella vez: es mejor invertir en un servidor que te dé garantías y en un buen servicio técnico que en uno tipo "hacendado" por muy potente que sea, lo importante que es poder confiar en tu sistema de copias de seguridad, que debes prever situaciones de emergencia, que andar con pies de plomo y tener todo medianamente bien atado es imprescindible si quieres ahorrarte muchos dolores de cabeza porque LA GENTE SOLO SE ACUERDA DE " EL INFORMÁTICO" CUANDO ALGO FALLA. Por eso sustituimos esa máquina por nuestro primer HP Proliant, ahora tenemos 15.
No quiero hacer de comercial de HP, seguro que Dell, Sun o cualquier marca de renombre tienen buen hardware, proveen de herramientas software adecuadas y disponen de un servicio técnico de calidad.
Bueno, voy al grano. Se nos ha roto uno de los discos que, junto con otros 3, formaba parte de un conjunto RAID 1+0. Como con esta configuración RAID podemos "perder" un disco, todo el sistema sigue funcionando. Los discos para estos sistemas vienen incrustados en una especie de chasis que facilita su manejo y además da información del estado de los mismos por medio de una serie de leds.
Podemos confirmar esta información usando una de las herramientas del paquete Proliant Support Pack hpacucli. La sintaxis es la siguiente:
Recuerdo la primera vez que nos falló un disco en el trabajo. Fue en un servidor clónico, muy potente, poco después de comprarlo. Entonces todas nuestras aplicaciones estaban alojadas en este servidor. Aprendimos mucho aquella vez: es mejor invertir en un servidor que te dé garantías y en un buen servicio técnico que en uno tipo "hacendado" por muy potente que sea, lo importante que es poder confiar en tu sistema de copias de seguridad, que debes prever situaciones de emergencia, que andar con pies de plomo y tener todo medianamente bien atado es imprescindible si quieres ahorrarte muchos dolores de cabeza porque LA GENTE SOLO SE ACUERDA DE " EL INFORMÁTICO" CUANDO ALGO FALLA. Por eso sustituimos esa máquina por nuestro primer HP Proliant, ahora tenemos 15.
Lavadora o servidor?? |
No quiero hacer de comercial de HP, seguro que Dell, Sun o cualquier marca de renombre tienen buen hardware, proveen de herramientas software adecuadas y disponen de un servicio técnico de calidad.
Bueno, voy al grano. Se nos ha roto uno de los discos que, junto con otros 3, formaba parte de un conjunto RAID 1+0. Como con esta configuración RAID podemos "perder" un disco, todo el sistema sigue funcionando. Los discos para estos sistemas vienen incrustados en una especie de chasis que facilita su manejo y además da información del estado de los mismos por medio de una serie de leds.
Disco defectuoso |
[root@localhost hpacucli]# hpacucli ctrl all show config Smart Array 641 in Slot 3 (sn: XXXXX) array A (Parallel SCSI, Unused Space: 0 MB) logicaldrive 1 (273.5 GB, RAID 1+0, Interim Recovery Mode) physicaldrive 1:2 (port 1:id 2 , Parallel SCSI, 146 GB, Failed) physicaldrive 1:3 (port 1:id 3 , Parallel SCSI, 146.8 GB, OK) physicaldrive 1:4 (port 1:id 4 , Parallel SCSI, 146.8 GB, OK) physicaldrive 1:5 (port 1:id 5 , Parallel SCSI, 146.8 GB, OK)
Como vemos en la salida de hpacucli el disco en el slot 2 está defectuoso.
Si contamos con un contrato de mantenimiento con HP el proceso de pedido se facilita mucho. Solo tienes que dar el número de serie del servidor y el modelo del disco. Podemos verlo usando también las herramientas de HP PSP. En pocas horas recibes el disco e incluso te pueden enviar un técnico para que lo reemplace sin coste adicional. Usando hpasmcli podemos ver toda la información del servidor.
HP management CLI for Linux (v1.0) Copyright 2004 Hewlett-Packard Development Group, L.P. -------------------------------------------------------------------------- NOTE: Some hpasmcli commands may not be supported on all Proliant servers. Type 'help' to get a list of all top level commands. -------------------------------------------------------------------------- hpasmcli> show server System : ProLiant ML350 G4p Serial No. : CZJ6XXXXX ROM version : D19 02/15/2006 iLo present : Yes Embedded NICs : 1 NIC1 MAC: XX:XX:XX:XX:XX:XX Processor: 0 Name : Intel Xeon Stepping : 10 Speed : 3000 MHz Bus : 800 MHz Socket : 1 Level2 Cache : 2048 KBytes Status : Ok Processor: 1 Name : Intel Xeon Stepping : 10 Speed : 3000 MHz Bus : 800 MHz Socket : 2 Level2 Cache : 2048 KBytes Status : Ok Processor total : 2 Memory installed : 4096 MBytes ECC supported : YesArriba tenemos el número de serie del servidor. Y para ver la información del disco podemos utilizar de nuevo hpacucli:
[root@localhost hpacucli]# hpacucli ctrl slot=3 pd all show detail Smart Array 641 in Slot 3 array A (Failed) physicaldrive 1:2 SCSI Bus: 1 SCSI ID: 2 Status: Failed Drive Type: Data Drive Interface Type: Parallel SCSI Transfer Mode: Sync Narrow Size: 146 GB Transfer Speed: 10 MB/Sec Rotational Speed: 10000 Firmware Revision: HPB1 Serial Number: XXXXXX Model: COMPAQ BD14689BB9 physicaldrive 1:3 SCSI Bus: 1 SCSI ID: 3 Status: OK Drive Type: Data Drive Interface Type: Parallel SCSI Transfer Mode: Ultra Narrow Size: 146.8 GB Transfer Speed: 20 MB/Sec Rotational Speed: 10000 Firmware Revision: HPB1 Serial Number: XXXXXX Model: COMPAQ BD14689BB9 physicaldrive 1:4 SCSI Bus: 1 SCSI ID: 4 Status: OK Drive Type: Data Drive Interface Type: Parallel SCSI Transfer Mode: Ultra Wide Size: 146.8 GB Transfer Speed: 40 MB/Sec Rotational Speed: 10000 Firmware Revision: HPB4 Serial Number: XXXXXX Model: COMPAQ BD1468A4C5 physicaldrive 1:5 SCSI Bus: 1 SCSI ID: 5 Status: OK Drive Type: Data Drive Interface Type: Parallel SCSI Transfer Mode: Ultra Wide Size: 146.8 GB Transfer Speed: 40 MB/Sec Rotational Speed: 15000 Firmware Revision: HPB1 Serial Number: XXXXXX Model: COMPAQ BF1468AFEB
Si alguna vez habéis visto el precio de una buena controladora de discos os habréis dado cuenta que hay un gran salto entre las las controladoras de "andar por casa" y las de gama empresarial. La respuesta es muy sencilla "hacen magia": Hot Swap de discos, reconstrucción de conjuntos RAID de varios tipos de forma rápida y transparente... Tan fácil como extraer el disco defectuoso e introducir el nuevo, la controladora se encarga de todo.
Cambiando el disco |
Si consultamos otra vez el estado de la controladora de discos podemos ver que se ha detectado correctamente el cambio y que el proceso de reconstrucción del RAID ha comenzado, cosa que ya notábamos en los indicadores led de los discos duros asociados al conjunto RAID.
[root@localhost hpacucli]# hpacucli ctrl all show config Smart Array 641 in Slot 3 (sn: XXXX) array A (Parallel SCSI, Unused Space: 0 MB) logicaldrive 1 (273.5 GB, RAID 1+0, Recovering 1.6% complete) physicaldrive 1:2 (port 1:id 2 , Parallel SCSI, 146.8 GB, Rebuilding) physicaldrive 1:3 (port 1:id 3 , Parallel SCSI, 146.8 GB, OK) physicaldrive 1:4 (port 1:id 4 , Parallel SCSI, 146.8 GB, OK) physicaldrive 1:5 (port 1:id 5 , Parallel SCSI, 146.8 GB, OK)
Según la rapidez del disco y la controladora la reconstrucción tardará más o menos. En nuestro servidor con discos de 10K rpm ha tardado alrededor de 40 minutos, en caliente, ejecutándose en segundo plano mientras el servidor seguía funcionando con normalidad.
Resumen de órdenes de hpacucli
Resumen de órdenes de hpasmcli
1 comentario:
Buen articulo.
En mi caso, un RAID 0 de 4 me fallo; tuve que recurrir a un servicio de recuperacion de datos en un laboratorio de nombre Onretrieval ya que el problema de dos discos del RAID no era logico. No podia resolverlo con algun software de recuperaciones...
Saludos.
Publicar un comentario