Hace unos meses una de las controladoras de nuestra cabina de discos (MSA2312fc) falló. Teniendo en cuenta que la configuración del conjunto se llevó a cabo para asegurar la redundancia de todos los componentes y por tanto maximizar la tolerancia a fallos el sistema siguió funcionando, pero ahora teníamos un punto crítico. Un fallo en la otra controladora podría dejar inaccesibles los datos compartidos por el cluster y parar nuestro servicio algunas horas en el mejor de los casos.
Entonces es cuando comprendes que el precio que cuesta el dispositivo no es solo lo que vale el hardware que compras. Has adquirido también un cierto compromiso por parte de la empresa que va un poco más allá del simple "si falla te lo cambiamos".
La imagen muestra la parte trasera de una MSA2312fc:
- Interruptor de la fuente de alimentación
- Conectores FC
- Conector para la administración en modo local
- Ethernet
- Puerto de servicio
- Conector para el cable de expansión.
Me pongo en contacto con HP para comunicar la incidencia. Abren un caso de soporte y en menos de una hora me llama uno de sus técnicos. Quizás sea la primera vez que hablo con un técnico que conoce perfectamente el dispositivo, comprende lo que le dices y se ve interesado en tu problema. Diagnostica el problema y sin pensarlo dos veces se ofrece a enviarme otra controladora (estamos hablando de un componente que supera los 3000€). Tengo la controladora en el trabajo el día siguiente.
Primer intento fallido.
El firmware de la controladora es anterior a la que hay instalada en producción. Se supone que la controladora en producción debe actualizar el firmware de la otra para que compartan la misma versión de código. Cambiamos la controladora. Debe recuperarse en unos minutos, pero no lo hace. El led FRU OK parpadea y obtenemos mensajes de fallo en el handshake con la otra controladora. Llamamos de nuevo a HP.
A la segunda va la vencida.
Hablo con el mismo técnico que se extraña y nos manda otra controladora. Ya tenemos en el trabajo 6000€ en material. El día siguiente la tenemos en la oficina.
Extraemos la primera controladora que nos enviaron que continúa intentando inicializar la comunicación con la controladora en producción. La nueva controladora lleva instalada una versión del firmware más avanzada que la de producción, lo cual no nos tranquiliza ya que la que debe actualizar ahora es la controladora sobre la que recae el control de todos los datos del cluster, nuestro punto crítico.
Utilizamos la opción "partner upgrade" para garantizar que las controladoras se actualizarán mutuamente en caso de ser necesario. El proceso comienza al fijar la nueva controladora en el slot de la cabina:
- La controladora B (la que estamos cambiando) lee los datos de configuración de la controladora A y asume el control cuando el led FRU OK se detiene. Los switches de fibra óptica no bloquean el tráfico con la nueva controladora ya que las zonas no se configuraron con base al WWN de los dispositivos conectados a ellos (esto lo explicaremos en otro post), por lo que los datos siguen siendo accesibles.
- La controladora B inicia la actualización de la controladora A, por lo que le anula momentáneamente el acceso al almacenamiento aunque conservamos el acceso de administración. El proceso dura alrededor de 20 minutos en los que se suceden los mensajes informando del estado de actualización. Mientras tanto el led FRU OK sigue parpadeando.
- El led FRU OK se detiene y el sistema se recupera.
Un resumen del proceso de sustitución que funcionó:
- En la administración activamos la opción Partner Upgrade.
- Desconectamos todo de la controladora rota: Fibra óptica, cable de ampliación en caso de que tengamos varias cabinas conectadas.
- Sacamos la controladora defectuosa.
- Introducimos la controladora nueva. Ojo! debe insertarse completamente en el slot en menos de 10 segundos.
- Conectamos todo para que la controladora empiece con el proceso de actualización de firmware en caso de que lo necesite.
- Esperamos con los dedos cruzados.
No hay comentarios:
Publicar un comentario