Hello world!
septiembre 13, 2017
Servidores Zombie
octubre 27, 2017

¡Se está mojando el Data Center!

40 TB, CRM, SAP, Exchange y los respaldos… ahogados


Hoy se cumplen 3 años de la Historia de Terror más escalofriante que he vivido. Todo empezó un sábado y terminó 5 días después, con al menos 3 o 4 kilos más de peso y con 80 horas menos de sueño. Eso de que los directores no quieren que salgas de la oficina hace que te lleven toda clase de comida cada 6 horas. Son de esas historias que parecen ficticias, pero yo, como Administrador de Almacenamiento, no quisiera volver a enfrentar.
A las 5:30 a.m. de un sábado recibo una llamada del NOC, reportando que no podían entrar a un servicio. La conversación fue más o menos así:  

AGENTE DEL NOC: ¿Ingeniero Tello?
YO MERO - Si, ¿qué pasó?
AGENTE DEL NOC: No se puede acceder a "X" plataforma y los clientes ya están reportando problemas
YO MERO: Ok. Dame un segundo. (Tiempo muerto en lo que me dirijo a la sala de mi casa y enciendo la laptop)
AGENTE DEL NOC: Aunque no sé si tenga algo que ver…
YO MERO: ¿Qué cosa?
AGENTE DEL NOC: ¡Que se está mojando el Data Center!
YO MERO: ¡Por ahí hubieras empezado!
 
Y ASÍ INICIÓ TODO

Llegué a la oficina y al entrar al Data Center vi al personal de mantenimiento y a la guardia nocturna de ingeniería, como locos, cargando plásticos para tapar los racks. Revisé y lo único mojado era un EVA4400 de HP, donde teníamos más de 40 TB de datos, repito DE DATOS, no de espacio crudo y aproximadamente 96 discos físicos distribuidos en 8 cajas de discos.

Aquí estaba lo principal del negocio: CRM, Inventarios (SAP), desarrollo hecho en casa para RH, nuestra plataforma de visualización, (en aquel entonces parte de la granja de 5 servidores vSphere 4) y Exchange 2010, que representaba una parte del correo institucional, pues la otra parte se encontraba en un Dell, un equipo recién adquirido y casi sin utilizar, quien fue el héroe en esta historia.
Lo más preocupante de todo era que los respaldos también estaban en el equipo mojado ¿por qué? .Porque en el área consideramos tener los respaldos en la oficina, a no tenerlos, y a falta de presupuesto para la plataforma de respaldos, pues nos vimos proactivos. Además de que no contábamos con ningún otro almacenamiento lo suficientemente grande para poder satisfacer esta necesidad.
En un momento dado, me dirigí hacia la parte trasera de un rack y mientras hacía una inspección física, empezaron a salir chispas de las fuentes de poder. Sin pensarlo apagué los PDU para evitar un incendio.

RECUENTO DE LOS DAÑOS
Si no teníamos presupuesto para respaldos, podrán imaginar que tampoco teníamos un DRP, por lo que todo lo que ocurrió después se definió al momento.

El recuento de los daños fue la tarea más fácil del día: "No funciona ninguno de los servicios principales del negocio".
Empecé por el correo y después de más de 10 horas recuperarlo. A continuación, les muestro uno de los primeros correos en salir.

“Estimados:
El incidente de hoy afectó los servicios de BD de xxxx en un 100%. En este momento, se encuentra el plan de restablecimiento de servicios. Esta afectación se estima que durará entre 6 y 18 horas o más, por el daño físico de los equipos de almacenamiento y por la dificultad de restaurar los datos. La afectación fue de más de 40 TB de datos.”

Mientras esto sucedía, un compañero buscaba refacciones y yo solicitaba soporte de HP-UX, pues a pesar de ya tener discos nuevos para el servidor principal de BD, éste se negaba a quitar las referencias del grupo de discos (LVM).
Ya con el experto en sitio, la solución fue sencilla. En esas fechas estábamos por migrar a Siebel, por lo que diario hacíamos un respaldo y lo restaurábamos en un ambiente de migración y en un ambiente de desarrollo. Gracias a eso pudimos hacer otro respaldo del ambiente de desarrollo y restaurarlo en producción, y así recuperar una de las plataformas más críticas del negocio: venta y cobranza.

¿CÓMO VAMOS A SECAR LOS DISCOS?

Nos enfrentábamos a una tarea nunca antes realizada: desmontar y secar los discos para saber cuáles se podían recuperar. Aunque sólo se habían mojado 4 enclosures, la temperatura en el Data Center conserva muy bien la humedad y ese era un grave problema. \
Recuerdo que etiquetamos todos los discos, todos los enclosures y todas las conexiones. Empezamos a desmontar y conforme sacaba los discos recuerdo cómo escurrían agua y seguía diciéndome a mí mismo: "No nos vamos a recuperar de esta. ¿Cómo vamos a recuperar la información? Y lo que es peor ¿cómo vamos a secar los discos?

GRANDES IDEAS

 Tuvimos la clásica idea de comprar costales de arroz, sumergir los discos y ponerlos al sol, pero esto tomaría demasiado tiempo y al Director General no le iba a gustar, hasta que a alguien se le ocurrió utilizar un deshumidificador. Esta fue la opción, sin embargo, no sería posible deshumidificar el Data Center completo, por lo que llevamos los discos a un cuarto de 4x4 metros, pero seguía siendo una habitación grande.
Procedimos, entonces, a construir casitas de cartón; colocamos los discos y un deshumidificador. Fueron 3 casitas en total. Una de ellas contenía 4 enclosures, y en las otras 2 casitas se pusieron 48 discos. Varias horas después, apagamos los equipos y descubrimos que entre todos los deshumidificadores se absorbieron casi 2 litros de agua.

RECUPERACIÓN

Una vez secos los discos, los montamos y los conectamos. Al encenderlos, sentimos gran ansiedad, pero fue grato ver que sólo algunos mostraron alarma en rojo. Mientras los discos estaban en proceso de rebuild, el cual tomó toda la madrugada del domingo y parte del lunes, empezamos a reconstruir los grupos de discos principales en el servidor Dell, aquel que era nuevo y estaba casi sin utilizar.
Cuanto terminamos, se iniciaron todos los servicios y se encendieron las máquinas virtuales, la perdida hasta al momento era de 1 BD de una plataforma crítica y máquinas virtuales de un cluster de Oracle VM, entre las cuales, estaban las máquinas del sitio web de la empresa.
El grupo de discos donde estos datos radicaban seguía en proceso de rebuild, entonces movimos los 40 TB de datos de un almacenamiento a otro.

Para el lunes por la tarde, los datos que aún no se reconstruían, ya no se iban a poder restaurar. Decidimos, entonces, empezar con la instalación de varias máquinas Linux, para volver a montar el sitio. La BD perdida la recuperamos con el proveedor.
Llegué de nuevo a mi casa hasta el martes en la madrugada y todos los días continué moviendo maquinas, cambiándolas de un almacenamiento a otro. Al finalizar la semana, casi todo se había migrado y fue cuando descubrimos el motivo del incidente: un sanitario tapado ubicado en el piso de arriba.
El agua se filtró al Centro de Datos y se abrió camino por encima de varios racks de misión crítica del área de ingeniería, pero como si se tratara de la película de "Destino Final", el agua decidió caer en los servidores de TI, justo en el punto exacto y, además, se las ingenió para no caer en un switch de red no crítico.

Esta vivencia nos dejó una experiencia invaluable. Después del agua, ya nada nos asusta.

  

Texto editado basado en una Historia de Terror real.
Autor: Ing. Mario Tello. Puede ver la historia original aquí

Deja un comentario

Tu dirección de correo electrónico no será publicada.