Anuncios: Resumen Incidente 19-20 Junio Servidor 013 Hera

Publicado: 20/06/2024

Informe de Incidente Servidor Hera 013 - Los Angeles, 19-20 Junio.

INFORME RESUMIDO (Actualizado 18:00 23 Junio):
El Servidor Hera 013 en Los Angeles tuvo una falla fatal el dia 19 de Junio a las 18hrs Chile.
Se hicieron todos los procesos posibles por recuperar acceso, sin éxito
Se inició el proceso de restauracion de emergencia desde nuestros respaldos entre las 22:45PM del 19 de Junio y las 14:00PM del dia 20 de Junio, con éxito
Si usas nuestros DNS no debes hacer cambios.
Si usas DNS Externos o CloudFlare, debes actualizar la IP a 38.92.48.175
Si tu sitio presenta un error fatal o critico, puedes probar bajando la version de PHP de 8.1 a 7.4, o avisarnos para ayudarte.
Hay una perdida de informacion de 1 dia, ACTUALIZACION: Se hicieron todos los intentos posibles, pero la informacion almacenada en los NVMe se considera perdida.

Para dudas o soporte, problemas o lo que sea, no esperes y escribe a [email protected] .
El dia 24 de Junio se aplicará una extensión de 1 mes sin costo a todos los usuarios del Servidor 013 Hera. Esta extensión es automatica sin necesidad de solicitarla.



INFORME DETALLADO:
El dia 19 de Junio, cerca de las 18:00 Horas Chile, el Servidor 013 Hera en LA, presentó una desconexión, alertada por nuestro Monitor de Uptime.
De inmediato comenzamos los procesos regulares para recuperar la conexion al Servidor, sin exito. Cerca de las 20:00 un Tecnico del Datacenter fisicamente inspecciona y realiza mantenimiento al Servidor, nuevamente sin éxito.
El problema se escala y hacen revisiones de hardware, en donde se identifica que los discos duros (NVMe) del Servidor han fallado

El mismo 19 de Junio a las 22:00 Horas Chile, comenzamos nuestro proceso de Emergencia.

Nuestro Proceso de emergencia, está pensando para una catastrofe, una falla fatal de un Servidor, un Incendio, o cualquier caso extremadamente grave, en donde un Servidor nuestro es irreparable, o su reparación/revisión puede tardar más de 24horas.

Cerca de las 22:45, el Proceso de restauración comienza, en donde vamos cuenta por cuenta, restaurando desde nuestros respaldos más recientes que son del día 18 de Junio entre als 21hrs y 23hrs Chile.

Durante toda la noche, y hasta las 05:00 AM Chile, logramos hacer el proceso de restauración de todas las cuentas de nuestros clientes afectados en el Servidor, sin embargo, siempre en estos procesos masivos, quedan cuentas que fallaron o que levantaron alertas y deben ser revisadas manualmente y en detalle, archivos, correos y bases de datos.

Desde las 05:00 AM a las 14:00 PM, hicimos la revisión, reparación o restauración de cerca de 80 cuentas que levantaron alertas, asegurandonos de dejar todas las cuentas funcionando correctamente.

Puntos Importantes:
1- El Servidor nuevo es el CP012, cuya versión de PHP por defecto es más nueva, es la 8.1 . Por lo que si tu sitio es antiguo y da error, puedes bajar la version de PHP a 7.4 en el Cpanel, o mejor aún, puedes contactarnos y revisaremos tu sitio para arreglarlo sin problemas.
2- Los DNS se mantienen, si usabas nuestros DNS, tus correos y sitios siguen funcionando.
3- Si usas DNS Externos o CloudFlare, debes actualizar la IP a la nueva que es 38.92.48.175 .
4- Si eres un Reseller y usas DNS Personalizados, debes actualizar las IPs a 38.92.48.175 y 38.92.48.176 .
5- El Servidor CP012 tendrá una carga alta por unos pocos dias, mientras levantamos un nuevo Servidor y migramos las cuentas más pesadas y consumidoras de CPU al nuevo Servidor. Esto se hará estos dias.
6- Y más importante. Este incidente, en el cual el Servidor 013 Hera "murió", y tuvimos que usar nuestro último y más reciente respaldo, hay una perdida de información, Es decir, la informacion entre el respaldo usado, del 18 de Junio entre 21-23hrs y el momento de la falla 19 Junio 18hrs, esa información, está Temporalmente perdida.

Actualizacion Final:
No fue posible recuperar la informacion entre el 18 y 19 de Junio, por lo que efectivamente este incidente causó perdida de información.
Debido a este Incidente, hemos procedido a extender todos los Servidores del Servidor 013 Hera 1 mes, a modo de compensación por el tiempo offline.