Anuncios: Resumen incidente CP004 28 Abril a 03 Mayo

Publicado: 05/05/2025

Entre los dias Lunes 28 de Abril y Sabado 03 de Mayo, estuvimos trabajando en un incidente de larga duración en el Nuevo Servidor CP004 en nuestro Datacenter PA.

Resumen:

El problema se origina el Lunes 28 de Abril a las 10:55 AM (Hora Chile), y en general significó reinicios cortos durante dias, incluyendo una mantención de urgencia el dia 29 de Abril. Cuando el problema se volvió más frecuente, el día 02 de Mayo, realizamos varios procedimientos para recuperar la estabilidad, identificar la causa del problema para darle una solución permanente. El dia Sabado 03 de Mayo, a las 04:22 AM y a las 06:28 AM, se realizan dos mantenciones, donde tuvimos que desconectar fisicamente el Servidor. En estas pruebas se confirmó que 2 modulos de la memoria RAM están fallando, causando los problemas hasta ahora vistos. 

Logramos enviar repuestos de las memorias RAM el mismo dia, y fisicamente hicimos el cambio entre las 16:30 PM y las 17:35 PM, del dia Sabado 03 de Mayo. Posterior a eso, el servidor no ha tenido problemas, fallas o reinicios. Damos este grave y largo incidente, por superado.


Detalle del Incidente del Servidor CP004:

2 May 16:37 - 2 May 17:35  58 min  Se realiza compra y envío express de memorias RAM de reemplazo. Se desconecta el servidor para el reemplazo físico, esperando mejorar fiabilidad, velocidad y uptime.
2 May 06:28 - 2 May 07:53  1 hr 25 min  Se desconecta el servidor para pruebas de hardware. Se confirman inconsistencias en las memorias RAM y se agenda el envío de nuevas unidades al Datacenter el 5 de mayo.
2 May 04:22 - 2 May 06:28  2 hr 6 min  Se desconecta el servidor para pruebas de software y hardware con el objetivo de una solución definitiva.
2 May 02:45 - 2 May 02:49  4 min  Se realiza reinicio posterior a modificaciones.
1 May 17:42 - 1 May 17:46  4 min  Se realiza reinicio posterior a modificaciones.
1 May 17:34 - 1 May 17:42  8 min  Se investiga reinicio.
1 May 15:48 - 1 May 15:52  4 min  Se investiga reinicio.
1 May 13:20 - 1 May 13:24  4 min  Se investiga reinicio.
1 May 07:34 - 1 May 07:38  4 min  Se realiza reinicio posterior a modificaciones.
1 May 05:07 - 1 May 05:14  7 min  Se investiga reinicio.
30 Apr 10:21 - 30 Apr 10:53  32 min  Se investiga reinicio, guardando registros y logs para identificar la causa de la falla del servidor.
29 Apr 04:50 - 29 Apr 05:13  23 min  Se investiga reinicio, confirmando un problema en el servidor e iniciando una investigación detallada.
29 Apr 00:51 - 29 Apr 00:57  6 min  Se investiga reinicio.
28 Apr 16:02 - 28 Apr 17:12  1 hr 10 min  Se realiza una reparación vía software del servidor, que sufrió un crash fatal.
27 Apr 09:55 - 27 Apr 10:03  8 min  Se investiga reinicio.


Lamentamos los inconvenientes, y ante ver cualquier problema en su sitio o correo, no dude en escribir a [email protected] para asistirle lo antes posible.