Comunidad

¿Qué es un incidente post mortem informático? ¿Cómo monitorizarlo?

octubre 29, 2019

¿Qué es un incidente post mortem informático? ¿Cómo monitorizarlo?

This post is also available in : Inglés

¡Un incidente post mortem informático contiene lecciones muy importantes!

En lo particular, me gustó mucho el artículo que escribió nuestra compañera Sara Martín en el blog de Pandora FMS acerca del manejo de las crisis en la tecnología de la información, y resumo (copia literal) los pasos:

  1. Saber pedir disculpas.
  2. Difundir el problema e incidir en que se está solucionando.
  3. Ser transparentes.
  4. Una buena comunicación.
  5. Después de la crisis.

Incidente post mortem

incidente post mortem 1

Leyenda: Linterna de Jack (https://commons.wikimedia.org/wiki/File:Jack-o-lantern.svg)

Este artículo arranca partiendo desde el punto número cinco: cuando pasado cierto tiempo de recuperación la crisis se ha solucionado o resuelto y se convierte en un incidente post mortem. Estas dos palabras provienen del idioma latín y significa “después de muerto”. Estamos en octubre, mes de la celebración de la noche de brujas, y si os asusta un poco también podréis usar la eufemística palabra “retrospectiva”. Pero seamos sinceros: ¿Qué piensan ustedes cuando una reunión de trabajo comienza con «veamos en retrospectiva…»? ¡Una serie de bostezos vienen a continuación! En cambio, es más «divertido» usar las palabras «incidente post mortem», pues le añade misterio e interés al asunto…

El campo de la monitorización es apenas un área para el aprendizaje a partir de errores; no en vano, la Agencia Espacial Estadounidense (NASA) tiene su propia sección «Mi mejor error» en el blog de la APPEL (Academia de Liderazgo en Programas/Proyectos e Ingeniería). Como es de esperarse, a las grandes empresas también les pueden sobrevenir problemas; ya relaté un caso de una compañía gigante donde siguieron (aunque no en el mismo orden) el manejo de una crisis informática, de la cual salieron muy airosos. Dicho incidente, en realidad, no representó un peligro cierto para la reputación de la compañía; sin embargo, sirvió para revisar procedimientos y técnicas de trabajo, lo cual muy probablemente fue hecho por personal que en el momento del incidente había dejado de trabajar allí hace tiempo.

Otros casos son más serios, como lo sucedido a una aerolínea en 2017; en este último ejemplo se hace patente el incidente post mortem porque las decisiones fueron tomadas –o más bien dejaron de ser tomadas– por la alta gerencia. Mi punto es que, ya sean empleados o la alta gerencia, para un incidente post mortem buscamos establecer qué causó o qué conjunto de causas desembocaron en un problema, sin buscar culpables o responsables. Esto no significa que otros entes, por ejemplo gubernamentales o incluso una asamblea de accionistas, realicen su propia investigación; si documentamos debidamente ni siquiera tendrán que llamarnos o comunicarse con nosotros. Veamos.

Experiencia es el nombre que le damos a nuestros propios errores

incidente post mortem 2

Leyenda: Presume siempre de buena fe en un incidente post mortem (https://commons.wikimedia.org/wiki/File:Wiki-halo.png)

Unos cuantos consejos para enfocarse en un incidente post mortem:

  • Como en la Wikipedia, asumamos siempre que se actuó de buena fe.
  • Sistemas complejos (y más ahora que tenemos multitud de dispositivos con muy diversos sistemas operativos) hacen difícil que haya una causa raíz; investiguemos qué sucedió realmente, identifiquemos las diversas causas, no los culpables.
  • Tomemos nuestro tiempo, esto es una maratón, no una carrera de cien metros. Los seres humanos somos reacios al cambio y tardamos mucho en reconocer nuestros errores, tendemos a ocultarlos o, peor aún, culpar a otros de nuestros desaciertos.

Monitorización de incidentes post mortem

Un administrador de sistemas que lleve suficiente tiempo trabajando para una empresa u organización es capaz de imaginar cuáles serían los casos y condiciones que merecen configurar una alerta en Pandora FMS.

Sí, lo sabemos, muchos otros software tienen también esa característica, pero aquí tenemos una poderosa herramienta para Centros de Atención al Usuario (CAU), como es Integria IMS. Pandora FMS trae preconfiguradas las acciones y comandos necesarios para realizar esta integración. Incluso si el problema es reiterado podremos hacerle su incidente post mortem, asignando a otros responsables que se aboquen al caso y le hagan seguimiento a largo plazo, y no solo eso: con Integria IMS podremos generar rápidamente informes con los puntos débiles de su servicio, podremos agregar usuarios por roles de perfiles y grupos con la información obtenida desde Pandora FMS. Esto facilita, a futuro, el agregar terceras personas o empresas a nuestros incidentes post mortem.

Otro punto que es importante denotar es la línea de tiempo ocurrida en nuestro incidente post mortem. Para ello, Pandora FMS tiene una excelente recolección de registros, los cuales podremos ver en consolas creadas para tal efecto, y si aún esto no es suficiente podremos hacer búsquedas directas en ElasticSearch sobre los datos allí almacenados por Pandora FMS. ¡Son muchas las combinaciones y métodos de trabajo posibles para la tarea a realizar!

Incidente post mortem en los días soleados

Para todo el planeta Tierra el sol es vida. Un día soleado es un día feliz en nuestra mente, y un incidente post mortem puede -y debe- darse cuando un proyecto llegó a feliz término o con resultados que sobrepasaron ampliamente las expectativas o cálculos.

De nuevo, como seres humanos pensamos siempre en lo malo, en lo negativo y no nos detenemos a pensar cómo sucedieron los buenos eventos o resultados para repetirlos a futuro o reutilizar partes o componentes de ellos en otros proyectos. ¡Seamos optimistas!

Antes de despedirnos, recuerda que Pandora FMS es un software de monitorización flexible, capaz de monitorizar dispositivos, infraestructuras, aplicaciones, servicios y procesos de negocio.

¿Quieres conocer mejor qué es lo que Pandora FMS puede ofrecerte? Descúbrelo entrando aquí.

Si cuentas con más de 100 dispositivos para monitorizar puedes contactar con el equipo de Pandora FMS a través del siguiente formulario.

Además, recuerda que si tus necesidades de monitorización son más limitadas tienes a tu disposición la versión OpenSource de Pandora FMS. Encuentra más información aquí.

No dudes en enviar tus consultas. ¡El equipazo de Pandora FMS estará encantado de atenderte!


Written by:



Leave a comment

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.