Aumenta la calidad y la velocidad de la colaboración del equipo en caso de emergencia con Pandora FMS y las funciones de ChatOps de ilert

 
Pandora FMS es un excelente sistema de monitorización que ayuda a recopilar datos, detectar anomalías y monitorizar dispositivos, infraestructuras, aplicaciones y procesos de negocio. Sin embargo, se necesita más que solo monitorización para administrar todo el ciclo de vida de un incidente. ilert complementa a Pandora FMS en este sentido, al agregar funciones de alerta y gestión de incidentes. Si bien Pandora FMS detecta anomalías, ilert se asegura de que las personas adecuadas reciban las notificaciones correspondientes y puedan tomar medidas rápidamente. Esta combinación ayuda a reducir la media de tiempo de resolución (MTTR) y minimiza el posible impacto en el negocio.

Si bien Pandora FMS e ilert son bases confiables y sólidas para la resiliencia de tu sistema, la magia de la colaboración en equipo y las decisiones de personas reales ocurre en los chats. Este trío de herramientas es indispensable en el mundo empresarial actual. En este artículo, te daremos las mejores recomendaciones prácticas sobre la evolución de tus ChatOps y la mejora en la velocidad y la calidad de la respuesta a incidentes.

¿Qué es exactamente ChatOps?

ChatOps es un modelo que conecta personas, herramientas, procesos y automatización en un flujo de trabajo transparente. Este flujo generalmente se centra en las aplicaciones de chat e incluye bots, plugins y otros complementos para automatizar tareas y mostrar información.

Como modelo, ChatOps se traduce en que toda la comunicación del equipo y las acciones principales se llevan a cabo directamente en una herramienta de chat, lo que supone no tener que cambiar de un servicio a otro y permite organizar el trabajo desde una sola plataforma. Entre toda la variedad de herramientas de chat en el mercado, encontramos, sin duda, dos de las más utilizadas entre los equipos de TI. Esas son Slack y Microsoft Teams. Por arrojar algunos de los datos disponibles, tienen 18 millones y 270 millones de usuarios, respectivamente, y esos números siguen creciendo de forma exponencial en ambas compañías.

Como hay una amplia variedad de implementaciones del modelo ChatOps para el trabajo diario, nos concentraremos específicamente en cómo gestionar los incidentes a través de ChatOps.

ChatOps y gestión de incidentes: ¿De qué se trata exactamente?

La fusión de las plataformas de monitorización y gestión de incidentes con ChatOps es una manifestación de las operaciones modernas de TI que tienen como objetivo optimizar la eficiencia, la velocidad y la colaboración. Al combinar estos paradigmas, las organizaciones pueden capitalizar los puntos fuertes de las herramientas, lo que conlleva una resolución de incidentes simplificada y una mayor visibilidad operativa.

En el núcleo de ChatOps se encuentra la colaboración en tiempo real. Cuando surge un incidente, el tiempo es esencial. La
integración de ChatOps con una plataforma de gestión de incidentes garantiza que todos los miembros del equipo, ya sean desarrolladores, miembros de soporte o administración, estén al tanto del incidente de inmediato. A continuación, pueden diagnosticar, discutir y elaborar estrategias de forma colaborativa sobre los pasos de corrección directamente dentro del entorno de chat. Este tipo de colaboración instantánea entre equipos reduce el tiempo de resolución, lo que garantiza una interrupción mínima del servicio.

Estas son otras ventajas que ofrece ChatOps integrado en tiempos de respuesta a incidentes.

Flujo de información centralizado

 
ChatOps puede canalizar alertas, diagnósticos y otros datos relevantes desde varias fuentes en un solo canal de chat. Esta consolidación evita el cambio de contexto entre herramientas y garantiza que todos tengan acceso a la misma información.
 

Concienciación del equipo

 
Todas las personas involucradas en la respuesta al incidente tienen una visión compartida de la situación. Este contexto compartido reduce la falta de comunicación y garantiza que todos estén al tanto del estado del incidente y la estrategia de respuesta.
 

Descripción detallada

 
Cada acción tomada, comando ejecutado y mensaje enviado en un entorno de chat se registra, así como la hora en la que se produjo.
 

Responsabilidad

 
Con cada acción de chat atribuida a un miembro del equipo, existe una clara responsabilidad por cada decisión y comando. Esto es especialmente valioso en las revisiones posteriores al incidente para comprender los roles y las contribuciones durante el incidente.
 

Automatización

 
A través de los comandos de chat, aquellos que responden pueden activar flujos de trabajo automatizados predefinidos. Esto puede ir desde consultar el estado de un sistema hasta iniciar procesos de recuperación, acelerando así la resolución y reduciendo los esfuerzos manuales.
 

Accesibilidad

 
Dado que muchas plataformas de ChatOps están disponibles tanto en ordenadores de escritorio como en dispositivos móviles, quienes responden pueden participar en la gestión de incidentes incluso cuando estén lejos de su lugar de trabajo principal, lo que garantiza que la experiencia sea accesible en cualquier momento y en cualquier lugar.
 

9 Consejos sobre cómo sacar el máximo provecho de ChatOps en los tiempos de incidentes

 
ChatOps proporciona un entorno sinérgico que combina la comunicación, la automatización y la integración de herramientas, elevando la eficacia y la eficiencia de la respuesta a incidentes. Pero, ¿qué necesitan exactamente los equipos para descubrir todo el potencial de sus chats?

No profundizaremos en las instrucciones sobre cómo conectar Pandora FMS con la plataforma de gestión de incidentes ilert, pero puedes encontrar información relacionada en la librería de módulos de Pandora FMS y una guía paso a paso en a documentación de ilert. A continuación encontrarás una lista de las mejores prácticas de ChatOps para organizar tu flujo de trabajo cuando recibes una alerta.

ilert - Pandora FMS

ilert - Pandora FMS
 

Utiliza canales dedicados

 
Crea canales dedicados para incidentes específicos o alertas de monitorización. Esto contribuye a mantener la conversación centrada en el problema y evita el desorden de los canales generales. Y no olvides establecer un nombre claro para esos canales. En ilert, el título por defecto incluye el nombre de la herramienta de monitorización y el número generado automáticamente de una alerta, por ejemplo, pandorafms_alert_6182268.
 

Permite a los usuarios informar de incidentes a través de tu herramienta de chat

 
Permite que todos los usuarios informen incidentes a través de Slack o Microsoft Teams utilizando fuentes de alertas preestablecidas para cada canal. Este enfoque permite a los equipos tener un método estructurado para informar problemas relacionados con los servicios que ofrecen dentro de sus canales dedicados.
 

Decide qué canales deben ser privados

 
La mayoría de las herramientas de chat proporcionan funcionalidades para crear canales públicos que puede buscar toda la organización y pueden ser vistos por todos los miembros del equipo, y privados donde solo se puede invitar a personas específicas. Estas son algunas de las razones por las que es posible que desees crear un canal privado:
 

  • Exposición de datos confidenciales. Como información de identificación personal (PII), datos financieros o información de propiedad de la empresa.
  •  

  • Violaciones de la seguridad de datos. En el caso de un ciberataque o una brecha de seguridad, es importante limitar la información sobre el incidente a un equipo especializado. Esto evita el pánico innecesario y garantiza que los posibles adversarios no obtengan información de las discusiones públicas. Puedes leer más sobre cómo prevenir las filtraciones de datos en el artículo “Higiene cibernética: Evita violaciones de datos”.
  •  

  • Incidentes de alto riesgo. Si el incidente tiene posibles repercusiones graves para la organización, como un impacto financiero significativo o implicaciones regulatorias, podría ser conveniente restringir la discusión a las partes interesadas clave para garantizar una comunicación controlada y efectiva.
  •  

  • Evitar las especulaciones. Los canales públicos a veces pueden dar lugar a especulaciones o rumores descontrolados. Lo mejor es mantener las discusiones en privado en caso de incidentes graves, hasta que se aclaren los hechos y se decida cual es la narrativa oficial.

 

Mantén todas las comunicaciones en un solo lugar

 
Asegúrate de que todas las decisiones tomadas durante el incidente estén documentadas en el chat. Esto ayuda en las evaluaciones posteriores al incidente.
 

Fijar mensajes importantes

 
Utiliza las funciones de fijación para resaltar actualizaciones, decisiones, estados o recursos esenciales para que cualquiera pueda encontrarlos fácilmente.
 

Mantener informadas a las partes interesadas

 
Asegúrate de mantener a tu equipo informado y actualiza todas las comunicaciones de incidentes, incluidas las páginas de estado públicas y privadas, a tiempo.
 

Utiliza chats en la creación post mortem

 
Los registros de chat en tiempo real en ChatOps capturan un registro cronológico de eventos, discusiones, decisiones y acciones. Durante una creación post mortem, los equipos pueden revisar este conjunto de datos combinado para construir un cronograma integral de incidentes. Una cuenta tan detallada ayuda a identificar las causas fundamentales, identificar los cuellos de botella del proceso y resaltar las estrategias de respuesta efectivas e ineficaces.
 

Limpia y archiva regularmente

 
Para mantener la organización y reducir el desorden, archiva regularmente canales antiguos o conversaciones que ya no sean relevantes. Evita tener múltiples canales en tu lista, lo que acelerará el proceso cuando ocurra otro incidente.
 

Proporcionar capacitación regular para todos los miembros del equipo

 
Cuanto más familiarizado esté tu equipo con las herramientas, la estructura de alertas, las opciones de chat y las funciones, más rápido será el proceso cuando llegue el momento. Activa alertas de prueba y realiza sesiones de aprendizaje de incidentes para que todos los involucrados conozcan su papel en el ciclo de respuesta a incidentes.

Shares