Augmentez la qualité et la rapidité de la collaboration d’équipe en cas d’urgence avec les fonctionnalités ChatOps de Pandora FMS et d’ilert

 
Pandora FMS est un excellent système de supervision qui permet de collecter des données, de détecter des anomalies et de superviser les appareils, les infrastructures, les applications et les processus métier. Cependant, plus que la supervision seule est nécessaire pour gérer l’ensemble du cycle de vie des incidents. ilert complète Pandora FMS en ajoutant des capacités d’alerte et de gestion des incidents. Alors que Pandora FMS détecte les anomalies, ilert s’assure que les bonnes personnes sont averties et peuvent agir rapidement. Cette combinaison permet de réduire le temps moyen de résolution (MTTR) et de minimiser l’impact de l’entreprise.

Alors que Pandora FMS et ilert sont des bases fiables et robustes pour la résilience de votre système, la magie de la collaboration en équipe et des décisions réelles se produit dans les chats. Ce trio d’outils est indispensable dans le monde des affaires d’aujourd’ hui. Dans cet article, nous fournirons des recommandations pratiques sur l’évolution de vos ChatOps et l’amélioration de la rapidité et de la qualité de la réponse aux incidents.

Qu’est-ce que ChatOps exactement ?

 
ChatOps est un modèle qui connecte les personnes, les outils, les processus et l’automatisation dans un flux de travail transparent. Ce flux est généralement centré sur les applications de chat et comprend des bots, des plugins et d’autres modules complémentaires pour automatiser les tâches et afficher les informations.

En tant que modèle, ChatOps signifie que toute la communication de l’équipe et les actions de base se déroulent directement dans un outil de chat, ce qui élimine la nécessité de basculer entre les services et permet d’orchestrer le travail à partir d’une seule plate-forme. Comme il existe une variété d’outils de chat sur le marché, il y en a, à coup sûr, deux des plus couramment utilisés par les équipes informatiques. Ce sont Slack et Microsoft Teams. Quant aux données disponibles, elles comptent 18 millions et 270 millions d’utilisateurs, respectivement, et ces chiffres ne cessent de croître pour les deux entreprises.

Comme il existe une grande variété d’implémentations du modèle ChatOps dans le travail quotidien, nous nous concentrerons spécifiquement sur la façon de gérer les incidents via ChatOps.
 

ChatOps et gestion des incidents : De quoi s’agit-il ?

 
La fusion des plateformes de supervision et de gestion des incidents avec ChatOps est une manifestation des opérations informatiques modernes visant à optimiser l’efficacité, la vitesse et la collaboration. En combinant ces paradigmes, les organisations peuvent capitaliser sur les forces des outils, ce qui permet de rationaliser la résolution des incidents et d’améliorer la visibilité opérationnelle.

Au cœur de ChatOps se trouve la collaboration en temps réel. Lorsqu’un incident survient, le temps presse. L’intégration de ChatOps avec une plateforme de gestion des incidents garantit que tous les membres de l’équipe, qu’il s’agisse de développeurs, d’assistance ou de gestion, sont immédiatement informés de l’incident. Ils peuvent ensuite diagnostiquer, discuter et élaborer des stratégies collaboratives sur les étapes de remédiation directement dans l’environnement de chat. Ce type de collaboration instantanée entre les équipes réduit le temps de résolution, garantissant ainsi une interruption de service minimale.

Voici d’autres avantages offerts par ChatOps intégré en cas d’incident.
 

Flux d’informations centralisé

 
ChatOps peut canaliser des alertes, des diagnostics et d’autres données pertinentes provenant de diverses sources dans un seul canal de discussion. Cette consolidation empêche le changement de contexte entre les outils et garantit que tout le monde a accès aux mêmes informations.
 

Sensibilisation de l’équipe

 
Toutes les personnes impliquées dans la réponse à l’incident ont une vision commune de la situation. Ce contexte partagé réduit les malentendus et garantit que tout le monde est au jour sur l’état de l’incident et la stratégie de réponse.
 

Aperçu détaillé

 
Chaque action prise, commande exécutée et message envoyé dans un environnement de chat est consigné et horodaté.
 

Responsabilité

 
Chaque action de chat étant attribuée à un membre de l’équipe, il y a une responsabilité claire pour chaque décision et commande. Ceci est particulièrement utile dans les examens post-incident pour comprendre les rôles et les contributions au cours de l’incident.
 

Automatisation

 
Grâce aux commandes de chat, les intervenants peuvent déclencher des flux de travail automatisés prédéfinis. Cela peut aller de l’interrogation de l’état d’un système au lancement de processus de récupération, accélérant ainsi la résolution et réduisant les efforts manuels.
 

Accessibilité

 
Avec de nombreuses plateformes ChatOps disponibles sur ordinateur de bureau et mobile, les intervenants peuvent participer à la gestion des incidents même lorsqu’ils sont éloignés de leur poste de travail principal, en veillant à ce que l’expertise soit accessible à tout moment et en tout lieu.
 

9 conseils sur la façon de tirer le maximum de ChatOps en cas d’incident

 

ChatOps fournit un environnement synergique qui combine la communication, l’automatisation et l’intégration d’outils, améliorant l’efficacité et l’efficience de la réponse aux incidents. Mais de quoi les équipes ont-elles exactement besoin pour découvrir tout le potentiel de leurs discussions ?

Nous n’approfondirons pas les instructions sur la façon de connecter Pandora FMS à la plate-forme de gestion des incidents ilert, mais vous pouvez trouver des informations connexes dans la bibliothèque de modules Pandora FMS et un guide étape par étape dans la documentation ilert. Vous trouverez ci-dessous une liste des meilleures pratiques ChatOps pour organiser votre flux de travail lorsqu’une alerte est reçue.

ilert - Pandora FMS

ilert - Pandora FMS
 

Utiliser des canaux dédiés

 
Créez des canaux dédiés pour des incidents spécifiques ou des alertes de supervision. Cela permet de garder la conversation concentrée et d’éviter d’encombrer les canaux généraux. Et n’oubliez pas de définir un nom clair pour ces chaînes. Dans ilert, le titre prédéfinie comprend le nom de l’outil de supervision et le numéro généré automatiquement d’une alerte, par exemple, pandorafms_alert_6182268.
 

Permettez aux utilisateurs de signaler des incidents via votre outil de chat

 
Permettre à tous les utilisateurs de signaler les incidents via Slack ou Microsoft Teams à l’aide de sources d’alerte prédéfinies pour chaque canal. Cette approche permet aux équipes d’avoir une méthode structurée pour signaler les préoccupations liées aux services qu’elles offrent au sein de leurs canaux dédiés.
 

Décidez quels canaux doivent être privés

 
La plupart des outils de chat fournissent des fonctionnalités pour créer des canaux publics qui sont consultables dans toute l’organisation et peuvent être consultés par tous les membres de l’équipe, et privés où seules des personnes spécifiques peuvent être invitées. Voici quelques raisons pour lesquelles vous pourriez vouloir créer une chaîne privée :
 

  • L’exposition aux données sensibles. Telles que les informations d’identification personnelle (IPI), les données financières ou les informations exclusives de l’entreprise.
  •  

  • Violations de la sécurité. En cas de cyberattaque ou de compromission de la sécurité, il est important de limiter les connaissances sur l’incident à une équipe spécialisée. Cela évite une panique inutile et garantit que les adversaires potentiels ne tirent pas parti des discussions publiques. Vous pouvez en savoir plus sur la prévention des violations de données dans l’article ” Cyber Hygiène : Prévention des violations de données.”
  •  

  • Incidents à enjeux élevés. Si l’incident a de graves répercussions potentielles pour l’organisation, telles qu’un impact financier important ou des implications réglementaires, il est bénéfique de limiter la discussion aux principales parties prenantes afin d’assurer une communication contrôlée et efficace.
  •  

  • Évitez les spéculations. Les canaux publics peuvent parfois conduire à des spéculations ou des rumeurs incontrôlées. Il est préférable de garder les discussions privées pour les incidents graves jusqu’à ce que les faits soient clairs et qu’un récit officiel soit décidé.

 

Conservez toutes les communications au même endroit

 
Assurez-vous que toutes les décisions prises pendant l’incident sont documentées dans le chat. Cela facilite les examens post-incident.
 

Épinglez des messages importants

 
Utilisez les fonctionnalités d’épinglage pour mettre en évidence les mises à jour, les décisions, les états ou les ressources essentiels afin qu’ils soient faciles à trouver pour tout le monde.
 

Tenez les parties prenantes informées

 
Assurez-vous de tenir votre équipe au courant et de mettre à jour toutes les communications sur les incidents, y compris les pages d’état publiques et privées, à temps.
 

Utilisez les chats dans la création post-mortem

 
Les journaux de chat en temps réel dans ChatOps capturent un enregistrement chronologique des événements, des discussions, des décisions et des actions. Lors d’une création post-mortem, les équipes peuvent examiner cet ensemble de données combiné pour construire une chronologie complète des incidents. Un compte rendu aussi détaillé aide à identifier les causes profondes, à identifier les goulots d’étranglement des processus et à mettre en évidence les stratégies de réponse efficaces et inefficaces.
 

Nettoyez et archivez régulièrement

 
Pour maintenir l’organisation et réduire l’encombrement, archivez régulièrement les anciennes chaînes ou conversations qui ne sont plus pertinentes. Éviter de nombreux canaux dans votre liste vous accélèrera également lors du prochain incident.
 

Dispensez une formation régulière à tous les membres de l’équipe

 
Plus votre équipe connaît les outils, la structure d’alerte, les options de chat et les fonctionnalités, plus vous serez rapide le moment venu. Déclenchez des alertes de test et menez des sessions d’apprentissage sur les incidents afin que toutes les personnes impliquées connaissent leur rôle dans le cycle de réponse aux incidents.

Shares