Introduction à la Supervision
Introduction à la supervision
La supervision est l'exécution de processus sur tous les types de systèmes pour collecter et stocker des informations, effectuer des actions et prendre des décisions sur la base de ces données.
Agents logiques sur Pandora FMS
La surveillance effectuée par Pandora FMS est classée dans la catégorie agents. Un agent appartient toujours à un groupe. Ces agents vont être équivalents à chacun des différents équipements, dispositifs, webs ou applications que nous surveillons.
Les agents définis dans la console Pandora FMS peuvent présenter des informations locales collectées par l'intermédiaire d'un EndPoint, des informations à distance collectées par le biais de vérifications réseau, ou les deux.
Supervision basée sur des EndPoint et supervision à distance
Configuration de l’agent logique dans la console
Menu Management → Resources → Manage agents, cliquez sur le nom de l'agent et puis sur l'icône Management.
Interface d'édition dans la vue normale
- Name: Bien que le nom de l'agent puisse être modifié, il est déconseillé de le faire, en particulier dans le cas de l'agent d'autosurveillance de chaque PFMS Server.
- Alias: Pour un fonctionnement correct de toutes les fonctions que Pandora FMS exécute avec ses agents/modules, il est recommandé de ne pas utiliser des caractères comme
/,\,|,%,#,&et$dans le nom d'agent. Lorsque vous traitez avec ces agents, ils peuvent créer une confusion avec l'utilisation des chemins du système ou l'exécution d'autres commandes, causant des erreurs dans le serveur. - Le champ Server permet d'indiquer l'une de ces options:
- None: Aucun serveur n'exécutera les modules de l'agent.
- Autobalance: Les modules de l'agent peuvent être exécutés sur n'importe quel serveur disponible.
- Server name: Sélectionnez un serveur spécifique pour exécuter les modules de l'agent.
- Auto HA: Si cette option est activée, les modules de l'agent seront exécutés par un autre serveur si le serveur assigné n'est pas disponible (activée par défaut). Il applique uniquement lorsqu'un serveur spécifique est choisi pour l'exécution des modules.
- Primary group: Il permet d'affecter un groupe à l'agent. En cliquant sur l'icône du groupe, vous pourrez accéder à la vue tactique du groupe assigné.
- IP address: Il permet d'attribuer une adresse IP à l'agent. Avec le bouton Check unique IP, vous pouvez vérifier si l'adresse IP saisie est libre, si elle est déjà dans la liste des adresses sauvegardées pour cet agent (elle a une option de suppression) ou si elle est utilisée par un autre agent. Dans le cas où elle est utilisée par un autre agent, lors de la sauvegarde de l'édition, il vous en avertira et vous demandera une confirmation avant d'enregistrer ces données. Dans la Configuration générale, vous pouvez configurer le bouton Check unique IP pour qu'il soit utilisé automatiquement pour l'édition de tous les agents.
Interface d'édition dans la vue avancée
- Secondary groups: Paramètre facultatif permettant à un agent d'appartenir à plus d'un groupe (groupes secondaires).
- Cascade protection services: Paramètre permettant d'éviter une avalanche d'alertes. Vous pouvez choisir un agent ou un module d'agent. Dans le premier cas, lorsque l'agent choisi est en situation critique, il ne génère pas d'alertes. Dans le deuxième cas, seulement lorsque le module spécifié est en situation critique, l'agent ne générera pas d'alertes.
Trois modes de travail peuvent être sélectionnés (Module definition):
- Learning mode: Si XML arrive avec de nouveaux modules, ils seront créés automatiquement (par défaut).
- Normal mode: Si un XML arrive avec de nouveaux modules, ils ne seront créés que s'ils sont déjà déclarés dans la console précédemment.
- Autodisable mode: Identique au mode d'apprentissage, mais si tous les modules passent en mode inconnu, l'agent sera désactivé jusqu'à ce que les informations arrivent à nouveau.
Visualisation de l'agent
Menu Management → Resources → Manage agents, cliquez sur le raccourci View de l'agent.
Cette écran fournit une grande quantité d'informations concernant l'agent, avec la possibilité de forcer l'exécution des vérifications à distance et de rafraîchir les données. Dans le premier encadré, un résumé avec plusieurs informations sur l'agent est affiché :
- Informations sur l'agent, parmi lesquelles : Nom, groupe, adresse IP, version du système d'exploitation et version de l'agent.
- Nombre total de modules et leur état.
- Résumé des derniers événements de l'agent, avec les événements actifs et ceux survenus dans les dernières 8 et 24 heures.
- Résumé des alertes de l'agent, avec l'option de les afficher toutes.
- Le cas échéant, état des sources de journaux selon la configuration dans Collecte des journaux.
- Un encadré avec des onglets et des filtres pour les listes des modules, alertes et événements.
Un agent peut être épinglé au menu principal en cliquant sur l'icône de punaise à côté de son nom. Il apparaîtra ainsi dans le menu Operation →
Pinned → Agents. Pour le désépingler, cliquez simplement sur
.
Modules
Les modules sont des unités d'information stockées dans un agent. Il s'agit des éléments de surveillance avec lesquels l'information est extraite de l'appareil ou du serveur vers lequel l'agent pointe.
Chaque module ne peut stocker qu'un seul type de métrique. Dans un même agent il ne peut pas y avoir deux modules avec le même nom.
Les état associés sont les suivants:
- Non inité: Où aucune donnée n'a encore été reçue.
- Normal: Il reçoit des données dont les valeurs se situent en dehors des seuils d'avertissement ou des seuils critiques.
- Avertissement: Il reçoit des données dont les valeurs se situent à l'intérieur du seuil d'avertissement.
- Critique: Les données sont reçues avec des valeurs inférieures au seuil critique.
- Inconnu: Le module a fonctionné et a cessé de recevoir des informations pendant un certain temps.
Les modules disposent de différents types de données, telles que booléennes, numériques ou alphanumériques entre autres.
Types de modules
Groupes de modules
Menu Management → Resources → Module groups.
1, General.2, Networking.3, Application.4, System.5, Miscellaneous.6, Performance.7, Database.8, Environmental.9, Users.10, Security.
L'administration des groupes de modules est centralisée à l'aide d'un Command Center
Supervision d'état
Lorsqu'on parle de supervision, la notion d'état est introduite: c'est l'association de la « valeur relative » au lieu de la valeur absolue, de sorte que lorsqu'un seuil est dépassé, l'état change.
Pandora FMS vous permet de définir des seuils pour définir l'état du contrôle selon les données collectées. Les trois états possibles sont : NORMAL, WARNING et CRITICAL.
- État d'avertissement: Si la valeur numérique du module se situe dans les limites inférieure et supérieure. Si aucune limite supérieure n'est spécifiée, toute valeur supérieure à la limite inférieure entraînera un changement d'état.
- Critique: Pareille au point précédent, mais pour l'état
critical. - Intervalle inverse: Présent pour les seuils
warningetcritical, s'il est activé, le module changera d'état lorsque ses valeurs seront en dehors de l'intervalle spécifié. Il fonctionne également pour les modules alphanumériques. - Pourcentage: Si activé, la valeur du seuil est interprétée sous forme de pourcentage. La façon dont fonctionnent les seuils de Pourcentage est de comparer la nouvelle valeur rapportée par le module par rapport à la précédente pour voir le pourcentage de variation et si elle respecte ou non les limites de pourcentage d'augmentation (Max.) ou de diminution. (Min. ) établis, elle changera d'état ou non.
Si les seuils d’avertissement et critiques se chevauchent dans une plage quelconque, le seuil critique prévaudra toujours.
Options de base
Gardez toujours à l'esprit que cette interface est utilisée à la fois par la surveillance locale et la surveillance à distance et qu'elle présente des paramètres qui sont valables dans l'un ou l'autre domaine. Par exemple, les paramètres Délai d'attente (Timeout) et Tentatives (Retries) ne sont pas utiles pour la supervision locale (contrôles locaux) mais sont importants pour la supervision à distance.
- Using module component: Lors de l'utilisation d'un composant de module, les paramètres nécessaires seront remplis automatiquement pour effectuer la supervision. Ce token apparaît dans tous les types de modules, à l'exception des modules de prédiction.
- Name: Nom du module.
- Disabled: Il permet de désactiver le module.
- Module group: Il permet d'affecter le module à un groupe de modules défini.
- Type: Type de module en fonction du type de données renvoyées. En sélectionnant Using module component, le type de données sera choisi automatiquement.
- Warning threshold et Critical threshold : Seuils qui, lorsqu'ils sont atteints par la valeur renvoyée, font le module devenir en état d'avertissement. (Warning) ou état critique (Critical). Vous pouvez utiliser l'Inverse interval pour définir que l'état d'avertissement/critique est toute valeur en dehors de cette plage.
- Change to critical status after X intervals in warning status: (version 766 ou ultérieure) Ce jeton permet de promouvoir le passage d'un module à l'état critique s'il a été X fois de suite (intervalles de surveillance continue) en état d'avertissement.
- Par exemple, si une valeur de
2est placée: warning → warning → warning → CRITICAL. - Important: Ce token fonctionne en parallèle avec FF threshold, par exemple Change to critical… a
1et FF threshold a1:- normal → normal → warning → warning → CRITICAL.
- Historical data: Cochez cette option si vous devez stocker des valeurs dans la base de données historique à long terme.
- Target IP et Port: Adresse IP et numéro de port à interroger pour les valeurs de supervision. Dans certains cas, comme pour la supervision WMI, des champs de texte supplémentaires apparaissent pour définir les informations d'identification de la connexion et même les chaînes de requête.
Options avancées
Gardez toujours à l'esprit que cette interface est utilisée à la fois par la surveillance locale et la surveillance à distance et qu'elle présente des paramètres qui sont valables dans l'un ou l'autre domaine. Par exemple, les paramètres Timeout et Retries ne sont pas utiles pour la surveillance locale (contrôles locaux) mais sont importants pour la surveillance à distance.
- Custom ID: Champ permettant de stocker une valeur d'identification personnalisée.
- Unit: Election de l'unité des données reçues par le module, par défaut désactivé (none). Vous pouvez soit choisir une unité spécifique (Timeticks, Bytes, Entries, etc.) ou cliquez sur l'icône du crayon pour définir des unités personnalisées.
- Interval: Période dans laquelle le module doit renvoyer les données. Si un module passe plus de deux intervalles sans recevoir de données, il entrera dans un état inconnu:
- Dans le cas des modules distants: Il s'agit de la période pendant laquelle le contrôle à distance est effectué.
- Dans le cas des modules de données: Il s'agit d'une valeur numérique qui représente X fois l'intervalle d'agent défini, effectuant le contrôle local pendant cette période.
- Dans le cas des agents de courtage via la console Web, à partir de la version 776, leur intervalle n'est pas affiché afin d'éviter des changements non désirés.
- Post process: Paramètre par lequel les données reçues par le module peuvent être converties. Par défaut, il est désactivé avec la valeur 0. Vous pouvez également définir des conversions personnalisées en cliquant sur l'icône en forme de crayon.
- Min. Value et Max. Value: Permet de définir une valeur minimale et maximale attendue pour le module.
- Dynamic Threshold Interval: Champs réservés à la surveillance dynamique (seuils dynamiques).
- Export target: Si vous avez configuré un serveur d'exportation, vous pouvez en créer un.
- Discard unknown events: Permet d'écarter les événements inconnus.
- FF threshold: connu sous le nom de Flip-Flop (FF), il est un phénomène courant dans la supervision, quand une valeur oscille fréquemment entre des valeurs alternatives (MAL/BIEN), ce qui la rend difficile à interpréter. Dans ce cas, on utilise généralement un « seuil », de sorte que pour considérer que quelque chose a changé d'état, il doit « rester » plus de X intervalles consécutifs dans un état non modifié. FF Threshold est utilisé pour « filtrer » les changements continués d'état dans la génération d'événements / états: ainsi Pandora FMS « sait » qu'un état n'est pas considéré comme changé jusqu'à ce que l'élément soit au moins X fois sur le même état après avoir changé son état original.
- FF Interval: Permet de spécifier un intervalle de temps plus court pour le prochain contrôle si un seuil de basculement est activé dans le module. Lorsque FF est activé et qu'un changement d'état est détecté qui répond aux conditions de contrôle définies, l'intervalle du module pour la prochaine exécution sera ajusté. Ce réglage permet d'accélérer les contrôles lorsque des conditions spécifiques sont requises, en définissant une valeur inférieure à l'intervalle du module principal.
- FlipFlop timeout: Temps d'attente pour les modules asynchrones. Pour qu'un changement d'état par bascule soit efficace, des données consécutives égales doivent être reçues dans l'intervalle spécifié.
Pour le calcul des Accords de niveau de service (SLA), si aucun seuil SLA n'est défini, Pandora FMS prendra en compte les seuils FF.
- Tags available et Tags from policy : Elles sont détaillées dans la section suivante "Tags".
- Quiet : Le module continuera à recevoir des informations, mais aucun type d'événement ou d'alerte ne sera généré.
- Cascade Protection Services: Paramètre par lequel la génération d'événements et d'alertes passerait au service auquel il appartient, si cette fonctionnalité est activée.
- Critical instructions, Warning instructions et Unknown instructions: Contient les instructions à suivre si l'état du module devient critique, avertissement ou inconnu. Utile dans l'utilisation des modèles et des composants.
- Cron: Vous pouvez spécifier des périodes de temps dans lesquels le module sera exécuté ; il a la nomenclature: minute, heure, jour du mois, mois, jour de la semaine et il y a de différentes possibilités :
- Cron from → Il n'y a aucune restriction de surveillance (par défaut), il a Any établi par défaut dans tous les champs.
- Cron from → valeur spécifique et Cron to → tous dans Any: il sera exécuté seulement lorsqu'il coincide avec le numéro établi. Exemple:
15 20 * * *, fonctionnera tous les jours à 20:15 - Cron from → valeur spécifique et Cron to → valeur spécifique: il sera exécuté pendant l'intervalle. Exemple:
5 * * * *et10 * * * *, fonctionne toutes les heures entre les minutes 5 et 10 (cela revient à5-10 * * * *). - Timeout: Temps d'attente de l'agent pour l'exécution du module, exprimé en secondes.
- Retries: Définit le nombre de tentatives pour l'exécution du module.
- Category: Cette catégorisation n'a aucun effet depuis l'interface utilisateur normale. Elle est destinée à être utilisée en conjonction avec la Métaconsole.
- Module parent: Utilisé pour établir la hiérarchie de la protection dans le service de protection en cascade (Cascade Protection Services).
- Custom macros (Macros personnalisées) : N'importe quel nombre de macros de module peut être défini. Le format recommandé pour les noms de macros est le suivant
_macroname_.
Ces macros peuvent être utilisées dans les alertes de module et sont particulièrement utiles dans la supervision d'utilisateur. S'il s'agit d'un module d'analyse web:
Les macros dynamiques auront un format spécial commençant par @ et auront ces substitutions possibles:
@DATE_FORMAT(date/heure actuelle avec format défini par l'utilisateur)@DATE_FORMAT_nh(heures)@DATE_FORMAT_nm(minutes)@DATE_FORMAT_nd(jours)@DATE_FORMAT_ns(secondes)@DATE_FORMAT_nM(mois)@DATE_FORMAT_nY(années)
Où « n » peut être un nombre sans signe positif ou négatif et FORMAT strftime de Perl.
- Module relations: Utilisé pour remplacer le module, soit directement (Direct) ou en cas de basculement (Failover), dans le but de calculer les SLA.
- Ignore unknown: Cela désactive le calcul de l'état inconnu dans le module, de sorte que la transition vers l'état inconnu n'a jamais lieu. L'état qu'il reflète est le dernier état connu.
Tags de module
Menu Management → Profiles → Module tags.
Les tags sont des étiquettes associées à chaque module qui seront propagées aux événements générés par ce module et peuvent être utilisées dans les alertes d'événements de ce module. Les informations complémentaires du tag (URL, email, téléphone) peuvent être utilisées dans les alertes, car elles sont disponibles sous forme de macro.
Elles peuvent également être utilisées pour accorder des permissions d'accès spécifiques à un module, de sorte qu'un utilisateur ne peut accéder qu'à un seul module de l'agent, sans avoir accès au reste des modules.
Gestion des modules
Veuillez vous rendre au menu Management → Resources → Manage agents et cliquez sur les Modules de chaque agent.
Cette option vous permet d'afficher des informations générales rapidement et avec précision si vous placez la souris sur chaque colonne d'icônes.
Vous pouvez également exécuter des actions telles que l'édition du module en cliquant sur son nom, La colonne d'actions contient :
- Activer ou désactiver le module.
- Dupliquer un module (le prefix suivant sera ajouté en tant que copie de…).
- Mormaliser les valeurs : Ceci supprimera les valeurs extremes qui depassent la moyenne, cetta action est irreversible et il vous demandera de la confirmation avant de les effacer.
- Supprimer un module.
En outre, chaque élément contient un chackbox pour faire des opérations en massse (activer, désactiver, supprimer) sur les modules séléctionnés.
Supervision dynamique (seuils dynamiques)
La supervision dynamique consiste en l'ajustement dynamique et automatique des seuils d'état des modules de manière prédictive. Le mode de fonctionnement consiste à collecter les valeurs pour une période donnée et à calculer une moyenne et un écart type, qui servent à établir les seuils correspondants au niveau du module. Les paramètres se situent dans les options avancées des modules :
- Dynamic Threshold Interval: L'intervalle de seuil dynamique ou durée qui sera prise en compte pour effectuer le calcul du seuil. Si un mois est choisi, le système prendra toutes les données existant au cours du dernier mois et construira les seuils en fonction de ces données et les seuils seront établis avec des valeurs au-dessus de la moyenne.
- Dynamic Threshold Max. : La valeur maximale du seuil dynamique critique, s'il est décidé d'établir une marge de tolérance (en pourcentage) pour celui-ci ; Par exemple, si les valeurs moyennes sont autour de 60 et que le seuil critique a été établi à partir de la valeur 80, si la valeur Dynamic Threshold Max: 10 est définie, ce seuil critique sera augmenté de 10 %, il restera donc à une valeur de 88.
- Dynamic Threshold Min.: Il permet de réduire la limite inférieure du pourcentage indiqué. Par exemple, si les valeurs moyennes sont autour de 60 et que le seuil critique inférieur a été fixé à une valeur de 40, si la valeur Dynamic Threshold Min: 10 est définie, ce seuil critique sera réduit de 10 %, donc il reste à une valeur de 36.
- Dynamic Threshold Two Tailed: Seulement pour les seuils dynamiques. Cette option permet d'augmenter la plage des seuils du module, bien les limites maximales et minimales, selon la moyenne fournie par le seuil dynamique. Cette option inclut les valeurs positives et negatives.
Librairie de modules
Pour y accéder depuis le menu, vous devrez avoir Agent Read (AR) permis.
Accédez à Management → Module library → View pour accéder à la vue principale. Vous pouvez également effectuer des regroupements par catégories (bases de données, virtualisation, etc.) ou rechercher le plugin par son nom dans la zone de texte Search.
Les liens de téléchargement seront visibles dans ces cas :
- L'utilisateur et le mot de pass que vous configurez dans le setup doivent coïncider avec celui du support d'Pandora ITSM.
- L'utilisateur Pandora FMS a permis AW.
Pour plus d'informations sur comment accéder à la librairie, visitez la section de la Configuration de la console.


