Un service est un regroupement de ressources IT se basant sur leurs fonctionnalités.
Un service peut être, par exemple, un site web officiel, votre GRC, votre application de support, ou même toutes vos imprimantes. Les services sont des regroupements logiques qui incluent des hosts, routers, switches, firewalls, CRM, ERP, webs et bien d’autres services.
Sur Pandora FMS, nous représentons les services comme un regroupement d’éléments surveillés (modules, agent, agent ou autres services) dont l’état de chacun affecte d’une certaine façon le fonctionnement général du service.
La surveillance de base sur Pandora FMS consiste à rassembler des métriques de diverses origines, en les représentant commes des moniteurs (modules). La surveillances dans des services nous permet de regrouper ces modules, de telle sorte qu’en jouant avec certaines marges basées sur l’accumulation d’erreurs, nous pourrons surveiller des groupes d’éléments de différentes natures ainsi que leur relation dans un plus grand service général.
En définitive, la surveillance de services nous permet de vérifier l’état d’un service global. Nous pourrons savoir si notre service fourni est réalisé normalement (vert), s’il est défaillant (jaune) ou bien s’il y a absence de service (rouge).
Les supervisions Services sont réprésentés sous trois concepts : de manière imple, par ses poids d'importance et chaînes par événenments en cascade.
Dans ce mode il est seulement nécessaire d'indiquer quels éléments sont critiques et quels éléments ne le sont pas.
Seuls les éléments marqués comme critiques seront tenus en compte pour la réalisation des calculs et seul l’état critical
des éléments aura une valeur.
critical
, le service passera en warning
.critical
, le service entrera en état critical
.Exemple :
Situation 1 :
critical
.critical
.warning
.
Résultat : Le service serait alors en warning
puisque l’imprimante n’est pas un élément critique, le routeur est en mode critical
et cela répresente un 50 % du total des éléments critiques indiqués. Le serveur Apache n'est pas en état critique et n'apporte pas de la valeur à l'évaluation.
Situation 2 :
critical
.critical
.critical
.
Résultat : L’état du service serait critical
, puisque plus de la moitié des éléments critiques sont en état critique.
Situation 3 :
normal
.critical
.normal
.Résultat : L’état du service serait normal puisque moins de 50% du total des éléments critiques sont en état critique.
Le besoin de supervision de service en tant que quelque chose d'abtracte survient lors de donner une réponse à cette question :
Que se passe-t-il avec mon application lorsqu’un élément, en principe non critique, devient défaillant ?
Pour lever les doutes, la fonctionnalité de surveillance grâce aux services sur Pandora FMS apparaît.
Les services sur Pandora FMS nous aident à :
Pour réussir cela, chaque élément qui puisse affecter négativement notre application devra être surveillé.
Au moyen de la console de Pandora FMS, nous devrons définir un arbre de services dans lequel nous indiquerons aussi bien les éléments qui touchent notre application que le niveau d’affectation.
Tous les éléments que nous ajouterons aux arbres de service correspondront à une information qui est déjà surveillée, que ce soit comme modules, agents concrets ou d’autre services.
Pour préciser le niveau d’affectation des états de chaque élément par rapport à l’état global, on utilisera un système de somme des poids, de sorte que les plus importants (poids plus élevés) seront plus aptes pour ajuster l’état général du service complet à un état incorrect avant les éléments moins importants (poids plus faibles).
Une application web équilibrée à travers une serie d'éléments redondates doit être supervisée. L'infrastructure dans laquelle se fonde l'application est formé dans cet exemple par les éléments suivantes :
L'objectif est de savoir si l'application web fonctionne correctement, c'est à dire l'impression finale des clients es que l'application reçoit, traite et retourne les requêtes dans un délai péremptoire.
Si l'un des vingt serveurs Apache est hors ligne, à cause d'une telle quantité de rédondance, est-il prudent d'alerter tout le personnel ? Quelle est la règle d'alertage ?
De manière arriviste nous pouvons conclure que Pandora FMS seulement devrait avertir si un élément très critique échoue (par exemple un routeur) ou si quelques serveurs Apache sont hors ligne au même temps… mais combien d'eux ? Pour résoudre ça, attribuez des valeurs de poids à la liste de composants décris précédement :
Switches et routeurs
5 points à chacun lorsqu'ils sont en critical
et 3 points s'ils sont en warning
.
Serveurs Web
1,2 points à chacun en état critical
, nous ne contemplons pas l'état warning
.
Serveurs WebLogic
2 points à chacun en état critical
.
Cluster MySQL
5 points chacun en état critical
et 3 points en état warning
.
Type d'élément | Poids attribués | |||
---|---|---|---|---|
Normal | Warning | Critical | Unknown | |
Routeur | 0 | 3 | 5 | 5 |
Commutateur | 0 | 3 | 5 | 5 |
Serveur Apache | 0 | 0 | 1,2 | 1,2 |
Serveur WebLogic | 0 | 0 | 2 | 2 |
Serveur MySQL | 0 | 3 | 5 | 5 |
Lors d'une situation normale, les poids additionnés est zéro, c'est pour ça que dans cet exemple, on établit que le seuil pour l'état warning
doit être supérieur à 4 et pour l'état critical
supérieur à 6 :
Configuration du service | ||
---|---|---|
Normal | Warning | Critical |
0 | >=4 | >=6 |
Exemples de défaillance :
critical
) : si le reste est en état normal et apporte zéro, le totale serait 1,2 et puisque 1,2 < 4 (seuil warning
), le Service est en état OK (état normal
).critical
> le premier apporte 1,2 points et le deuxième 2,0 pour un total de 3,2 ; il est encore moins de 4 donc le service est encore en état OK, aucune alerte ou action est nécessaire.warning
, il continue de focntionner et il se peut qu'il ne rêquise pas une actuation technique immédiate, mais il est évident qu'un problème s'est produit sur l'infrastructure.critical
et déclenche une nouvelle situation : il ajoute 5 points au poids et dépasse le seuil de criticité établi sur 6 ; le service est critique, le service n'est pas fourni et l'action technique immédiate est nécessaire.Dans ce dernière situation, Pandora FMS alertera à l'équipe de travail correspondante (opérateurs, techniciens, etc.).
Vous pouvez obtenir de l'information intéressant sur la supervision Service dans le blog Pandora FMS
Un service racine est celui qui ne fait part d'autre service. Ce concept logique permet de simplifier la supervision, en réduisant les files d’attente.
De même, et en partant de cette base, lorsqu’un service défini dans un noeud de Pandora FMS apparaît comme élément d’un service racine dans la Metaconsole, ce sera le serveur Metacolsole qui l’évaluera, en mettant à jour les valeurs stockées dans le noeud.
Ceci nous fournit une logique distribuée qui est plus efficace et nous permet d’appliquer un système de protection en cascade basé sur des services.
Les possibilités des serveurs sur la Métaconsole se sont élargies, en permettant d’ajouter en tant qu’élément d’un service aussi bien d’autres services comme des modules ou des agents.
Il faut posséder la version Enterprise et le composant PredictionServer doit être activé pour pouvoir utiliser les services.
Il est nécessaire que le composant PredictionServer soit en exécution et la version Enterprise de Pandora FMS server soit installée.
Les services peuvent représenter :
Les valeurs d’un service se calculent grâce à un serveur de Prédiction avec la période par défaut des modules de prédiction.
Une fois que vous avez tous les dispositifs surveillés. Dans chacun des services, vous pouvez ajouter tous les modules, agents ou sous-services dont vous avez besoin pour surveiller le service. Par exemple, si vous souhaitez surveiller le service de la Boutique en ligne, il faut un module pour le contenu, un service qui surveille l’état des communications, etc. Grâce aux étapes suivantes, vous pouvez apprendre à créer un service avec Pandora FMS.
Pour créer un nouveau service, nous devrons aller sur Topology Maps > Services.
Une liste apparaîtra avec tous les services.
Pour créer un nouveau service, il suffit de cliquer sur le bouton Create Service et vous pouvez ensuite créer le service en remplissant le formulaire qui apparaît comme sur l’image ci-dessous :
Nom
Il doit être un nom unique. qui permettra d'identifier le service.
Description
Obligatoire. La description en question sera celle qui apparaîtra sur la carte du service, dans la vue de la table du service et dans le widget des services (au lieu du nom).
Groupe
Groupe auquel appartient le service, utile pour l’organiser et pour appliquer des restrictions ACL.
Agent to store data
Le service sauvegarde les données dans des modules spéciaux de données (concrètement, les modules de prédiction) et il faut nommer un agent qui contiendra ces modules ainsi que les alarmes qui seront configurées (voir les étapes suivantes).
Note : Tenez compte que l’intervalle dans lequel tous les calculs des modules du service se réaliseront dépendra de l’intervalle de l’agent configuré comme conteneur de modules.
Mode
Mode dans lequel le calcul de poids des éléments se réalisera.
Unknown elements as critical
Il permet d'indiquer que les éléments en état inconnu apportent leur poids de même que s'ils étaient un élément critique.
Le mode smart est seulement disponible à partir de la version 7,0 NG 748 de PAndora FMS.
Les modes automatique et simple de versions précédentes deviendront manuels en applicant le MR 40 dans la mis à jour de version.
Favorite
Il crée un lien direct dans le menu latéral et les Services pourront être filtrés dans les vues en base à ce jugement.
Quiet
Il active le mode silencieux du service. LEs alertes et événements ne sont alors pas générés.
Cascade Protection enabled
Il active la protection en cascade sur les éléments du service. Ils ne génèrent pas d’alerte ni d’événement s’ils appartiennent à un service (ou sous-service) en état critique.
Calculate continuous SLA for this service
Il active la création des modules de SLA et SLA value pour le service actuel. Il s’utilise dans le cas où le nombre de services nécessaires est si important qu’il peut affecter la performance.
Si l’option se désactive, une fois le service créé, l’historique de données de ce module s’effacera et les informations seront perdues.
SLA interval
Temps pour calculer le SLA effectif du service. 1 mois par défaut.
SLA limit
Seuil de l’état OK du service pour qu’un SLA soit considéré comme positif pendant le temps de configuration du champs précédent.
Alerts
Dans cette section seléctionnez les modèles que le Service aura pour lancer l'alerte lorsque le service entre l'état avertissement, critique, unconnu ou lorsque le SLA du service n'est pas rempli.
Une fois le formulaire est correctement rempli in Service vide est régistré, ce qu'il faut remplir avec ses éléments. Dans le formulaire d'édition du Service, seléctionnez l'onglet “Configurer éléments”.
cliquez sur Add element et une fenêtre apparaitra avec un formulaire. Le formulaire sera légèrement différent si le service est en mode smart ou mode manuel.
Description
Texte facultatif utilisñe pour représenter l'élément dans la carte du service. S'il n'est pas indiquñe, le nom du module, agent ou service sera utilisé (seol l'élément ajouté).
Type
Choisissez un service, module ou agent ; s'il est en mode Smart, le type Dynamic appairetra aussi.
Agent
Chercheur d'agents (visible si el'élément à créer es Agent ou Module).
Module
Liste déployable avec les modules de l'agent choisi précédement dans le chercheur (seulement visible si un élément est edité ou créé pour le Service de type de module).
Service
Liste déployable dea services pour créer un élément (seulement visible si l'élément à créer ou éditer est un service).
Vous devez tenir sur compte que les services qu'apparaîtront sur la sliste déployable sont ceux que ne sont pas des ancêtres du service, cela est nécessaire pour montrer une correcte structure d'arbre de dépendence entre services.
Les champs suivants seulement seront disponibles pour les services en mode manuel :
critical
> Poids que l'élément additionnera au service lorsqu'il se trouve en état critique.warning
> Poids que l'élément additionnera au service lorsqu'il se trouve en état d'avertissement.unknown
> Poids que l'élément additionnera au service lorsqu'il se trouve en étac inconnu.normal
> Poids que l'élément additionnera au service lorsqu'il se trouve en état normal.Afin de calculer l'état d'un service, le poids de chacun de ses éléments sera additionné selon son état et s'il dépasse les seuils établis dans le service pour avertissement ou pour critique, l'état du service deviendra avertissement ou critique selon le cas.
Dans les services en mode Smaty, les poids ne sont définis non plus pour les éléments, donc son état est calculé comme suit :
Mode Dynamic
Les champs suivants seraient seulement disponibles pour les éléments de type Dynamic (Services en mode Smart) :
Matching object types
Liste déployable pour choisir si les éléments pour lesquels les règles dynamique seront évaluées et qui feront part du service, ils seront des Agents ou Modules.
Filter by group
Règle pour indiquer le groupe auquel l'élément doint appartenir pour faire part du service.
Having agent name
Règle pour indiquer le nom de l'agent qui doit avoir l'élément pour faire part du service. Un texte qui devra faire part du nom de l'agent souhaité sera indiqué.
Having module name
Règle pour indiquer le nom du module que l'élément doit avoir pour faire partie du service. Un texte qui doit faire partie du module souhaité sera indiqué.
Utilisez regular expresions selector
Si vous activez cette option, le méchanisme de recherche sera utilisé par le biais d' Expressions Régulières (regex ou regexp) mais selon MySQL gère ce type d'expressions.
Having custom field name
Règle pour indiquer le nom du châmp personnalisé que l'élément doit avoir pour faire partie du service. Un texte qui doit faire partie du nom du champ personnalisé souhaité sera indiqué.
Having custom field value
Règle pour indiquer la valeur du champ personnalisé qui doit avir l'élément afin de faire part du service. Un texte qui doit être partie de la valeur du champ personnalisé shouhaitée doit être indiqué.
Vous devez entrer le texte dans tous les deux châmps pour qu'il soit considéré de chercher des châmps personnalisés.
Depuis la version NG 752 il est possible d'additionner des recherches dans plus des châmps personnalisés, ceux seront choisis s'ils remplissent n'importe quelle des paires de mots clés établis.
Exemple
Si vous choisissez de filtrer les agents du groupe Servers dont le nom de l'agent contient Firewall
et le nom du module contient Network
peut obtenir le résultat suivant.
Exemple
Si la configuration d'un élément synamique soyait la suivante.
Tous les modules qui incluent dans son nom “Host Alive” qui se trouvent dans un agent dont le nom inclut “SW”, dans le groupe “Servers”, avec un châmp personnalisé don le nom inclut “Department” et qui aie une valeur qui inclut “Systems” seraient utilisés en tant qu'éléments du service.
Les éléments dynamiques ne sont pas affectés par la protection en cascade des services.
async_data
)async_proc
)async_data
)C’est la liste d’opération qui montre tous les services créés. Bien évidemment, elle ne montre que ceux des groupes auquel l’utilisateur a accès en utilisant la console de Pandora FMS.
Cliquez Opération > Supervision et dedans, allez dans la section Services.
Chaque file représente un service :
Groupe
L’icône du groupe auquel appartient le service et que l’utilisateur peut voir.
Critical
La valeur plafond des sommes des poids pour marquer le service comme “critique”.
Warning
La valeur plafond des sommes des poids pour marquer le service en état “avertissement”.
Value
La valeur des sommes des poids des éléments qui contiennent le service.
Status
Un icône qui représente l’état du service. Il y a les trois états suivants représentés normalement avec les couleurs suivantes :
SLA
La valeur de SLA du service, la SLA recevra l’une des valeurs suivantes :
Cette vue est accessible en cliquant sur le nom d’un service dans la liste de tous les services ou via l’onglet avec l’icône loupe dans l’en-tête du titre du service.
Pandora FMS affichera une page semblable à la capture d’écran suivante :
Dans la capture, on peut distinguer deux zones, le service avec les mêmes colonnes que dans la vue précédente dans la partie au-dessus. Dans la partie inférieure, on y trouve la liste des éléments qui composent ce service.
La liste des éléments apparaît en format table, où les lignes correspondent à chaque élément et les colonnes représentent :
Type
Icône qui représente le type d’élément soit c’est un bloc de construction pour les modules ou des blocs empilés pour l’agent ou encore l’icône d’un diagramme de réseau pour les services.
Name
Texte qui a le nom de l’agent, ou le nom de l’agent et du module ou le nom du service. Tous contiennent un lien dans la vue de l’opération correspondante.
Weight critical
La valeur du poids associée lorsque l’élément est en état critique. Les trois colonnes suivantes (Warning weight, Weight unknown et Weight OK) correspondent respectivement à avertissement, unconnu et normal.
Data
La valeur de l'élément qui selon le type peut être :
Etat
Icône qui représente l’état de l’élément par une couleur.
Il faut prendre en compte que le calcul des services est réalisé par le serveur de prédiction, c’est pourquoi les données ne sont pas en temps réel. Cela peut amener à des situations dans lesquelles vous ajoutez un agent ou un module et le poids ne se met pas à jour jusqu’à ce que le serveur recalcule ce service.
Cette vue affichera le service de manière arborescente comme vous pouvez le voir sur la capture d'écran suivante. De cette manière, vous pouvez rapidement voir comment les modules, les agents ou les sous-services influencent la surveillance du service. Même dans les sous-services, vous pouvez voir ce qui les influence lors du calcul de l’état par la somme des poids.
Les noeuds possibles qui existent sont :
Noeuds du module
Représenté par l’icône du graphique des battements de coeur. Ce noeud est toujours un noeud final ou un noeud feuille auquel d’autres noeuds ne sont pas bloqués (raccrochés ?).
Noeud d’agent
Représenté avec l’icône de la boîte CPU. Celui-ci est aussi un noeud final auquel aucun autre ne sera suspendu.
Noeud de service
Représenté avec l’icône du marteau et la clé fixe croisés.Ce service doit contenir des éléments qui seront représentés comme des branches qui en sortent par en bas.
La couleur des noeuds et la flèche qui en sort et monte vers le service père dépend de l’état du noeud. Comme toujours, vert pour OK, rouge pour critique, jaune pour avertissement ou gris en état inconnu.
Dans le noeud, il y aura :
De plus, il est possible de cliquer sur chaque élément de l’arbre et redirige vers la vue de l’opération de chacun d’entre eux.
Lorsque le service sera en mode “simple”, un point d’exclamation rouge apparaîtra à côté de chaque élément.
A partir de cette version, dans la console visuelle, vous pouvez ajouter des services comme davantage d’items à montrer sur la carte.
Pour créer un item service sur une carte, le processus est le même que pour le reste des items des cartes visuelles mais la palette d’options sera comme celle de la capture d’écran.
Vous pourrez contrôler :
Il faut prendre en compte qu’un item du service, contrairement à d’autres items de la carte visuelle, ne peut être lié avec d’autres cartes visuelles. Le lien de la console virtuelle redirige vers la vue de la carte des services arborescence décrite précédemment.
Cette vue permet la visualisation des services sous forme d’arbre.
Chaque niveau indique le nombre d’éléments contenus dans chaque service ou agent.
Dans le premier niveau, les services qui n’appartiennent pas à d’autres seront toujours affichés. Dans le cas d’un service fils, il sera imbriqué dans le service de son père.
La restriction des autorisations ACLs qui ne s’applique qu’au premier niveau
Les arrêts planifiés recalculent la valeur des SLA en tenant compte du fait que le recalcul «à remonter le temps» est autorisé, et que les arrêts planifiés sont à ajouter a posteriori (cette option doit être activée au niveau général dans la configuration générale). Lorsqu'il s'agit d'un rapport SLA de service, s'il existe un arrêt planifié affectant un ou plusieurs éléments du service, on considère que l'arrêt planifié affecte l'ensemble du service, sans pouvoir définir l'impact que l'arrêt a sur l’ensemble du service
Il est important de noter qu'il s'agit du niveau de rapport, des arbres de services et les informations qu'ils présentent dans la console visuelle ne sont pas modifiées par rapport aux arrêts planifiés créés après leur exécution supposée. Ces valeurs de conformité de service sont calculées en temps réel sur les données historiques du même service, il ne s'agit pas d'un rapport pouvant être «préparé».
D’autre part, il est important de savoir comment se calcule le pourcentage de conformité d’un service :
Calcul du poids en mode simple
Les poids sont abordés différemment en mode simple car seul le poid critique existe et a la possibilité de passer dans deux états autre que normal. Chaque élément reçoit le poids 1 en critical et 0 pour les autres états. Chaque fois qu’un changement sur les éléments du service est opéré, les poids du service sont recalculés. Le poids warning du service est dépréciable. Il prend toujours 0.5 pour valeur car s’il reste à 0, le service en warning sera toujours minimal, mais le poids en warning ne s’utilise pas en mode simple. Le poids critical se calcule de façon à être égal à la moitié de la somme des poids critiques des éléments, qui est de 1. Si avec 3 éléments, le poids critical du service est de 1.5 et donc c’est le serveur qui se charge de regarder si le poids critical a été dépassé ou s’il est égal pour passer le service en état critical ou warning.
Calcule de poids selon leur importance
Supposons que nous ayons un service, défini sur 95% de conformité dans un intervalle d’1h. Supposons une table de valeurs, où t est le temps, x le pourcentage de conformité du service (SLA) et s signifie que le service s’exécute ou non (1 il s’exécute, 0 il ne s’exécute pas). En 1 heure, nous aurions exactement 12 échantillons (en supposant un intervalle de 5 minutes).
Prenons le cas d’un service qui s’exécute bien pendant les 11 premiers échantillons (premières 55 minutes) et lors de la soixantième, il échoue. Nous aurions alors ces valeurs :
t | s | x --------+-------+-------- 1 1 100 2 1 100 3 1 100 4 1 100 5 1 100 6 1 100 7 1 100 8 1 100 9 1 100 10 1 100 11 1 100 12 0 91,6
Ce cas est facile à calculer. Le pourcentage se calcule en fonction du nombre d’échantillons. En t3 par exemple, ce sont trois échantillons totaux avec trois échantillons qui exécutent le service à 100% tandis qu’en t12, nous avons 12 échantillons et 11 valides : 11/12.
Supposons que c’est au milieu de l’échantillon et qu’il se remet lentement.
t | s | x --------+-------+-------- 1 1 100 2 1 100 3 1 100 4 1 100 5 1 100 6 0 83,3 7 1 85,7 8 1 87,5 9 1 88,8 10 1 90 11 1 90,9 12 1 91,6
Jusque là, tout semble similaire au point précédent, mais regardons ce qui se passe si nous avançons dans le temps :
t | s | x --------+-------+-------- 13 1 91,6 14 1 91,6 15 1 91,6 16 1 91,6 17 1 91,6 18 1 100 19 1 100 ....
Nous voyons ici un comportement peu intuitif puisque le volume d’échantillons valides reste à 11 pour une fenêtre temporelle, jusqu’à atteindre t18. L’unique valeur invalide est mise à l’écart, de sorte qu’en t18, la conformité soit de 100%. Cet écart entre 91,6 et 100 s’explique par la taille de la fenêtre. Plus la fenêtre est grande (en général le calcul de SLA est quotidien, hebdomadaire ou mensuel), moins l’écart sera conséquent.
Depuis la mise à jour OUM725, il est possible de mettre en sourdine ces éléments d’un service de façon dynamique. Ceci nous permet d’éviter une avalanche d’alertes pour chaque élément qui appartient au service ou aux sous-services.
Lorsque la caractéristique ‘protection en cascade des services’ est activée, l’action associée à l’écran que nous avons configuré pour le service racine s’exécutera, en nous informant sur les éléments qui ont un état incorrect dans le service.
Il est important de garder à l'esprit que ce système permet d'utiliser les alertes des éléments qui deviennent critiques chez le service, bien que son état général soit correcte.
La protection en cascade des services vous avertira avec fidélité des éléments racine qui ont échoué quelle que soit la profondité du service défini.
Dans l'exemple montré, on voit que nous disposons d'un des éléments du service en état critique. Bien que le service principal soit correce, il vous avertira de l'état des éléments incorrecter en déclenchant l'alerte liée à l'élement critique.
Dans un service, nous pouvons avoir un nombre illimité de sous-services (chemins). Dans des versions précédentes à OUM725, Pandora FMS alertait en indiquant l’état du service (normal, critique, avertissement, etc). A partir de OUM725, une nouvelle macro est disponible, qui nous indiquera la cause première de l’état du service.
Pour l’utiliser, nous ajouterons le texte suivant sur l’écran associé au service :
Corps de l’alerte : message d’exemple La chaîne des événements qui ont provoqué l’état du service est la suivante : _rca_
Ceci ne renverra pas une sortie similaire à la suivante :
Corps d’une alerte : exemple de message La chaîne des événements qui ont provoqué l’état du service est la suivante :Aplicación Web -> HW -> Apache server 3] [Application Web -> HW -> Apache server 4] [Application Web -> HW -> Apache server 10] [Application Web -> DB Instances -> MySQL_base_1] [Application Web -> DB Instances -> MySQL_base_5] [Application Web -> Balanceurs -> 192.168.10.139]
En voyant cette sortie, on peut interpréter que :
Une fois ces informations obtenues, cela nous permet de déboguer la raison de l’état du service, en réduisant les tâches d’investigation des causes d’une défaillance.
Les services sont des regroupements logiques faisant partie de la structure d’entreprise d’une organisation. Ainsi, le groupement de services peut avoir du sens puisque dans certains cas, vous pouvez avoir des dépendances les uns entre les autres, formant par exemple un service général (l’entreprise), plusieurs services plus particuliers (site web d’entreprise, communications, etc). Pour regrouper des services, il faut que le service général ou supérieur soit créé, ainsi que les services inférieurs, qui s’y ajouteront pour créer la structure logique en forme d’arbre.
Ces groupements nous aideront par exemple à : créer des cartes visuelles, configurer des alertes, appliquer des politiques de surveillance, etc. De telle sorte que nous puissions créer des alertes qui préviennent lorsque l’entreprise est en état critique car les commerciaux ne peuvent réaliser leur travail ou lorsque la productivité de l’un des sièges se ralentit, en raison de problèmes techniques avec son service ERP.
Pour mieux comprendre ce que sont les regroupements de services, deux exemples seront présentés ci-dessous.
Nous allons voir un cas dans lequel l’état du service de surveillance de Pandora FMS est surveillé, composé du service Apache, MySQL, Pandora Server et Tentacle avec ses poids d'importance respectifs.
Chacun de ces éléments constitue à son tour un service avec différents composants, en format grâce au groupement des services, une structure en forme d’arbre.
Dans cet exemple, le service général de Pandora FMS passera en état critique en atteignant le poids 2 et l’état warning
avec le poids 1. Comme on peut le remarquer, les quatre composants ont différents poids sur le service de Pandora FMS :
warning
, en montrant un avertissement dans le service de Pandora FMS.warning
. Par exemple, par une charge excessive de CPU, faisant alors remonter l’avertissement jusqu’au service général de Pandora FMS.warning
le service de Pandora FMS.warning
dans le service général.Les services sont des regroupements logiques faisant partie de la structure d’entreprise d’une organisation. Ainsi, le groupement de services peut avoir du sens puisque puisque parfois les services seuls n’ont pas beaucoup de sens. Pour regrouper des services, il suffit de les ajouter comme élément à un service supérieur, en créant ainsi un nouveau regroupement logique.
Dans l’exemple suivant, nous avons un cluster de stockage en HA. Pour ce cas, un fichier de deux fileserver fonctionnant en parallèle a été utilisé. Chacun contrôle le pourcentage et l’état d’une série de disques desservant des départements spécifiques, en créant ainsi une structure en forme d’arbre des services regroupés.
Selon cette structure, le seuil de criticité du service de stockage de l’entreprise sera atteint si les deux fileservers échouent puisque cela signifierait qu’ils rejetteraient complètement le service, alors que la défaillance de l’un des deux ne signifierait qu’un service dégradé.
Sur l’image suivante, vous pouvez observer la configuration des poids attribuée aux deux éléments principaux du service de stockage :
Sur l’image suivante, nous pouvons voir le contenu et la configuration des poids du service regroupé FS01. Ici, les éléments auront un poids particulier, en fonction de leur criticité :
warning
, puisqu’il s’agit d’une donnée dépendante de l’état Oui/Non.warning
.warning
. C’est pourquoi, le service FS01 ne sera touché de façon critique que s’il en existe au moins deux en état critique ou bien les quatres disques en état critique.