Pandora: Documentation fr: Introduction

From Pandora FMS Wiki
Jump to: navigation, search

1 Introduction

1.1 Qu’est-ce-que Pandora FMS exactement ?

Pandora FMS est un logiciel de surveillance qui s’intègre à tout environnement. Généraliser le terme "surveillance" est risqué car il existe des centaines d’outils, chacun étant adapté à un type d’environnement. En effet, surveiller des imprimantes dans une petite entreprise, ce n’est pas la même chose que de surveiller des milliers d’interfaces de switches et de trafic réseau dans un centre de données avec des milliers de serveurs. Pandora FMS est conçu pour être utilisé pour tout type de rôles et organisations. Son objectif est d’être suffisamment flexible, notamment pour gestionner et contrôler toute votre infrastructure, sans investir du temps ni de l’argent dans d’autres outils. FMS est l’acronyme de “Système de Surveillance Flexible" (en anglais : Flexible Monitoring System). Ce logiciel a pour but, dans une seule et même plate-forme, de surveiller aussi bien les outils et systèmes de dernières générations que des éléments plus anciens, difficiles d’accès et peu compatibles.

Mapared enterprise.png

Pandora FMS dispose actuellement d’agents pour tous les systèmes d’exploitations “modernes” du marché, un “agent” étant comme la pièce du logiciel qui s’installe dans un système pour extraire des informations et les reporter au serveur Pandora FMS. Pandora FMS peut tout aussi bien s’utiliser pour surveiller des systèmes que pour surveiller tout type de dispositifs de réseau, soit utilisant SNMP (version 1,2,3) ou par des sondes de protocole (snmp, ftp, dns, http, https, etc).

1.2 Approche de la documentation

Toute cette puissance et cette flexibilité connaît une certaine difficulté initiale qui est implicite. Bien que la majorité de la configuration soit graphique, nous sommes conscients qu’apprendre à manier Pandora FMS pourrait être fastidieux. Pour cela, nous avons élaboré le manuel de forme avec plus de 800 pages de documentation, organisées dans plusieurs parties :

  • Partie 1. Description de Pandora FMS.
  • Partie 2. Installation et configuration
  • Partie 3. Surveillance avec Pandora FMS.
  • Partie 4. Utilisation et gestion de Pandora FMS.
  • Partie 5. Environnements complexes et productivité maximale.
  • Partie 6. Métaconsole
  • Partie 7. Annexes techniques.
  • Partie 8. Référence technique.

En plus de la documentation officielle, il existe un forum des utilisateurs où vous pouvez poser vos questions à d’autres utilisateurs, en anglais, en espagnol en japonais, ou en tout autre langue. Si vous avez besoin d’une formation officielle, il existe un programme de formation officielle en partie dispensé par les dévellopeurs de Pandora FMS.

Par ailleurs, il existe des guides rapides pour aider à configurer Pandora FMS et implémenter des surveillances simples, telles que pour l’installation d’agents logiciel, aussi bien pour Linux que pour Windows. Pour plus d’information, veuillez consulter notre site web : https://pandorafms.com/fr

1.3 L’évolution du projet Pandora FMS

Pandora FMS vient d’un développement personnel de son auteur original, Sancho Lerena, en 2003. Depuis, il n’a cessé d’évoluer, devenant aujourd’hui un outil robuste et bien réfléchi. Même si, initialement, c’était un code ouvert à 100%, au fil des années, la nécessité d’offrir une version pensée pour les grandes entreprises s’en ait fait sentir : Pandora FMS Enterprise. Cette dernière propose quelques caractéristiques spécifiques pour des environnements qui requièrent le traitement de grands volumes d’informations et qui travaillent sur des milliers de dispositifs. L’entreprise espagnole qui s’est formée au cours du développement de Pandora FMS et qui coordonne tout le travail de support est Ártica Soluciones Tecnológicas, fondée en 2005 par le créateur de Pandora FMS. Cependant, la version OpenSource continue d’évoluer et d’être pleinement opérationnelle et fonctionnelle pour l’usage en production. De ce fait, la majorité des personnes qui n’ont pas besoin d’un support professionnel ou qui dispose d’un personnel en trop, utilisent la version OpenSource.

Roadmap 2017.png

Pandora FMS se place parmi les premiers postes de Sourceforge. Il a des milliers de téléchargements et des utilisateurs satisfaits dans le monde entier. Vous trouverez plus d’informations sur l’évolution et la roadmap du projet en consultant : https://pandorafms.com/fr

1.4 Un coup d’oeil sur les fonctionnalités de Pandora FMS

Explanation scheme.png
  • Auto surveillance. La surveillance par défaut des agents de Pandora FMS permet de détecter les disques durs, les partitions ou les bases de données, entres autres.
  • Auto découverte. À distance et en utilisant le réseau, il est possible de détecter tous les éléments du réseau, les classer selon leur système d’exploitation et, avec un profil, de commencer à les surveiller. De même, il est possible de détecter la topologie de réseau et de construire un schéma de réseau basé sur le routage.
  • Surveiller. Les agents de Pandora FMS font partie des plus puissants du marché. Ils peuvent obtenir des informations, de l’exécution d’une commande à l’appel, à un niveau inférieur de la API de Windows : événements, journaux, données numériques, états d’un processus, utilisation de mémoire ou de CPU. Pandora FMS dispose d’une bibliothèque de vérifications par défaut. Mais la principale particularité de ce logiciel est la facilité avec laquelle il est possible d’ajouter et de créer de nouvelles surveillances.
  • Contrôler. Les propres agents peuvent lever des services, effacer des fichiers temporaires ou exécuter des processus. Par ailleurs, il est également possible d’exécuter à distance, depuis la console, des tâches comme arrêter ou démarrer des services. De même, il est possible de programmer des tâches pour son exécution quotidienne. De plus, Pandora FMS peut être utilisé pour accéder, à distance, aux systèmes éloignés, grâce à “eHorus”, voire même d’employer des outils comme Telnet ou SSH, tout depuis une interface web.
  • Alerter et notifier. Prévenir d’une erreur est aussi important que de la détecter. Avec Pandora FMS, vous disposez d’une variété, presque infinie, de formes et formats de notifications, comprenant des échelons, corrélation d’alertes et protection de cascade d’alertes.
  • Visualiser et analyser. Surveiller, ce n’est pas seulement recevoir un trap ou visualiser un service défaillant, c’est aussi présenter des rapports de tendances, des graphiques résumés de données reliées pendant des mois, générer des portails d’utilisateurs, déléguer des rapports à des tiers ou définir ses propres graphiques et tables. Pandora FMS incorpore tout cela depuis son interface web.
  • Inventorier . Contrairement à d’autres solutions pour lesquelles le concept de CMDB est la base, pour Pandora FMS, c’est optionnel. L’inventaire est flexible et dynamique et peut se contrôler à distance, effectuer une auto-découverte etc. Il peut notifier des changements (par exemple, un logiciel désinstallé dans un appareil) ou simplement être utilisé pour dresser des listes.

2 Introduction à la surveillance

Depuis le début, chaque manuel technique d’un paquet de logiciel nous informe sur la configuration, les archives de textes, les bases de données, les protocoles etc. Très souvent, nous apprenons la configuration de base, mais nous ignorons tout le potentiel du logiciel que nous utilisons, ce que nous pouvons réellement faire avec et dans quelles situations. Le but de cet aparté est d’expliquer brièvement mais systématiquement la “théorie” derrière la surveillance en tant que telle, indépendamment du logiciel de surveillance utilisé, avant de commencer à traiter de sujets purement techniques.

2.1 Types de surveillance

Lorsque nous demandons “comment va” un élément précis, que ce soit un serveur, une base de données, un élément de réseau ou un réfrigérateur, nous pouvons nous poser plusieurs questions.

  1. Comment nous obtenons l’information ? Existe-t-il quelque chose dans le dispositif qui s’en charge ou devons-nous “faire des allés et venues” en l’interrogeant ?
  2. Sommes nous plus intéressés de l’interroger constamment ou d’attendre que quelque chose se produise?
  3. Quel type d’informations me donne-t-il ? Est-ce quelque chose qui puisse être représenté par un graphique pour suivre la progression ?

Ces questions répondent à trois autres questions essentielles qui vont conditionner toute l’installation de notre modèle de surveillance.

La première question répond aux types de surveillance que nous allons utiliser, basée sur des agents qui s’exécutent dans le dispositif que nous souhaitons surveiller. Sinon, au contraire, de manière externe, en utilisant une connexion réseau. Il existe des systèmes réseaux qui fonctionnent de différentes façons et des dispositifs qui peuvent être contrôlés que d’une manière. Pandora FMS, lui, supporte tous les modèles.

La seconde question répond au fait de savoir si la surveillance est synchrone (Toutes les X secondes, il s’interroge, indépendamment du statut de l‘information) ou asynchrone (il n’informe que lorsque quelque chose d’important s’est produit). Sí vous utilisez la surveillance synchrone avec 10 millions d’éléments et que toutes les 5 minutes vous recueillez des données, la charge sera considérable. Cependant, si vous le faites toutes les 50 minutes, ce sera mieux gérable. Néanmoins, si quelque chose se produit, vous n’en serez notifié que 50 minutes plus tard. Si vous utilisez la surveillance asynchrone (par exemple avec les traps SNMP ou avec les journaux), vous économisez de nombreuses ressources. Toutefois, vous ne pourrez pas faire de graphiques ni d’historiques, sauf pour les événements produits. Beaucoup d’outils se basent sur le premier modèle (parfois connus sous le nom d’outils de “rendement” ou “capacity”). Il existe aussi des outils basés sur le modèle de gestion des événements et, souvent, ils ne servent pas pour les deux choses. Pandora FMS supporte les deux approches.

La troisième question fait référence au fait que parfois, c’est une chaîne de texte qui va nous intéresser (un événement descriptif), une autre fois un nombre (pour réaliser des graphiques), ou simplement un état (actif, défaillant…). Pouvoir travailler avec différents types de données apporte plus de flexibilité. Pandora FMS supporte tout type de données.

Ces trois “paradigmes” conditionnent en grande partie votre environnement et l’outil à choisir pour surveiller. Demandez-vous quel type d’information vous avez besoin et pensez à la meilleure manière de l’obtenir. Organisez quels éléments d’information vous souhaitez disposer et comment vous envisagez de les surveiller.

2.2 Surveillance à distance

Quand nous évoquons la surveillance à distance, nous faisons référence au serveur de Pandora FMS qui contrôle, de manière régulière ou “synchrone”, les dispositifs que vous souhaitez surveiller. Ce processus de de contrôle synchrone est connu sous le nom de “polling”. Lorsque nous traitons ce modèle, nous ne faisons pas référence à la surveillance “locale” ou basée sur des agents installés sur les dispositifs à surveiller.

Esquema-REMOTE-MODULE-EXECUTION.png

En général, lorsque nous faisons une surveillance à distance, ce sont pour deux raisons différentes :

  • Vérifier qu’ils sont actifs (par exemple l’interface ou le système actif).
  • Obtenir une valeur numérique (par exemple, mesurer le trafic réseau ou le nombre de connexions actives).

Cette surveillance, quand elle est synchrone, se fait toujours dans le même sens : du serveur de surveillance à l’élément surveillé.

Au contraire, vous pouvez aussi être intéressé par un dispositif qui “vous prévienne” quand quelque chose se produit. Ceci est la surveillance “asynchrone”, et dans le cas d’une surveillance à distance, on parle généralement de “traps SNMP”.

La surveillance synchrone se réalise habituellement en utilisant le protocole SNMP, qui est le plus développé en termes d’équipement de réseau. Évidemment, il est aussi possible de le faire avec WMI, un protocole identique mais de Microsoft. Tous deux fonctionnent de la même manière : un serveur “question” pour le réseau, pour un élément concret de configuration de “l’agent SNMP” ou “Service WMI” qui écoute dans le dispositif. Cet élément concret dans SNMP se nomme OID et dans WMI, il s’identifie par une query WQL. Ce peut être la mémoire libre du système, le nº de connexions du routeur ou du trafic dans une interface déterminée.

Si votre surveillance concerne surtout des environnements de réseau, “vous avez besoin” de connaître SNMP en détails, qui sera la partie qui vous intéressera le plus dans votre outil de surveillance. La asynchrone, par des traps SNMP, est aussi essentielle. Vous devrez, en plus d’un outil de surveillance, posséder un explorateur “externe” de dispositifs SNMP, un accès aux collections de MIBS des fabricants de vos dispositifs réseau (qui sont vos bibliothèques de OID’s), et évidemment, beaucoup de patience pour rechercher, puisque chaque dispositif a généralement sa propre collection de OID’s et seulement quelques éléments vous intéresseront parmi les milliers dont dispose chaque dispositif.

Si votre surveillance concerne des serveurs Windows et que vous ne souhaitez pas installer des agents dans les machines, la surveillance à distance WMI est également très appropriée et puissante. L’interface WMI est encore plus puissante que celle de SNMP. Avec WMI, vous pourrez obtenir pratiquement n’importe quelle donnée, que ce soit sur l’état ou un événement de votre serveur Windows. Les systèmes Unix et Windows peuvent aussi être interrogés au moyen de SNMP mais l'information qu’ils renvoient est considérablement moindre. De plus, vous aurez besoin d’activer et de configurer les agents SNMP du système d’exploitation, une chose qui peut s’avérer plus compliquée que de simplement installer un agent de surveillance de Pandora FMS.

Enfin, vous pourrez toujours surveiller des éléments en utilisant des tests TCP ou ICMP. Ce dernier s’utilise surtout pour :

  • Savoir si un système répond (ping).
  • Savoir le temps de latence (réponse) de ce dispositif (en millisecondes)

Grâce aux tests TCP, vous pouvez savoir si un serveur WEB répond correctement, ou si un serveur de courrier (SMTP) a bien envoyé les courriers. Ce genre de tests ne cherche pas seulement à ce que le service maintienne le port ouvert, mais à ce qu’il réponde correctement, c’est-à-dire en lui demandant d’envoyer des courriers. Vous recevez un OK ou la réponse du serveur WEB, soit “200 OK” (réponse valide dans le protocole HTTP).

Il existe une série de plugins par défaut pour des vérifications TCP mais il peut facilement implémenter vos propres vérifications, en adaptant ses propres scripts ou en développant de nouveaux. L’intégration avec Pandora FMS ne requiert pas “API”, ni de structures complexes ou de bibliothèques propriétaires.

La surveillance transactionnelle web, bien qu’elle soit à distance, reçoit un chapitre spécifique de par son importance.

2.3 Surveillance locale (avec des agents logiciels)

Lorsqu'on parle de systèmes et d’applications, nul doute que la meilleure façon d’obtenir l’information est directement sur le système, en exécutant des commandes ou en consultant des sources de données du système depuis la machine même que vous souhaitez surveiller. Ceci suppose qu’il faille exécuter n’importe quel type de commande, script ou faire n’importe quelle forme de consultation sur le système ou l’application. Nous utiliserons pour cela l’agent logiciel de Pandora FMS.


Dans la nomenclature qu’utilise Pandora FMS, on parle d’agent pour se référer à “l’entité” qui contient l’information. Pour cela, nous parlons “d’agent logiciel”, un morceau du logiciel qui s’installe dans un système pour en extraire des informations et les rapporte au serveur de Pandora FMS. L’agent logiciel s’exécute constamment sur le système (comme service) et rapporte l’information tous les X moments.

Esquema-AGENT-MODULE-EXECUTION.png

Les agents, en plus de leur fonction essentielle qui est de récolter les informations grâce aux commandes, comprennent une autre série de fonctions avancées, comme obtenir l’information d’inventaire. Il est également possible de configurer pour qu’ils agissent efficacement en cas de problèmes ou de failles, interagissant automatiquement avec le système, effaçant quelque fichier temporaire ou exécutant quelque commande.

Pour obtenir des informations “précises” et “spécifiques” sur ce qui nous intéresse, nous devrons consulter la documentation de l’application que nous souhaitons surveiller, puisque même si nous disposons de moniteurs génériques, la surveillance interne des applications comporte une certaine complexité en plus et des éléments spécifiques.

Sous Windows, il existe une variété presque infinie d’accès à l’information : WMI, Perfcounters, Eventlog, journaux du système, registre, commandes, scripts de powershell, API de NT, etc. De ce fait, l’architecture de Microsoft est l’une des plus faciles, puissantes et mieux documentées pour obtenir l’information du système. Sous Unix/Linux, la capacité de l’agent software pour exécuter n’importe quelle commande nous permet de profiter de toute la puissance de la shell.

2.4 Procédés de surveillance

Avant de débuter une étape de déploiement, il est important d’identifier quels sont les points critiques et de hautes importances de la plate-forme technologique à surveiller. De cette façon, avant d’avoir des informations de données concrètes sur les systèmes, nous pouvons savoir quoi faire avec eux et comment les exploiter sans perdre du temps en recherches de détails banaux.


Ciclo monitorizacion.png

Dans votre cas, qu’est ce qui décrit le mieux votre besoin de surveillance ?

  • Éviter des pertes -> Disponibilité.
  • Analiser des dégradations -> Productivité.
  • Évaluer des croissances -> Planification de capacité.

Dans chacun des cas, il vous faudra vous concentrer sur quelques aspects concrets.

Disponibilité. S’intéresse surtout à une surveillance basée sur des événement. Avec une surveillance à distance suffisante, il est plus rapide de déployer et d’avoir de brefs résultats. Les rapports de SLA seront les plus importants dans ce cas.

Productivité. Elle concerne les graphiques et les nombres. Vous pouvez obtenir cette information aussi bien avec des agents qu’avec des vérifications à distance. Mais il faut probablement des agents pour obtenir une information détaillée de systèmes. Son intérêt est les rapports regroupés et les graphiques combinés possibles.

Planification de capacité. Beaucoup plus spécialisée, elle a besoin d’obtenir des données, comme dans le second cas, mais il doit jouer avec des moniteurs de types prédictifs et des rapports de protection très spécifiques. Établir des alertes dès le début sera de grande aide. Il faudra bien connaître les concepts des états WARNNG et CRITICAL, en plus d’élaborer une série de politiques de gestion d’événements qui permettent de prévoir le problème avant que n’arrive, certainement, le cas le plus complexe et intéressant. Maintenant que vous connaissez le modèle à suivre, vous êtes-vous demandés ce qu’il y aura quand le système vous dira que X service est défaillant ? Pire encore, que se passera-t-il quand la capacité de vos serveurs arrivera à sa limite vendredi prochain ?

Il vous faut penser aux procédés d’intervention.

2.5 Procédés d’intervention

Pour pouvoir élaborer des procédés d’intervention, il faudra prendre en compte divers facteurs :

  • Niveau de gravité de l’événement': être capable de différencier quelque chose d’habituel de quelque chose de peu fréquent ou grave.
  • Notifications: email, sms, Telegram, alerte sonore...
  • Échelonnement: différentes façons d’alerter après la réitération d’un problème. Habituellement, une notification est adressée à un responsable après un certain temps sans résolution du problème.

Avant de commencer les configurations, il est conseillé de bien avoir en tête ces concepts, d’élaborer des schémas avec les éléments critiques, penser à la manière de les surveiller, quoi faire avec toute l’information obtenue et comment notifier les problèmes qui surviennent.


Scalation example.png

Si dans un premier temps, vous vous focalisez sur le plus grave, vous avez le point de départ du “qu’est-ce-que le plus important pour mon entreprise ?”. Une fois que vous avez pris conscience de cela, vous découvrirez le “comment” surveiller et par la même occasion, le “qui” est responsable du maintien de ces systèmes et comment notifier.

2.6 Modèles de supervision

Par supervision, nous entendons le fait qu’un système de surveillance est élaboré pour rapporter des informations et fonctionner de manière automatique, mais qu’il est surveillé, directement ou indirectement, par un être humain. Cette personne est nommée “opérateur”. Elle observe l’écran ou reçoit les événements d’une manière quelconque qui peut être : au moyen d’un dispositif “smartphone” ou autres similaires, grâce aux courriers ou registres journaux collectés avec un autre outil. Le système importe peu, le plus important est le fait qu’il y ait quelqu’un en charge du système.

Notice ways.png

D’autre part, il existe des personnes, généralement nommées “administrateurs du système” ou “personnels d’infrastructure” qui sont celles qui, lorsqu’un problème survient, reçoivent un appel d’un opérateur -“écoutez, nous avons un problème”- ou bien directement une notification automatique de la part du système sous forme de SMS ou emails, par exemple.

Nous voyons ici une grande différence :

  • Le “modèle de supervision directe” implique qu’il y a une ou plusieurs personnes observant sans cesse le système et si quelque chose de critique se produit, ce sera vu instantanément. Vous pouvez probablement voir de petits changements, sans gravité, et avoir beaucoup plus de flexibilité. Il n’est pas nécessaire de définir des alertes pour chacun des cas possibles, il suffit de regarder les événements (récents) et comprendre pourquoi ils se produisent dans le système à ce moment.

De plus, il est possible de définir de nombreux écrans ainsi que des alertes pour soutenir cette supervision. Dans de grands environnements, ce modèle est utilisé puisque, pour toutes les politiques d’alertes que nous définissons, une supervision “autonome et parfaite” ne peut jamais être garantie.

  • Le “modèle de supervision indirecte” implique qu’il n’y ait pas une personne qui observe en permanence l’écran. Ainsi, il faut définir en amont quelles notifications automatiques vont être utilisées, puisque les événements, les graphiques ne seront pas sous surveillance continue. Ce système est adéquate pour des environnements qui disposent de peu de dispositifs, ou qui ont très bien identifiés les éléments critiques et la manière d’aborder le problème (notification et solution).

2.7 Et maintenant ?

Les chapitres suivants sont exclusivement dédiés à Pandora FMS. Jusqu’à maintenant, nous avons exclusivement parlé de choses générales. Il est important de savoir cela pour ensuite découvrir l’outil plus en détails. Nos utilisateurs en savent probablement beaucoup. Il se peut aussi qu'ils aient testé d’autres programmes de surveillance, ou qu’ils aient entendu dire que telle ou telle application ne se surveille que d’une façon précise dans chaque cas et que son type de surveillance est le meilleur.

De notre expérience, chaque client fait les choses à sa façon, et de ce que nous savons de la surveillance, nous pensons que la personne la plus apte à identifier les besoins en surveillance d’une infrastructure est son usager lui-même. Surveiller des choses simples, ce n’est pas compliqué. Mais ce qui est plus fastidieux, c’est d’adapter la surveillance à une entreprise sans adapter l’entreprise à la surveillance. Nous avons plus de 800 pages devant nous pour découvrir la manière optimale pour surveiller une entreprise avec Pandora FMS. C’est notre défi !

Retour à l'index de documentation du Pandora FMS