Quels sont les Four Golden Signals ?

Nous avons récemment publié le IT Topic « Supervision système : Solutions avancées pour une visibilité et une sécurité totales », dans lequel nous présentons comment les solutions avancées pour la supervision des systèmes informatiques optimisent les performances, améliorent la sécurité et réduisent le bruit des alertes grâce à l’IA et à l’apprentissage automatique. Nous avons également mentionné qu’il existe Four Golden Signals sur lesquels la supervision système informatique devrait se concentrer. Le terme « Golden Signals » a été introduit par Google en 2014 dans son livre Site Reliability Engineering: How Google Runs Production Systems, où Site Reliability Engineering (SRE ou ingénierie de la fiabilité des sites) est une discipline utilisée par les équipes informatiques et d’ingénierie logicielle pour créer et maintenir de manière proactive des services plus fiables. Les Four Golden Signals sont également définis :

  • Latence : Cette métrique est le temps qui s’écoule entre la réception d’une demande par un système et l’envoi ultérieur d’une réponse. Il peut s’agir d’une métrique de latence « moyenne » unique, ou peut-être d’une latence « moyenne » établie qui peut être utilisée pour guider les SLA. Mais, comme Golden Signal, nous voulons observer la latence sur une période de temps, qui peut être visualisée comme un histogramme de la distribution de fréquence. Par exemple :

    Cet histogramme montre la latence de 1 000 requêtes effectuées vers un service avec un temps de réponse attendu inférieur à 80 millisecondes (ms). Chaque section de l’histogramme regroupe les requêtes en fonction du temps qu’elles prennent, de 0 ms à 150 ms par incréments de cinq.
  • Trafic : Il s’agit de la demande dans le système. Par exemple, un système peut avoir une moyenne de 100 requêtes HTTPS par seconde ; mais les moyennes peuvent être trompeuses. Vous pouvez examiner les tendances moyennes pour détecter les problèmes ou les moyennes dans le temps. De plus, le trafic peut augmenter à certains moments de la journée (lorsque les gens répondent à une offre pendant quelques heures ou se renseignent sur les cours des actions à la clôture du marché).
  • Erreurs : Il s’agit de codes d’erreur API qui indiquent que quelque chose ne fonctionne pas correctement. La supervision du nombre total d’erreurs qui se produisent et du pourcentage de demandes ayant échoué vous permet de comparer le service avec d’autres. Le SRE de Google élargit ce concept pour inclure les erreurs fonctionnelles des données incorrectes et des réponses lentes.
  • Saturation : Il existe un point de saturation pour les réseaux, les disques et la mémoire lorsque la demande dépasse les limites de performances d’un service. Vous pouvez effectuer un test de charge pour identifier le point de saturation, ainsi que les contraintes, lorsqu’une demande a échoué en premier. Une mauvaise pratique très courante consiste à ignorer la saturation lorsque des équilibreurs de charge et d’autres mécanismes de mise à l’échelle automatisés sont en place. Dans les systèmes mal configurés, une mise à l’échelle incohérente et d’autres facteurs peuvent empêcher les équilibreurs de charge de faire leur travail correctement. Pour cette raison, superviser la saturation aide les équipes à identifier les problèmes avant qu’ils ne deviennent des problèmes graves, en prenant des mesures proactives pour éviter que ces incidents ne se reproduisent.

L’importance des Four Golden Signals dans la supervision

La pertinence des Four Golden Signals dans la supervision des systèmes informatiques réside dans le suivi viable de la latence, du trafic, des erreurs et de la saturation de tous les services, en temps réel, fournissant les éléments permettant aux équipes informatiques d’identifier plus rapidement les problèmes potentiels ou en cours. De plus, avec la vue unique de l’état de tous, le travail de l’équipe dédiée à la supervision systèmes informatiques ou de tiers est accéléré. Au lieu d’effectuer une supervision différente pour chaque fonction ou service, les métriques et les journaux de supervision peuvent être regroupés en un seul endroit. Tout cela contribue à une meilleure gestion des incidents et au suivi de l’ensemble du cycle de vie d’un événement.

Comment mettre en œuvre les Four Golden Signals

Les Four Golden Signals sont un moyen d’aider les équipes SRE à se concentrer sur ce qui est important, afin de ne pas dépendre d’un grand nombre de métriques et d’alarmes qui pourraient être difficiles à interpréter. Pour les mettre en œuvre, il faut :

  • Définir les lignes de base et les seuils : Il définit des plages de fonctionnement normales ou des objectifs de niveau de service pour chaque signal. Les SLO aident à identifier les anomalies et à configurer des alertes significatives. Par exemple, vous pouvez définir un seuil de latence de 200 ms ; s’il est plus élevé, une alerte doit être déclenchée.
  • Mettre en œuvre les alertes : Configurez des alertes pour recevoir des notifications lorsque les signaux dépassent les seuils prédéfinis, en veillant à ce que les problèmes puissent être traités rapidement. La combinaison avec l’IA accélère la gestion et la mise à l’échelle des alertes et des notifications.
  • Analyser les tendances : Passez régulièrement en revue les données historiques pour comprendre les tendances et les modèles, en plus de recueillir des informations pour une planification proactive de la capacité et l’identification des domaines d’opportunité pour les optimiser. L’analytique avancée et l’IA sont des outils précieux pour donner la bonne lecture à ces analyses.
  • Automatiser les réponses: Il essaye d’automatiser les réponses aux problèmes courants afin de ne pas submerger votre équipe informatique et qu’elle puisse également se concentrer sur des tâches plus stratégiques ou des incidents qui méritent vraiment l’attention. Avec l’IA, une mise à l’échelle automatique peut être mise en place pour aider à gérer les pics de trafic.

Outils de supervision réseau : Open Source ou Solutions Commerciales ?

Pour choisir un outil de supervision, la question peut se poser de savoir quelle option est la plus pratique : une solution open source ou commerciale. La réponse ne doit pas dépendre uniquement d’une question économique (que les ressources soient payées ou non), mais de la prise en compte du fait que pratiquement tous les produits informatiques ne peuvent pas se passer de l’open source, car ils sont constamment utilisés et c’est pourquoi nous ne remettons pas en question leur valeur. Bien sûr, il faut garder à l’esprit que, pour utiliser l’open source, vous devez choisir des solutions de supervision soutenues par supervision professionnelle et fiable, en plus du soutien pour une configuration correcte.
Il est également important que la solution open source soit intuitive, ce qui ne représente pas un temps précieux consacré à la configuration, aux ajustements, à la maintenance et à la mise à jour. Rappelez-vous que l’agilité et la vitesse sont nécessaires.

Importance des Four Golden Signals dans l’observabilité

La supervision permet de détecter les problèmes avant qu’ils ne deviennent critiques, tandis que l’observabilité est particulièrement utile pour diagnostiquer les problèmes et comprendre la cause racine. Les Four Golden Signals permettent de mettre en œuvre l’ingénierie de fiabilité du site (SER) sur la base de la disponibilité, des performances, de la supervision et de la préparation aux incidents, ce qui améliore globalement la fiabilité et les performances du système. De plus, la supervision basée sur les Four Golden Signals offre les éléments d’observabilité pour savoir ce qui se passe et ce qui doit être fait à ce sujet. Pour obtenir l’observabilité, il faut rassembler les métriques de différents domaines et environnements en un seul endroit, puis les analyser, les comparer et les interpréter.

Les Golden Signals dans le cadre de l’observabilité Full-Stack

L’observabilité Full-Stack (complète) fait référence à la capacité de comprendre ce qui se passe dans un système à tout moment, en supervisant les entrées et les sorties du système, ainsi que les corrélations entre les domaines et la cartographie des dépendances. Les Four Golden Signals aident à gérer les complexités de la supervision multi-composants, en évitant les angles morts. Le comportement, la performance et l’état du système sont également liés à l’expérience utilisateur et aux résultats commerciaux.
De plus, les Four Golden Signals sont intégrés aux début SRE : acceptation des risques, objectifs de niveau de service, automatisation, réduction des efforts et supervision des systèmes distribués, combinant ingénierie logicielle et opérations pour construire et exécuter des systèmes à grande échelle, distribués et hautement disponibles. Les pratiques du SRE comprennent également la définition et la mesure des objectifs de fiabilité, la conception et la mise en œuvre de l’observabilité, ainsi que la définition, le test et l’exécution des processus de gestion des incidents. Sur les plateformes avancées d’observabilité, les Four Golden Signals fournissent les données pour améliorer également la gestion financière (coûts, décisions de capital pour l’utilisation des technologies, conformité aux SLA), la sécurité et la prévention des risques.

Conclusion

La nature numérique des entreprises a amené les stratèges en sécurité informatique à faire face à la complexité de la supervision multi-composants. Les Four Golden Signals fournissent les indicateurs clés qui s’appliquent à presque tous les types de systèmes. En outre, il est nécessaire d’analyser et de prédire le comportement du système, où l’observabilité est essentielle. À cet égard, MELT (Metrics, Events, Logs, and Traces, ou métriques, événements, enregistrements et suivis) constitue un cadre de référence avec une approche globale de l’observabilité, obtenant des informations sur l’état, les performances et le comportement des systèmes.

Pandora FMS : Une solution complète pour superviser les Four Golden Signals

Pandora FMS se distingue comme une solution complète pour la supervision des systèmes distribués et la mise en œuvre des Four Golden Signals. Voici pourquoi :

1. Polyvalence et flexibilité
Pandora FMS (Flexible Monitoring System) est connu pour sa capacité à s’adapter à différents environnements et besoins commerciaux. Que vous gériez une petite infrastructure locale ou un système distribué complexe à grande échelle, Pandora FMS peut évoluer et s’adapter en douceur.

2. Supervision intégrale de la latence
Pandora FMS permet une supervision détaillée de la latence à plusieurs niveaux, de la latence des applications à la latence du réseau et des bases de données. Il fournit des alertes en temps réel et des tableaux de bord intuitifs qui facilitent l’identification des goulets d’étranglement et l’optimisation des performances.

3. Suivi détaillé du trafic
Avec Pandora FMS, vous pouvez superviser le trafic en temps réel, en obtenant une vision claire du volume de demandes et de transactions. Cet outil vous permet d’identifier les schémas d’utilisation, de détecter les pics inattendus et de planifier efficacement la capacité.

4. Détection et analyse des erreurs
La plate-forme Pandora FMS offre des fonctionnalités robustes pour la détection des erreurs, qu’il s’agisse d’erreurs d’application, d’erreurs de réseau, de perte de paquets, d’erreurs d’interface réseau et d’erreurs de périphérique via des déroutements SNMP en temps réel ou même de défaillances d’infrastructure. Des alertes configurables et des rapports détaillés aident les équipes à répondre rapidement aux problèmes critiques, à réduire les temps d’arrêt et à améliorer la fiabilité du système.

5. Supervision de la saturation des ressources
Pandora FMS supervise l’utilisation des ressources clés telles que le processeur, la mémoire et le stockage, permettant aux administrateurs de prévoir et d’éviter la saturation. Ceci est crucial pour maintenir les performances et la disponibilité du système sous contrôle, en particulier pendant les périodes de forte demande.

6. Intégration avec les outils et technologies existants
Pandora FMS s’intègre facilement à une large gamme d’outils et de technologies existants, ce qui permet une mise en œuvre plus facile et une plus grande interopérabilité. Cette flexibilité facilite la consolidation de toutes les données de supervision sur une plateforme centralisée.

7. Rapports personnalisés et tableaux de bord intuitifs
La possibilité de générer des rapports personnalisés et des tableaux de bord interactifs permet aux équipes informatiques de visualiser efficacement l’état de leurs systèmes. Ces fonctionnalités sont essentielles à la prise de décision éclairée et à l’amélioration continue des services.

8. Support et communauté active
Pandora FMS dispose d’un solide support technique et d’une communauté active qui offre des ressources et une assistance continues. Ceci est crucial pour s’assurer que tout problème est résolu rapidement et que les utilisateurs peuvent tirer le meilleur parti de la plate-forme.

9. Coût-efficacité
Contrairement à de nombreuses solutions commerciales, Pandora FMS offre un excellent rapport qualité-prix, offrant des fonctionnalités avancées à un coût compétitif. Cela en fait une option attrayante tant pour les petites que pour les grandes entreprises.

Shares