¿Qué son las cuatro señales doradas?

Recientemente hemos publicado el IT Topic “Monitorización de sistemas TI: soluciones avanzadas para visibilidad y seguridad total”, en el que presentamos cómo las soluciones avanzadas para la monitorización de sistemas TI optimizan el rendimiento, mejoran la seguridad y reducen el ruido de alertas con IA y aprendizaje automático. También mencionamos que existen cuatro señales doradas en las que debería centrarse la supervisión de los sistemas de TI. El término “señales doradas” fue introducido por Google en 2014 en su libro Site Reliability Engineering: How Google Runs Production Systems,donde Site Reliability Engineering (SRE o ingeniería de confiabilidad del sitio) es una disciplina utilizada por los equipos de TI y de ingeniería de software para crear y mantener servicios más confiables de manera proactiva. También se definen las cuatro señales doradas:

  • Latencia: esta métrica es el tiempo que transcurre entre la recepción de una solicitud por parte de un sistema y el posterior envío de una respuesta. Podrían pensarse que es una métrica de latencia “promedio” única, o quizás una latencia “media” establecida que puede usarse para guiar los acuerdos de nivel de servicio. Pero, como señal dorada queremos observar la latencia durante un período de tiempo, que puede visualizarse como un histograma de distribución de frecuencia. Por ejemplo:

    En este histograma se muestra la latencia de 1000 solicitudes realizadas a un servicio con un tiempo de respuesta esperado de menos de 80 milisegundos (ms). Cada sección del histograma agrupa las solicitudes según la cantidad de tiempo que tardan en completarse, desde 0 ms hasta 150 ms en incrementos de cinco.
  • Tráfico: refiere a la demanda en el sistema. Por ejemplo, un sistema podría tener un promedio de 100 solicitudes HTTPS por segundo; pero los promedios pueden ser engañosos. Se puede observar las tendencias del promedio para detectar problemas o los promedios a lo largo del tiempo. También, es posible que el tráfico aumente en ciertos momentos del día (cuando la gente responde a una oferta por unas horas o se hace consultas sobre precios de las acciones al cierre del mercado.
  • Errores: se refiere a los códigos de error de API que indican que algo no funciona correctamente. El seguimiento del número total de errores que ocurren y del porcentaje de solicitudes fallidas permite comparar el servicio con otros. Los SRE de Google amplían este concepto para incluir errores funcionales de datos incorrectos y respuestas lentas.
  • Saturación: existe un punto de saturación para las redes, los discos y la memoria en el que la demanda supera los límites de rendimiento de un servicio. Puedes hacer pruebas de carga para identificar el punto de saturación, así como también las restricciones, cuando una solicitud falló primero. Una mala práctica muy común es ignorar la saturación cuando existen balanceadores de carga y otros mecanismos de escalado automatizados. En sistemas mal configurados, el escalado inconsistente y otros factores pueden impedir que los balanceadores de carga hagan su trabajo correctamente. Por esta razón, monitorizar la saturación ayuda a los equipos a identificar problemas antes de que estos se conviertan en problemas graves, tomando acciones proactivas para evitar que vuelvan a ocurrir estos incidentes.

La importancia de las cuatro señales doradas en la monitorización

La relevancia de las cuatro señales doradas en la monitorización de sistemas de TI radica en el seguimiento viable sobre la latencia, el tráfico, los errores y la saturación de todos los servicios, en tiempo real, proporcionando los elementos para que los equipos de TI identifiquen los problemas potenciales o en curso más rápidamente. También, con la vista única del estado de todos, se agiliza la labor del equipo dedicado a la monitorización de sistemas de TI o de terceros. En lugar de realizar una monitorización diferente para cada función o servicio, se pueden agrupar métricas y registros de monitorización en una sola ubicación. Todo esto ayuda a una mejor gestión de los incidentes y el seguimiento de todo el ciclo de vida de un evento.

Cómo implementar las cuatro señales doradas

Las cuatro señales doradas son una forma de ayudar a los equipos de SRE a centrarse en lo importante, para no depender de una gran cantidad de métricas y alarmas que podrían ser difíciles de interpretar. Para implementarlas, hay que:

  • Definir las líneas base y umbrales: establece rangos operativos normales u objetivos de nivel de servicio para cada señal. Los SLO ayudan a identificar anomalías y configurar alertas significativas. Por ejemplo, puedes establecer un umbral de latencia de 200 ms; en caso de que sea mayor, se debe activar una alerta.
  • Implementar las alertas: configura alertas para recibir notificaciones cuando las señales superen los umbrales predefinidos, garantizando que se pueda responder a los problemas con prontitud. La combinación con IA agiliza la gestión y escalamiento de alertas y notificaciones.
  • Analizar tendencias: revisa los datos históricos periódicamente para comprender tendencias y patrones, además de recabar información para una planificación proactiva de la capacidad y la identificación de áreas de oportunidad para optimizarlas. La analítica avanzada e IA son herramientas valiosas para dar la lectura correcta a estos análisis.
  • Automatizar respuestas: trata de automatizar las respuestas a problemas comunes para no abrumar a tu equipo de TI y que puedan también concentrarse en labores más estratégicas o incidentes que realmente merezcan atención. Con la IA se puede establecer un escalado automático para ayudar a gestionar los picos de tráfico.

Herramientas de monitorización ¿Código abierto o soluciones comerciales?

Para elegir una herramienta de monitorización, puede surgir la pregunta sobre qué opción es más conveniente: una de código abierto o una solución comercial. La respuesta no debe depender solamente de una cuestión económica (si se paga o no por los recursos), sino de tener en cuenta que prácticamente en todos los productos de TI no se puede prescindir del código abierto, ya que los utilizan constantemente y por eso no cuestionamos su valor. Claro, que hay que tener en cuenta que, para usar el código abierto, se debe elegir soluciones de monitorización que cuenten con el respaldo de monitorización profesional y confiable, además del apoyo para una correcta configuración.
También es importante que la solución de código abierto sea intuitiva, que no represente un consumo de valioso tiempo empleado en tareas de configuración, ajustes, mantenimiento y actualización. Recuerda que se requiere agilidad y velocidad.

Importancia de las señales doradas en la observabilidad

La monitorización permite detectar problemas antes de que se vuelvan críticos, mientras que la observabilidad es particularmente útil para diagnosticar problemas y comprender la causa raíz. Las señales doradas permiten llevar a la práctica la ingeniería de confiabilidad del sitio (SRE) con base en la disponibilidad, desempeño, la monitorización y la preparación para responder a incidentes, lo que mejora en su conjunto la fiabilidad y el rendimiento del sistema. También, la monitorización con base en las señales doradas ofrece los elementos de observabilidad para saber qué está pasando y qué hay que hacer al respecto. Para lograr la observabilidad hay que reunir métricas de diferentes dominios y entornos en un solo lugar, para luego analizarlos, compararlos e interpretarlos.

Las señales doradas como parte de la observabilidad full-stack

La observabilidad full-stack (completa) refiere a la capacidad de comprender lo que sucede en un sistema en cualquier momento, supervisando entradas y salidas del sistema, junto con las correlaciones entre dominios y el mapeo de dependencias. Las señales doradas ayudan a gestionar las complejidades de la monitorización de múltiples componentes, evitando puntos ciegos. También se vincula el comportamiento, el rendimiento y el estado del sistema con la experiencia del usuario y los resultados del negocio.
También, las señales doradas se integran a los principios de SRE: aceptación de riesgo, objetivos de nivel de servicio, automatización, reducción de esfuerzos y monitorización de sistemas distribuidos, combinando ingeniería de software y operaciones para construir y ejecutar sistemas a gran escala, distribuidos y de alta disponibilidad. Las prácticas de SRE también incluyen la definición y medición de objetivos de confiabilidad, el diseño y la implementación de la observabilidad, junto con la definición, prueba y ejecución de los procesos de gestión de incidentes. En las plataformas avanzadas de observabilidad, las señales doradas proveen los datos para también mejorar la gestión financiera (costos, decisiones de capital por uso de tecnologías, cumplimiento de SLA), la seguridad y prevención de riesgos.

Conclusión

La naturaleza digital de los negocios ha hecho que los estrategas de la seguridad de TI enfrenten la complejidad de la monitorización de múltiples componentes. Las señales doradas proveen los indicadores clave que se aplican a casi todo tipo de sistemas. Además, se requiere analizar y predecir el comportamiento del sistema, donde la observabilidad es esencial. A este respecto, MELT (Metrics, Events, Logs, and Traces, o métricas, eventos, registros y seguimientos) supone un marco de referencia con un enfoque integral para la observabilidad, obteniendo información sobre el estado, el rendimiento y el comportamiento de los sistemas.

Pandora FMS: una solución completa para monitorizar las cuatro señales doradas

Pandora FMS se destaca como una solución completa para la monitorización de sistemas distribuidos y la implementación de las cuatro señales doradas. Aquí te explicamos por qué.

1. Versatilidad y flexibilidad
Pandora FMS (Flexible Monitoring System) es conocido por su capacidad para adaptarse a diferentes entornos y necesidades empresariales. Ya sea que estés gestionando una pequeña infraestructura local o un complejo sistema distribuido a gran escala, Pandora FMS puede escalar y adaptarse sin problemas.

2. Monitorización integral de latencia
Pandora FMS permite la monitorización detallada de la latencia en varios niveles, desde la latencia de las aplicaciones hasta la latencia de la red y las bases de datos. Proporciona alertas en tiempo real y dashboards intuitivos que facilitan la identificación de cuellos de botella y la optimización del rendimiento.

3. Seguimiento detallado del tráfico
Con Pandora FMS, puedes monitorizar el tráfico en tiempo real, obteniendo una visión clara del volumen de solicitudes y transacciones. Esta herramienta te permite identificar patrones de uso, detectar picos inesperados y planificar la capacidad de manera efectiva.

4. Detección y análisis de errores
La plataforma de Pandora FMS ofrece una robusta funcionalidad para la detección de errores, tanto errores de aplicación, errores de red, como pérdida de paquetes, errores en interfaz de red y errores de dispositivo a través de traps SNMP en tiempo real o hasta fallos en la infraestructura. Las alertas configurables y los informes detallados ayudan a los equipos a responder rápidamente a problemas críticos, reduciendo el tiempo de inactividad y mejorando la fiabilidad del sistema.

5. Monitorización de saturación de recursos
Pandora FMS monitoriza la utilización de recursos clave como CPU, memoria, y almacenamiento, permitiendo a los administradores prever y evitar la saturación. Esto es crucial para mantener el rendimiento y la disponibilidad del sistema bajo control, especialmente durante períodos de alta demanda.

6. Integración con herramientas y tecnologías existentes
Pandora FMS se integra fácilmente con una amplia gama de herramientas y tecnologías existentes, lo que permite una implementación más sencilla y una mayor interoperabilidad. Esta flexibilidad facilita la consolidación de todos los datos de monitorización en una plataforma centralizada.

7. Informes personalizados y dashboards intuitivos
La capacidad de generar informes personalizados y dashboards interactivos permite a los equipos de TI visualizar el estado de sus sistemas de manera efectiva. Estas funcionalidades son esenciales para la toma de decisiones informadas y la mejora continua de los servicios.

8. Soporte y comunidad activa
Pandora FMS cuenta con un sólido soporte técnico y una comunidad activa que ofrece recursos y asistencia continuos. Esto es crucial para garantizar que cualquier problema se resuelva rápidamente y que los usuarios puedan aprovechar al máximo la plataforma.

9. Coste-efectividad
A diferencia de muchas soluciones comerciales, Pandora FMS ofrece una excelente relación calidad-precio, proporcionando funcionalidades avanzadas a un coste competitivo. Esto la convierte en una opción atractiva tanto para pequeñas empresas como para grandes corporaciones.

Shares