Métricas TI: ¿cuáles son las más importantes?
A la hora de monitorizar nuestras infraestructuras surge una pregunta, de cuya respuesta dependerá el buen devenir de nuestro CPD.
¿Qué métricas debo monitorizar para saber el estado de mis infraestructuras?
En este artículo os vamos a hablar de las principales métricas TI que debéis tener en cuenta para conocer el estado de vuestra infraestructura y en caso de que haya problemas solventarlos lo antes posible.
Para empezar, en Pandora FMS nos gusta hacer especial hincapié en que muchas empresas están muy orientadas a medir la experiencia del usuario y en muchas ocasiones se olvidan de medir todo lo que hay detrás de los servicios que ofrecen a sus usuarios. El orientar nuestra monitorización única y exclusivamente a la experiencia de nuestros usuarios (funcionamiento de sus servicios, tiempo de respuesta de los mismos, calidad del servicio ofrecido al cliente, etc.) olvidando las métricas TI que soportan los servicios del cliente, nos llevará a detectar tarde y con difícil solución los problemas de nuestra infraestructura.
Estamos de acuerdo en que debemos medir la experiencia del usuario y esta debe ser máxima, pero nos gusta insistir en que sin los sistemas que ofrecen los servicios a los clientes poco o nada se puede hacer en muchas ocasiones, por lo que primero nos debemos focalizar en medir nuestra infraestructura y más adelante monitorizaremos la experiencia del usuario y el negocio.
Ahora toca el momento para medir la infraestructura; en próximos artículos hablaremos de métricas de cliente y negocio, que también podrán ser incorporadas en Pandora FMS.
Si estáis evaluando la posibilidad de definir nuevas métricas de rendimiento de tu infraestructura, te recomendamos que antes compruebes si tienes la herramienta de monitorización de redes adecuada (ver al final del artículo) y que elijas la mejor herramienta de monitorización de redes que se adecue a tus necesidades.
Métricas TI para controlar nuestros sistemas
El objetivo de definir una estructura coherente de métricas TI a monitorizar es el de poder conseguir monitorizar, gestionar, optimizar y generar informes de todos nuestros servicios de forma regular.
Las métricas TI deben diseñarse para garantizar que tanto la infraestructura como las redes y las aplicaciones están configuradas y funcionando correctamente. Para aquellas empresas que tengan infraestructuras con máquinas virtuales, contenedores o en la nube, deberán aplicar las mismas métricas a estos sistemas.
A continuación os enumeramos las principales métricas TI a tener en cuenta.
Indicadores de rendimiento
Indicadores de rendimiento de sistemas
- Capacidades y estado del almacenamiento de los discos.
- Estado de los interfaces de red. Deberemos saber si nuestros interfaces de red están activos y si hay algún problema con ellos.
- Memoria y uso de cada servidor.
- Estado y consumo de CPU por procesador.
- Accesos de entrada y salida a nuestros discos de almacenamiento.
- Velocidad de lectura y/o escritura en nuestros discos.
- Número de hilos abiertos por cada procesador.
Indicadores de rendimiento de bases de datos
- Uso de memoria de cada base de datos.
- Número de ejecuciones de secuencias SQL separadas por lectura (selects) y escritura (deletes, inserts y updates).
- Accesos de entrada y salida a disco originados por cada base de datos.
- Tiempo de respuesta de las ejecuciones de las ejecuciones SQL.
- Número de hilos esperando para acceder a la base de datos.
- Número de bloqueos detectados a la hora de escribir en base de datos.
Indicadores de rendimiento de aplicación
- Tiempos de respuesta de nuestras aplicaciones.
- Disponibilidad, en porcentaje, de nuestras aplicaciones. ¿Cuánto tiempo está disponible nuestra aplicación y cuánto tiempo deja de funcionar? Deberá también identificarse los diferentes componentes que forman una aplicación y monitorizar la disponibilidad de los mismos.
- Memoria y CPU consumida por cada aplicación.
- Número de veces que el garbage collector actúa para optimizar los recursos consumidos por las aplicaciones.
- Número de hilos que requiere cada aplicación.
- Número de transacciones ejecutadas por cada aplicación identificando las principales transacciones.
- Número de transacciones fallidas por cada aplicación.
Indicadores de rendimiento de red
- Ancho de banda. Conocer el consumo de ancho de banda en cada red nos permitirá detectar posibles mejoras e impactos en el funcionamiento de nuestros sistemas.
- Tiempo de respuesta de una conexión entre un punto origen y un destino. Aquí deberemos encontrar cuáles son las principales comunicaciones a monitorizar y deberemos controlar el tiempo de respuesta de sus comunicaciones.
- Pérdida de paquetes. Todos los interfaces de red generan estadísticas sobre el número de paquetes perdidos en las comunicaciones. Conocer el estado de esta pérdida será vital para conocer la salud de nuestra red.
- Ruido de la red o jitter. Es importante conocer si nuestras redes están recibiendo un ruido sustancial como para poder estar causando pérdidas de información, reintentos y por lo tanto, ralentización de nuestras comunicaciones.
- Cantidad de información transmitida entre nuestras aplicaciones.
¿Qué hacer cuando nuestros sistemas tienen degradación?
Si las métricas TI anteriormente mencionadas están siendo correctamente provisionadas e informadas, ya sea vía un panel o vía generación de informes, deberemos ser capaces de encontrar los problemas en nuestras infraestructuras a tiempo de que se produzcan grandes catástrofes.
El problema surge ahora cuando ya hemos detectado un problema y no sabemos cómo abordarlo. Es muy importante, para ello, conocer cuáles son las principales causas de degradación del rendimiento de nuestros sistemas:
- Problemas de aumento del tiempo de respuesta entre nuestras aplicaciones a través de la red. Aquí será muy importante evaluar el ancho de banda consumido por las aplicaciones en la comunicación, para detectar si este está siendo utilizado por encima de un 80% o si se ha introducido ruido en nuestra red provocando el aumento del tiempo de respuesta.
- Otro problema que puede ocasionar la degradación de nuestra red o infraestructura puede ser el diseño de una arquitectura de red ineficiente. ¿Tienes el mapa de tu red? Si no lo tienes, utiliza un monitor de red para descubrirla y evalúa las diferentes conexiones y su ancho de banda.
- La sobreutilización de los recursos de nuestros servidores puede generar la degradación de nuestros sistemas. Los principales recursos a tener en cuenta, y que no deben superar el 80% de uso, serán el espacio en disco, la CPU y la memoria.
- Código mal estructurado o ineficiente. Si los puntos anteriores se han verificado y no se han detectado mejoras a realizar, el siguiente paso será examinar el código fuente de nuestras aplicaciones. En muchas ocasiones, un código ineficiente o que genere pérdidas de memoria puede ser el causante de la degradación de nuestros sistemas.
- En paralelo, siempre deberemos estar alerta a posibles problemas originados por ataques de seguridad. Malware instalado en nuestras máquinas o ataques de denegación de servicio puede ser causas que estén provocando la pérdida del rendimiento de nuestras aplicaciones.
Puntos finales a tener en cuenta en la medición de nuestras infraestructuras
- Posibilidad de consultar nuestras métricas TI a lo largo del tiempo. Para poder identificar los problemas, será necesario que todas las métricas TI identificadas anteriormente se almacenen y puedan ser evaluadas a lo largo del tiempo.
- Elegir qué métricas TI debemos monitorizar y cuáles no. Lo recomendado suele ser no tener más de 30 métricas. Si de todas formas crees que necesitas más métricas por la complejidad de tu infraestructura no intentes, bajo ningún concepto, monitorizar más de 100 métricas.
- Identifica cuáles son los principales objetivos a cumplir por tu negocio (venta de productos, contratación de un producto, visionado de películas, etc.) e identifica las métricas TI que están alineadas con los servicios que ofrece tu negocio.
- Otro de los aspectos que debemos tener muy en cuenta es que cada vez más nuestros sistemas están descentralizados y se distribuyen por diferentes áreas geográficas. Además, el movimiento de las empresas a la nube debe ser muy tenido en cuenta, pues nuestro sistema deberá integrar la monitorización de sistemas in-house y en la nube.
¿Qué os ha parecido este artículo? ¿Echáis de menos alguna métrica TI?
El equipo de redacción de Pandora FMS está formado por un conjunto de escritores y profesionales de las TI con una cosa en común: su pasión por la monitorización de sistemas informáticos. Pandora FMS’s editorial team is made up of a group of writers and IT professionals with one thing in common: their passion for computer system monitoring.