Qué es un SLA

Un Acuerdo de Nivel de Servicio (SLA) es un documento que detalla el nivel de servicio esperado garantizado por un proveedor o producto. Este documento generalmente establece métricas como las expectativas de tiempo de actividad y cualquier renumeración si estos niveles no se alcanzan.

Por ejemplo, si un proveedor anuncia un tiempo de actividad del 99,9% y supera los 43 minutos y 50 segundos de caída de servicio, técnicamente el acuerdo de nivel de servicio se ha incumplido y el cliente puede tener derecho a algún tipo de renumeración en función del acuerdo.

Para qué queremos los SLA

Un Acuerdo de Nivel de Servicio (SLA) sirve para concretar la calidad de un servicio. Es una forma de definir el límite de los fallos o de los tiempos en los que se mide la respuesta a un servicio. Cada servicio mide su calidad de una manera diferente, pero en todos los casos se refiere a tiempos, y por lo tanto se puede medir.

Por ejemplo, si trabajáramos en un restaurante, definiríamos nuestra SLA de atención a cliente con varios parámetros:

  • Tiempo máximo desde que un cliente se sienta en la mesa y es atendido por un camarero.
  • Tiempo máximo desde que pide la bebida y se le sirve.
  • Tiempo máximo desde que pide la comida y se le sirve.
  • Tiempo máximo desde que pide la cuenta y paga.

Supongamos que en nuestro restaurante, consideramos que lo más importante es la atención inicial, y que no pueden pasar más de 60 segundos, desde que se sienta hasta que es atendido. Si tuviéramos un negocio totalmente sensorizado con tecnología IoT podríamos medir el tiempo desde que el cliente se sienta en una mesa hasta que un camarero se aproxima a la mesa.

De esta manera, podríamos medir a cada camarero el nº de veces que logran atender a un cliente en el tiempo marcado. La forma de hacerlo puede ser mas o menos sencilla, pero vayamos a lo simple, supongamos que cada vez que lo hacen en menos de 60 segundos cumplen y cuando no llegan, no cumplen. Así si de diez clientes que atienden en una hora, solo dos fallan, estarian cumpliendo un 80%. Podemos hacer la media de toda su jornada y así fácilmente comparar a diferentes empleados para saber cual tiene mas “calidad” en la métrica de “atender a un cliente cuando se sienta”.

Si utilizamos un sistema de monitorización, podríamos notificar a su gerente cada vez que la calidad global del servicio desciente por debajo de un 80% y por medio de la generación de informes automáticos, podriamos cada mes, premiar a los que mejor % de cumplimiento de servicio tengan y castigar (o despedir) a los que peor lo estén haciendo.

Una de las funciones mas importantes de los sistemas de monitorización es medir. Y medir el cumplimiento del servicio es fundamental si nos importa la calidad. Tanto si estamos en el lado del proveedor como si estamos en el lado del cliente.

Si usted está pagando por un servicio ¿no le gustaría comprobar que efectivamente está obteniendo lo que paga?

A veces hacemos bien en no fiarnos de las mediciones de otros, y es necesario comprobarlo de “nuestro lado”. Para eso las herramientas de monitorización como Pandora FMS son esenciales.

Qué es el “uptime” o tiempo de actividad

El tiempo de actividad es la cantidad de tiempo que un servicio está disponible y operativo. Por lo general, es la métrica más importante para un sitio web, un servicio en línea o un proveedor basado en la web. A veces se confunde uptime con SLA, pero el uptime no es más que una métrica muy habitual en servicios online que se utiliza para medir los SLA, no un SLA, que como hemos visto antes es algo mucho más amplio.

La contrapartida es el tiempo de inactividad: la cantidad de tiempo que un servicio no está disponible.

El tiempo de actividad suele expresarse en forma de porcentaje, como por ejemplo “99,9%”, durante un periodo de tiempo determinado (generalmente un mes). Por ejemplo, un tiempo de actividad del 99,9% equivale a 43 minutos y 50 segundos de inactividad.

¿Cuáles son las métricas habituales de un proveedor?

Las que se pacten entre el proveedor y el cliente. Cada servicio tendrá sus propia métricas e indicadores. Así, nosotros en nuestro servicio de Monitorización como Servicio (MAAS) establecemos varios parámetros a medir, entre otros, veamos algunos de ellos para entender mejor como “medir la calidad del servicio” mediante SLA:

  • Tiempo de respuesta mínima ante un incidente nuevo, de 1 hr en el servicio estándar.
  • Tiempo de resolución de incidentes críticos: de 6hr en el servicio estándar.
  • Tiempo de disponibilidad del servicio, de 99,932% en el servicio estándar.

Cuando hablamos de un % de tiempo, generalmente se refiere al computo anual, de esta manera, 99,932% corresponden a un total de 5h 57m 38s de parada de servicio en un año. Podemos usar nuestra calculador de SLA (más abajo para probar otros porcentajes).

Por el contrario, 1hr sería el cálculo inverso, y para ello podemos usar herramientas online como uptime.is. Usándola obtendremos que 6hr que correspondería a:

  • Weekly reporting: 99.405 %
  • Monthly reporting: 99.863 %
  • Quarterly reporting: 99.954 %
  • Yearly reporting: 99.989 %

De manera similar al ejemplo inicial del camarero, podemos medir el cumplimiento de un SLA de soporte midiendo la suma de varios factores, si todos se cumplen, estamos cumpliendo SLA, de lo contrario no. Es así como lo mide Pandora ITSM, el componente de helpdesk integrado en Pandora FMS. Los clientes de Pandora FMS utilizan Pandora ITSM para el soporte, y gracias a él podemos asegurarnos de que los clientes son atendidos siempre en tiempo.

¿Cómo calcular el tiempo de SLA de un servicio?

Utilice nuestra calculadora online le permite calcular el tiempo de caída de un servicio. Por ejemplo, pruebe 99.99% para ver los tiempos de caída máximos en un día, un mes o el año completo.

 Error: Embedded data could not be displayed.

¿Cómo puede ayudar Pandora FMS con las SLA?

Pandora FMS dispone de diferentes herramientas para controlar de manera exhaustiva los SLA de su cliente/proveedor. Dispone de informes de SLA segmentados por horas, días o semanas. De esa manera puede de manera visual, evaluar dónde están los incumplimientos.

Este es un ejemplo de un informe de SLA en un rango de tiempo personalizado (una mes) con franjas por rangos de escasos minutos.

Existen informes preparados para mostrar el caso de fuentes de información con respaldo (backup) de manera que podemos conocer la disponibilidad del servicio desde el punto de vista del cliente y desde el punto de vista interno:

Este es un ejemplo de vista SLA mensual con detalle por horas y días:

Este es un ejemplo de la vista de un informe de SLA mensual con vista por semanas y detalle diario:

Este es un ejemplo de la vista de un informe de SLA por meses, con vistas simples por días:

Monitorización de servicios

Una de las funciones más avanzadas de Pandora FMS es la monitorización de servicios con Pandora FMS. Se utiliza para supervisar continuamente el estado de un servicio, que como hemos visto al principio se compone de un conjunto de indicadores o métricas. Ese servicio, a menudo tiene una serie de dependencias y de ponderaciones (hay cosas más importantes que otras) y todos los servicios tienen cierta tolerancia o margen, sobre todo si se componen de muchos elementos y algunos de estos están redundados.

El mejor ejemplo es un cluster, donde si tenemos diez servidores, sabemos que el sistema funciona perfectamente con siete de ellos. De manera que el servicio como tal puede estar operativo con una caída de una, dos o hasta tres máquinas.

En otros casos, un servicio puede tener elementos no críticos, que forman parte del servicio y que queremos controlar, aunque el servicio no se vea afectado:

Una de las ventajas de la monitorización de servicios, es que podemos obtener fácilmente la ruta hacia el fallo, literalmente ser capaces de encontrar la aguja en el pajar, cuando hablamos de tecnología, el origen de un problema puede ser algo diminuto en comparación con la cantidad de datos que recibimos. Los servicios nos ayudan a determinar el origen del problema y aislarnos del ruido informativo. Además nos permiten monitorizar el grado del cumplimiento del servicio en tiempo real y actuar antes de que la calidad del servicio de cara a un cliente se vea afectada.

Shares