Difference between revisions of "Pandora: Documentation es: Servicios"

From Pandora FMS Wiki
Jump to: navigation, search
(En Pandora versión 5 y superiores)
(Creando un nuevo servicio)
 
(148 intermediate revisions by 18 users not shown)
Line 5: Line 5:
 
== Introducción ==
 
== Introducción ==
  
=== El concepto de monitorización de servicio ===
+
Un servicio es una agrupación de recursos IT basándose en sus funcionalidades.
  
Un servicio es una agrupación de recursos IT basadandose en sus funcionalidades. Por ejemplo un servicio puede ser su sitio web oficial, su CRM, su aplicación de soporte o incluso todas sus impresoras. Los servicios son agrupaciones lógicas que incluyen hosts, routers, switches, firewalss, CRM, ERP, webs y por supuesto otros servicios. Puede ver el concepto de servicio de forma más clara con el siguiente ejemplo.
+
Un servicio puede ser, por ejemplo, su sitio web oficial, su CRM, su aplicación de soporte o incluso todas sus impresoras. Los servicios son agrupaciones lógicas que incluyen hosts, routers, switches, firewalls, CRM, ERP, webs y por supuesto otros servicios.
  
Chip Company es una empresa que se dedica a vender ordenadores a través de Internet. Chip Company tiene tres grandes departamentos: Tienda Online, Soporte, Gestión.
+
En Pandora FMS, representamos los servicios como una agrupación de elementos monitorizados (módulos, agentes u otros servicios) cuyo estado individual, afecta de una determinada manera a la funcionalidad global del servicio que se presta.
  
<br><br><center>
+
== Servicios en Pandora FMS ==
[[Image:Chip-departments.png|center‎]]
 
<br><br></center>
 
  
Como puede ver los servicios que se ofrecen al cliente son tres: Tienda Online, Soporte e, indirectamente, Gestión. Todos los servicios son críticos para el negocio ya que si uno falla los demás se pueden ver afectados y la empresa podría perder mucho dinero, incluso clientes. Al final como usted sabe un cliente satisfecho puede significar más clientes por eso los servicios son tan importantes.
+
=== Cómo funcionan los servicios en Pandora FMS ===
  
Para monitorizar los servicios de Chip Company necesitamos conocer más a fondo cada uno de ellos.
+
La monitorización básica en Pandora FMS consiste en la recogida de métricas de diferentes orígenes, representándolas como monitores (módulos).
  
El servicio de la Tienda Online es el responsable de garantizar que el sitio web de la tienda está online, que todos los precios de los productos son correctos, gestionar las categorías de los productos. En general, asegurarse de que toda la información sobre productos y métodos de pago es correcta en el sitio web para facilitar la compra. De este servicio nos interesan los siguientes parámetros:
+
La monitorización en servicios nos permite agrupar estos elementos, de tal manera que, jugando con  ciertos márgenes basados en la acumulación de fallos, podremos monitorizar grupos de elementos de diferente índole y su relación en un servicio mayor y general.
  
<center><br><br>
+
En definitiva, la monitorización de servicios nos permite comprobar el estado de un servicio global. Podremos conocer si nuestro servicio se está proporcionando con normalidad (verde), degradado (amarillo) o si no estamos prestando el servicio (rojo).
[[Image:Operation-detail.png|center]]
+
 
</center><br><br>
+
Para entender mejor en qué consiste la monitorización de servicios, vamos a poner un pequeño ejemplo.
  
El servicio de soporte tiene que resolver todos los problemas que tengan los consumidores con los ordenadores que han comprado. Algunas tareas de este departamento son: ayudar a los clientes a configurar sus configuraciones, gestionar los reemplazos de ordenadores y sus piezas, además de gestionar las devoluciones de equipos. Este servicio junto con el de Tienda Online son los directamente relacionados con el cliente, por lo que son muy importantes para que la imagen de la compañía desde el punto de vista del cliente. De este departamento se quieren monitorizar los siguientes parámetros:
 
  
<center><br><br>
+
Supongamos que queremos monitorizar nuestra aplicación web, que tenemos balanceada a través de una serie de elementos redundantes. La infraestructura en la que se basa nuestra aplicación podría estar formada por los siguientes elementos:
[[Image:Support-service-detail.png|center]]
 
</center><br><br>
 
  
El tercer servicio es el de Gestión dentro del cual se encuentran los departamentos de: Marketing, Comercial, HHRR y otros relacionados con la gestión. Su principal tarea es asegurarse de que todos los procesos internos de la compañía funcionan correctamente. Los servicios que ofrece este departamento son cruciales ya que coordinan los demás departamentos. Los parámetros más importantes del servicio de Gestión son:
+
* Dos routers en HA.
 +
* Dos switches en HA.
 +
* Veinte servidores WEB Apache.
 +
* Cuatro servidores de Aplicaciones Weblogic
 +
* Un cluster MySQL de dos nodos de almacenamiento y dos nodos de procesamiento SQL.
  
<center><br><br>
+
Dado que nuestro objetivo es saber si nuestra aplicación web está funcionando correctamente, es decir, la apreciación final por parte de nuestros clientes es que la aplicación funciona.
[[Image:Management-detail.png|center]]
 
</center><br><br>
 
  
Para monitorizar los servicios realizamos varios mapas con la ayuda de la Consola Visual de Pandora FMS y las imágenes que describen la jerarquía de Chip Company. Los datos de estos mapas son calculados en tiempo real, así que siempre sabremos el estado de los servicios en todo momento. Lo primero que hicimos fue realizar el mapa de cada servicio independientemente.
 
  
La siguiente imagen muestra el mapa del servicio Tienda Online con el estado de todos sus parámetros. Como puede ver el parámetro '''Contenido Actualizado''' tiene un punto rojo lo que quiere decir que tiene algún problema. Sobre los otros parámetros podemos decir que son correctos ya que tienen puntos verdes. La flecha hacia atrás sirve para ir al mapa general que verá más adelante.
+
La necesidad de monitorizar servicios como algo "abstracto" surge cuando nos enfrentamos a la siguiente pregunta:
  
<center><br><br>
+
<b>¿Qué pasa con mi aplicación si se cae un elemento que en principio no es crítico?</b>
[[Image:Screen-onlineshop-detail.png|center]]
 
</center><br><br>
 
  
Si quiere conocer más sobre el problema puede hacer click sobre el punto rojo y verá la vista técnica con la que puede saber más acerca del problema. Esta vista técnica muestra los datos recogidos por Pandora FMS desde fuentes como: CRM, ERP, SAP, Bases de datos (MySQL, Oracle, etc), incluso dispositivos como PC, servidores o routers.
+
Como por ejemplo, si cayera uno de los veinte servidores Apache. En principio podríamos no avisar, debido a que tanta redundancia se plantea para tener situaciones problemáticas cubiertas. Pero entonces, ¿sobre cuál alertar? ¿todos? ¿sólo algunos? ¿cuál es la regla para alertar?
  
<center><br><br>
+
Podríamos pensar que Pandora FMS sólo debería avisarnos si se cae un elemento más crítico (por ejemplo un router) o si se cayesen varios servidores Apache.
[[Image:Agent-detail.png|700px|center]]
 
</center>
 
<br><br>
 
  
También hicimos otros mapas para el Servicio de Soporte que puede ver en la imagen inferior. Como puede ver todos los parámetros importantes del Servicio de Soporte son correctos ya que todos tienen puntos verdes.
+
Para solventar todas estas dudas, aparece la funcionalidad de monitorización a través de <b>servicios en Pandora FMS</b>.
  
<center><br><br>
 
[[Image:Screen-support-detail.png|center]]
 
</center><br><br>
 
  
Para terminar con los mapas de servicios creamos un mapa para el Servicio de Gestión, el cual puede ver en la siguiente imagen. De nuevo el mapa muestra los parámetros más importantes con sus correspondientes puntos, en este caso todos los puntos son de color verde lo que significa que todos los parámetros del servicio son correctos.
+
Los servicios en Pandora FMS nos ayudan a:
 +
* Limitar la cantidad de avisos recibidos. Recibiremos alertas sobre situaciones que comprometen la fiabilidad de los servicios que proveemos.
 +
* Llevar un seguimiento del nivel de cumplimiento.
 +
* Simplificar la visualización de la monitorización de nuestra infraestructura.
  
<center><br><br>
 
[[Image:Screen-management-detail.png|center]]
 
</center><br><br>
 
  
Además, creamos un mapa general con todos los servicios de Chip Company como se ve en la siguiente imagen. En este mapa puede ver la jerarquía de servicios de Chip Company con los estados de cada uno de ellos. Si hace click en uno de los puntos que informan del estado vera el mapa específico de cada servicio. Con todos estos mapas hemos creado una completa vista navegable de los servicios de Chip Company. El estado de cada servicio es el mismo que se muestra en los mapas específicos de cada uno, como puede ver Gestión y Soporte son correctos, pero Tienda Online tiene problemas. '''Como puede ver el estado de los servicios escala dentro de la jerarquía hasta la cima, propagando el estado'''.
+
Para lograr esto, deberemos tener monitorizado cada elemento que pueda afectar negativamente a nuestra aplicación.
  
<center><br><br>
+
A través de la consola de Pandora FMS, deberemos definir un <b>árbol de servicio</b> en el que indicaremos tanto los elementos que afectan a nuestra aplicación, como el grado en que afectan.
[[Image:Screen-chip-overview.png|center]]
 
</center><br><br>
 
  
== Servicios en Pandora FMS ==
+
Todos los elementos que añadamos a los árboles de servicio corresponderán a información que ya está siendo monitorizada, ya sea en forma de módulos, agentes concretos u otros servicios.
  
=== Como funcionan los servicios en Pandora FMS ===
 
  
A diferencia de la monitorización "específica" donde se recogen valores concretos de indicadores concretos, la monitorización de servicios con Pandora FMS está ideada para monitorizar "grupos" de elementos, de diferente índole, con ciertos "margenes" de error, basados en la acumulación de fallos.
+
Para indicar el grado en que afectan los estados de cada elemento al estado global, se utilizará un sistema de <b>suma de pesos</b>, de modo que los más importantes (con más peso) serán más relevantes para ajustar el estado global del servicio completo a un estado incorrecto antes que los elementos menos importantes (con menos peso).
  
Para entender mejor en qué consiste la monitorización de servicios, vamos a poner un pequeño ejemplo.
 
  
Queremos monitorizar si el servicio que estamos dando, a través de un cluster WEB, está "bien". Este cluster se compone de los siguientes elementos:
+
Veamos todas estas ideas a través de un ejemplo práctico:
 +
* Switches y routers: 5 puntos a cada uno cuando estén en critical, y 3 puntos si están en warning.
 +
* Servidores WEB: 1.2 puntos a cada uno en critical, no contemplamos el estado warning.
 +
* Servidores WebLogic: 2 puntos a cada uno en critical.
 +
* Cluster MySQL: 5 puntos a cada nodo en critical y 3 puntos en warning.
  
* Dos router en HA.
 
* Dos switch en HA.
 
* Veinte servidores WEB Apache.
 
* Cuatro servidores de Aplicaciones Weblogic
 
* Un cluster MySQL de dos nodos de almacenamiento y dos nodos de procesamiento SQL.
 
  
Monitorizar de forma individual cada elemento es posible y de hecho es lo primero que necesitaremos para habilitar la monitorización del servicio "en global". Cada elemento incluido dentro del servicio ha de ser un monitor "standard" de los monitorizados con Pandora, es decir, es algo PREVIO a la monitorización de servicios.
+
<table border="0" style="width: 80%; margin: 15px auto; border-collapse: collapse;">
 +
<tr>
 +
<th rowspan="2" style="color: #fff;padding-left: 0;text-align: center;">Tipo de elemento</th>
 +
<th colspan="4" style="color: #fff;padding-left: 0;text-align: center;">Asignación de pesos</th>
 +
</tr>
 +
<tr>
 +
<th style="color: #fff;background-color: #80BA27 !important;padding-left: 0;text-align: center;">Normal</th>
 +
<th style="color: #fff;background-color: #FFB900 !important;padding-left: 0;text-align: center;">Warning</th>
 +
<th style="color: #fff;background-color: #FC4444 !important;padding-left: 0;text-align: center;">Critical</th>
 +
<th style="color: #fff;background-color: #B2B2B2 !important;padding-left: 0;text-align: center;">Unknown</th>
 +
</tr>
 +
<tr><td>Router</td><td>0</td><td>3</td><td>5</td><td>5</td></tr>
 +
<tr><td>Switch</td><td>0</td><td>3</td><td>5</td><td>5</td></tr>
 +
<tr><td>Web server</td><td>0</td><td>0</td><td>1.2</td><td>1.2</td></tr>
 +
<tr><td>Weblogic server</td><td>0</td><td>0</td><td>2</td><td>2</td></tr>
 +
<tr><td>MySQL server</td><td>0</td><td>3</td><td>5</td><td>5</td></tr>
 +
</table>
  
La necesidad de monitorizar servicios como algo "abstracto" surge cuando tenemos la pregunta: ¿Qué pasa si se cae un elemento que en principio no es crítico?, como por ejemeplo, uno de los veinte servidores Apache. En principio podríamos no avisar, de hecho puede ser que tenga caídas frecuentes, y al fin y al cabo hay 20 nodos, no debería avisarnos por la caída de un solo nodo (imaginemos que ese aviso '''despierta a alguien de la cama'''. Al fin y al cabo, un servicio con tanta redundancia está para dar más tranquilidad, no más trabajo. Sólo debería avisarnos si se cae un elemento más crítico (p.e: un router) o si se caen "unos cuantos" servidores WEB, p.e. 4 o 5.
 
  
De esta forma, si le ponemos "pesos" a cada elemento de nuestro ejemplo:
+
Establecemos un umbral de warning para el servicio de 4, y un umbral de critical de 6. De esta forma, y suponiendo que todo va bien el servicio estaría "OK" si todos los elementos monitorizados están OK o no son lo suficientemente importantes como para provocar carencias en la prestación de nuestro servicio.
  
* Switches y routers: 5 puntos a cada uno cuando estén en critical, y 3 puntos si están en warning.
+
<table border="0" style="width: 80%; margin: 15px auto; border-collapse: collapse;">
* Servidores WEB: 1.2 punto a cada uno en critical, no contemplamos el estado warning.
+
<tr>
* Servidores WebLogic: 2 puntos a cada uno en critical.
+
<th colspan="3" style="color: #fff;padding-left: 0;text-align: center;">Configuración del servicio</th>
* Cluster MySQL: 5 puntos a cada nodo, 3 puntos en warning.
+
</tr>
 +
<tr>
 +
<th style="color: #fff;background-color: #80BA27 !important;padding-left: 0;text-align: center;">Normal</th>
 +
<th style="color: #fff;background-color: #FFB900 !important;padding-left: 0;text-align: center;">Warning</th>
 +
<th style="color: #fff;background-color: #FC4444 !important;padding-left: 0;text-align: center;">Critical</th>
 +
</tr>
 +
<tr>
 +
<td style="padding-left: 0;text-align: center;">0</td>
 +
<td style="padding-left: 0;text-align: center;">&gt;=4</td>
 +
<td style="padding-left: 0;text-align: center;">&gt;=6</td>
 +
</tr>
 +
</table>
  
Establecemos un umbral de warning para el servicio de 4, y un umbral de critical de 6. De esta forma, y suponiendo que todo va bien el servicio estaría "OK" si todos los elementos monitorizados están OK.
 
  
Ahora supongamos que se cae UN servidor WEB Apache:
+
Ahora supongamos que se cae un (1) servidor Web Apache:
  
 
* 1 x Servidor Apache en CRITICAL x 1.2 pto = 1.2 Dado que 1.2 < 4 (Warning), el servicio sigue en estado OK.
 
* 1 x Servidor Apache en CRITICAL x 1.2 pto = 1.2 Dado que 1.2 < 4 (Warning), el servicio sigue en estado OK.
 +
 +
La contribución de pesos será:
 +
 +
2 x 0 (routers en OK)
 +
+ 2 x 0 (switches en OK)
 +
+ 19 x 0 (apache OK)
 +
+ 1 x 1.2 (apache CRIT)
 +
+ 4 x 0 (weblogic OK)
 +
+ 1 x 0 (mysql OK)
 +
Total: 1.2 --> Nuestro servicio estará en NORMAL
 +
  
 
Veamos que pasa si se cae un servidor WEB y un Weblogic:
 
Veamos que pasa si se cae un servidor WEB y un Weblogic:
Line 108: Line 127:
 
* 1 x Servidor Weblogic en CRITICAL x 2 = 2
 
* 1 x Servidor Weblogic en CRITICAL x 2 = 2
  
Total, 3,2 sigue siendo < 4 asi que el servicio sigue en estado OK y sin levantar al operador de la cama.
+
Total, 3,2 sigue siendo < 4 así que el servicio sigue en estado OK, se sigue prestando, no es necesaria de manera inmediata una actuación técnica.
 +
 
 +
La contribución de pesos será:
 +
 
 +
2 x 0 (routers en OK)
 +
+ 2 x 0 (switches en OK)
 +
+ 19 x 0 (apache OK)
 +
+ 1 x 1.2 (apache CRIT)
 +
+ 3 x 0 (weblogic OK)
 +
+ 1 x 2 (weblogic CRIT)
 +
+ 1 x 0 (mysql OK)
 +
Total: 3.2 --> Nuestro servicio estará en NORMAL
 +
 
  
 
Veamos que pasa si se caen dos servidores WEB y un Weblogic:
 
Veamos que pasa si se caen dos servidores WEB y un Weblogic:
Line 115: Line 146:
 
* 1 x Servidor Weblogic en CRITICAL x 2 = 2
 
* 1 x Servidor Weblogic en CRITICAL x 2 = 2
  
Total, 4,4 ahora ya es > 4 y el servicio para a estado WARNING, puede que todavía no le llegue un SMS de urgencia al operador, pero seguro que por lo menos le llega un mail a alguien. Sigamos con el ejemplo.
+
Total, 4,4 ahora ya es > 4 y el servicio pasa a estado WARNING, nuestro servicio ha entrado en un estado <b>degradado</b>. Sigue funcionando, y puede que no requiera una actuación técnica inmediata, pero es evidente que se ha producido un problema en nuestra infraestructura.
 +
 
 +
2 x 0 (routers en OK)
 +
+ 2 x 0 (switches en OK)
 +
+ 18 x 0 (apache OK)
 +
+ 2 x 1.2 (apache CRIT)
 +
+ 3 x 0 (weblogic OK)
 +
+ 1 x 2 (weblogic CRIT)
 +
+ 1 x 0 (mysql OK)
 +
Total: 4.4 --> Nuestro servicio estará en WARNING
 +
 
  
 
Supongamos que ademas de lo anterior se cae un Router:
 
Supongamos que ademas de lo anterior se cae un Router:
Line 123: Line 164:
 
* 1 x Router en CRITICAL x 5 = 5
 
* 1 x Router en CRITICAL x 5 = 5
  
Tenemos ya un 9,4 superior al umbral de 8 para CRITICAL, asi que el servicio está en critical y nuestro operador no tiene más remedio que levantarse.  
+
Tenemos ya un 9,4 superior al umbral de 6 para CRITICAL, así que el servicio está en crítico, <b>no se está prestando el servicio</b> la actuación técnica inmediata es imperativa.
  
La monitorización de servicios es una característica únicamente de la versión Enteprise de Pandora FMS.
+
1 x 0 (routers en OK)
 +
+ 1 x 5 (router en CRIT)
 +
+ 2 x 0 (switches en OK)
 +
+ 18 x 0 (apache OK)
 +
+ 2 x 1.2 (apache CRIT)
 +
+ 3 x 0 (weblogic OK)
 +
+ 1 x 2 (weblogic CRIT)
 +
+ 1 x 0 (mysql OK)
 +
Total: 9.4 --> Nuestro servicio estará en CRÍTICO
  
===  Creando un nuevo servicio ===
+
<b>Pandora FMS alertará</b> al equipo de trabajo correspondiente (operadores, técnicos, etc.).
==== En Pandora versión 5 y superiores ====
 
Los servicios representan:
 
* módulos
 
* agentes completos
 
* otros servicios
 
  
Los valores de un servicio se calculan por medio del servidor de Predicción con el periodo por defecto de los módulos de predicción.
 
  
Una vez que tiene todos los dispositivos monitorizados. Dentro de cada servicio puede añadir todos los módulos, agentes o subservicios que necesite para monitorizar el servicio. Por ejemplo si quiere monitorizar el servicio de la Tienda Online necesita un modulo para el contenido, un servicio que monitorice el estado de las comunicaciones y así los demás. A través de los siguientes pasos puede ver como crear un servicio con Pandora FMS.
 
  
Para crear un nuevo servicio haga click en el tab Servicio del menu de Operación y pulse el botón de configuración.
+
La monitorización de servicios es una característica únicamente de la versión Enterprise de Pandora FMS.
 +
<br><br>
  
<br><center><br>
+
==== Cómo funciona el modo simple ====
[[Image:menu_services.png|center]]
 
</center><br><br>
 
  
Aparecerá una lista con todos los servicios, en la imagen inferior aparece dicha lista vacía.
+
Existe la posibilidad de que el sistema de pesos sea demasiado complejo si las necesidades de monitorización son más básicas.
  
<br><center><br>
+
Por ello se encuentra disponible el modo simple en la configuración de los servicios.
[[Image:Services empty v5.png|center|800px]]
 
</center>
 
  
<center>
+
En este modo solo es necesario indicar qué elementos son críticos y cuáles no.
[[Image:new_service2.png|center|800px]]
 
</center><br><br>
 
  
Para crear una nuevo servicio simplemente haga click en el boton Create, y entonces puede crear el servicio rellenando el formulario que aparece en la imagen de abajo.
+
Solo los elementos marcados como críticos serán tenidos en cuenta para realizar los cálculos y solo el estado ''critical'' de los elementos tendrá valor.
  
<br><center><br>
+
* Cuando entre 0 y el 50% de los elementos críticos se encuentre en estado ''critical'', el servicio entrará en estado ''warning''.
[[Image:Services creation v5.png|center|800px]]
+
*Cuando más del 50% de los elementos críticos entren en estado ''critical'', el servicio entrará en estado ''critical''.
</center><br><br>
 
  
Los campos del formulario y su significado son:
 
* '''Nombre''': el nombre del servicio.
 
* '''Descripción''': descripción del servicio, un texto largo que puede ser opcional.
 
* '''Group''': grupo al que pertenece el servicio, útil para organizarlo y para aplicar restricciones de SLA.
 
* '''Auto calculo''': check que por defecto esta activado, esto implica que el valor umbral Critico del servicio es 1 y el umbral de Advertencia es 0.5, y que cada vez que se cree un elemento para este servicio se le va asignar automáticamente los pesos 0 para estado OK, 0.5 para warning y 1 para critical.
 
* '''Critico''': umbral de peso para declarar el servicio como critico. Este campo esta deshabilitado cuando esta activo el check de "Auto calculo" y tiene el valor de 1 por defecto.
 
* '''Advertencia''': umbral de peso para declarar el servicio como en estado de advertencia. Este campo esta deshabilitado cuando esta activo el check de "Auto calculo" y tiene el valor de 0.5 por defecto.
 
* '''Agente para guardar los datos''': el servicio guarda los datos en unos módulos especiales de datos (en concreto los módulos de predicción) y es necesario introducir un agente para que sea el contenedor de estos módulos, a la vez también de las alarmas que posteriormente tendrá que configurar en este mismo formulario.
 
* '''Intervalo de S.L.A.''': periodo de tiempo para calcular el SLA efectivo del servicio, por defecto es 1 mes.
 
* '''Limite de S.L.A.''': umbral de estado en OK del servicio para que se considere un SLA positivo durante el periodo de tiempo que ha configurado en el campo previo.
 
* '''Alerta del servicio en estado advertencia''': plantilla de alerta que tendrá el servicio para la lanzar la alerta cuando el servicio pase a estado de advertencia.
 
* '''Alerta del servicio en estado critico''': plantilla de alerta que tendrá el servicio para la lanzar la alerta cuando el servicio pase a estado de critico.
 
* '''Alerta del SLA en estado critico''': plantilla de alerta que tendrá el servicio para la lanzar la alerta cuando el SLA del servicio no se cumpla.
 
  
Una vez rellenado correctamente el formulario tendrá un servicio vació (como ve la siguiente captura de pantalla) el cual hay que rellenarlo con elementos o items de servicio como veremos a continuación.
 
  
<br><center><br>
+
Pongamos un ejemplo de servicio simple:
[[Image:Services created v5.png|center|800px]]
 
</center><br><br>
 
  
Para añadir elementos debe ir a la vista de administración del servicio a traves del botón o pestaña de administración en la cabecera de la misma página del servicio como puede ver en la captura de pantalla.
+
* Router como elemento '''crítico'''.
 +
* Impresora como elemento '''no crítico'''.
 +
* Servidor Apache como elemento '''crítico'''.
  
  
<br><center><br>
+
En un determinado momento, los monitores se encuentran en la siguiente situación:
[[Image:Services tab setup v5.png|center]]
 
</center><br><br>
 
  
Y después en la subpágina de administración de elementos del servicio que tiene un icono de engranaje en la pestaña de administración en la cabecera de administración del servicio como ve en la siguiente captura de pantalla.
+
* Router en '''critical'''.
 +
* Impresora en '''critical'''.
 +
* Servidor Apache en '''warning'''.
  
 +
El estado del servicio bajo esta casuística, sería '''warning''', ya que la impresora no es un elemento crítico y su estado no es tenido en cuenta, así como el estado del servidor Apache, que pese a ser un elemento crítico solo se valoraría en el caso de tener estado ''critical''.
  
<br><center><br>
+
Esto hace que exista un único elemento crítico en estado ''critical'', justo el 50% del total de los elementos críticos indicados.
[[Image:Services tab setup elements v5.png|center]]
 
</center><br><br>
 
  
Entonces vera una página como la siguiente captura de pantalla, en la que se puede gestionar los elementos de servicios (modificarlos, añadir nuevos o borrarlos).
 
  
<br><center><br>
+
Supongamos que los monitores se encuentran en la siguiente situación:
[[Image:Services elements empty v5.png|center|800px]]
 
</center><br><br>
 
  
Y viendo la anterior captura vamos a describir el formulario de edición y creación de los elementos del servicio:
+
* Router en '''critical'''.
* '''Tipo''': lista desplegable que puede ser servicio, módulo o agente.
+
* Impresora en '''critical'''.
* '''Agente''': buscador inteligente de agentes. Solo visible si el elemento a crear o editar es de tipo agente o módulo.
+
* Servidor Apache en '''critical'''.
* '''Módulo''': lista desplegable con los módulos del agente elegido previamente en el buscador inteligente. Este control solo es visible si se edita o se crea un elemento para el servicio de tipo módulo.
 
* '''Servicio''': lista desplegable de los servicios para crear un elemeno. Solo visible si el elemento a crear o editar es de tipo servicio. Además hay que tener en cuenta que los servicios que aparecerán en la lista desplegable son los que no sean ancestros del servicio, es necesario esto para mostrar una correcta estructura arborescente de dependencia entre servicios.
 
* '''peso critico''': peso del elemento si esta en estado critico, por defecto es 1 y esta deshabilitado si el servicio esta en modo "auto calculo".
 
* '''peso advertencia''': peso del elemento si esta en estado advertencia, por defecto es 0.5 y esta deshabilitado si el servicio esta en modo "auto calculo".
 
* '''peso OK''': peso del elemento si esta en estado correcto, por defecto es 0 y esta deshabilitado si el servicio esta en modo "auto calculo".
 
  
Una vez creado los elementos de servicio, en esta página de administración tendrá una lista parecida a la que puede ver en la siguiente captura de pantalla.
+
El estado del servicio sería '''critical''', ya que más del 50% del total de los elementos críticos se encuentran en estado crítico.
  
<br><center><br>
 
[[Image:Services list elements admin v5.png|center]]
 
</center><br><br>
 
  
En la cual, dispone en la última columna de la derecha titulada como "Acciones" de unos iconos para:
+
Finalmente otro día los elementos se encuentran en estos estados:
* '''Editar''': que es el icono representado con una llave inglesa de mango naranja. Editara el elemento de la fila que corresponde ese icono.
 
* '''Borrar''': que es el icono representado con una aspa roja. Al clickar se le solicitara en una ventana modal su confirmación para eliminar y borrar de la BD el elemento del servicio.
 
  
==== En Pandora versión 4 e inferiores ====
+
* Router en '''normal'''.
Los servicios representan la asociación de módulos de agentes y sus valores son calculados en tiempo de ejecución. Por ello antes de nada es necesario tener todos los dispositivos que forman el servicio monitorizados y los valores de sus módulos normalizados a tres estados: Normal, Advertencia o Critico. Si quiere saber más sobre como hacerlo puede visitar las secciones: [[Pandora:Documentation_es:Operacion|Monitorizando con Pandora FMS]] y [[Pandora:Documentation_es:Politicas|Políticas de monitorización]].
+
* Impresora en '''critical'''.
 +
* Servidor Apache en '''normal'''.
  
Una vez que tiene todos los dispositivos monitorizados puede crear un grupo con ellos dentro de un servicio. Dentro de cada servicio puede añadir todos los módulos que necesite para monitorizar el servicio. Por ejemplo si quiere monitorizar el servicio de la Tienda Online necesita un modulo para el contenido, otro que monitorice el estado de las comunicaciones y así los demás. A través de los siguientes pasos puede ver como crear un servicio con Pandora FMS.
+
El estado del servicio sería '''normal''', ya que menos del 50% del total de los elementos críticos se encuentran en estado crítico.
  
Para crear un nuevo servicio haga click en el tab Servicio del menu de Operación y pulse el botón de configuración.
+
De hecho, ningún elemento clave está en estado ''critical'', solamente la impresora que, como hemos visto antes, al no ser un elemento crítico no es tenido en cuenta para los cálculos.
  
<br><center><br>
+
====  Servicios raíz ====
[[Image:menu_services.png|center]]
 
</center><br><br>
 
  
Aparecerá una lista con todos los servicios, en la imagen inferior aparece dicha lista vacía.
+
A partir de la versión 7.0 OUM726 de Pandora FMS, los servicios se evalúan de manera ligeramente diferente.  
  
<br><center><br>
+
A partir de ahora se evaluarán los servicios que no formen parte de otro servicio, es lo que denominamos ''servicios raíz''. Este cambio en la lógica nos permite agilizar la monitorización, reduciendo las colas de trabajo.
[[Image:Service-empty.png|700px|center]]
 
</center><br><br>
 
  
Para crear una nuevo servicio simplemente haga click en el boton Create, y entonces puede crear el servicio rellenando el formulario que aparece en la imagen de abajo.
+
Así mismo, y partiendo de esta base, ahora cuando un servicio definido en un nodo de Pandora FMS aparezca como elemento de un servicio raíz en Metaconsola, será el servidor de Metaconsola quien lo evalúe, actualizando los valores almacenados en el nodo.
  
<br><center><br>
+
Esto nos aporta una lógica distribuida más eficiente y nos permite aplicar un sistema de protección en cascada basado en servicios, este punto lo tratamos con más detalle en [[https://wiki.pandorafms.com/index.php?title=Pandora:Documentation_es:Alertas#Protecci.C3.B3n_en_cascada_basada_en_servicios Protección en cascada de servicios]].
[[Image:Service-creation-filled.png|700px|center]]
 
</center><br><br>
 
  
En este punto hemos creado un servidor sin items, así que tenemos que añadir los items que componen el servicio. Para añadir un nuevo item pulse en la herramienta naranja de la esquina superior derecha del tab Gestión de Servicio y luego en el botón Crear. Aparecerá el siguiente formulario.
+
También se han ampliado las posibilidades de los servicios en Metaconsola, permitiendo agregar como elementos de un servicio tanto otros servicios, como módulos o agentes. En versiones previas sólo se admitían servicios de nodo.
En este formulario debe elegir el módulo de agente que quiere añadir. Además debe rellenar los campos pesos, que dictan los pesos que tiene el módulo dentro del servicio para los estados Normal, Advertencia y Crítico. Cuanto más peso tenga el módulo más importante es dentro del servicio.
 
  
<br><center><br>
+
===  Creando un nuevo servicio ===
[[Image:Element-create-filled.png|700px|center]]
+
====Introducción====
</center><br><br>
 
  
Cuando todos los campos están rellenos pulse en el botón Crear y aparecerá una imagen parecida a la inferior mostrando que el módulo se añadió con éxito.
+
{{Warning|Es necesaria la versión Enterprise y el componente ''PredictionServer'' habilitado para poder utilizar los servicios.}}
  
<br><br><center>
+
Los servicios pueden representar:
[[Image:Element-create-created.png|700px|center]]
+
* Módulos
</center><br><br>
+
* Agentes completos
 +
* Otros servicios
  
Puede añadir todos los elementos que necesite para monitorizar sus servicios. En este ejemplo hemos añadido todos los elementos necesarios para monitorizar el servicio con los pesos correspondientes, y el resultado queda como puede ver en la siguiente imagen.
+
Los valores de un servicio se calculan por medio del servidor de Predicción.
  
<center><br><br>
+
Una vez que tiene todos los dispositivos monitorizados, dentro de cada servicio puede añadir todos los módulos, agentes o subservicios que necesite para monitorizar el servicio. Por ejemplo, si quiere monitorizar el servicio de la Tienda Online necesita un modulo para el contenido, un servicio que monitorice el estado de las comunicaciones, etc. A través de los siguientes pasos puede ver como crear un servicio con Pandora FMS.
[[Image:All-element-created.png|700px|center]]
 
</center><br><br>
 
  
Una vez que ha creado el servicio puede comprobar su estado actual pulsando en el tab Servicio dentro del menú Operación
+
Para crear un nuevo servicio tendremos que ir a '''Services''' dentro del menú '''Topology Maps'''.
  
<center><br><br>
+
<br>
 
[[Image:menu_services.png|center]]
 
[[Image:menu_services.png|center]]
</center><br><br>
+
<br>
  
Aparecerá la lista con todos los servicios en el modo operación, parecida a la imagen inferior. Estos datos son calculados en tiempo real mostrando los siguientes parámetros:
+
Aparecerá una vista de árbol con todos los servicios.
  
* Name: nombre del servicio.
+
<br>
* Description: descripción del servicio.
+
[[Image:Arbol_servicios.png|center]]
* Group: Grupo al que pertenece el servicio.
+
<br>
* Critical: Valor límite a partir del cual el servicio está en estado crítico.
 
* Warning:  Valor límite a partir del cual el servicio está en estado warning.
 
* Value: Valor del servicio. Se calcula en tiempo real.
 
* Status: Estado del servicio en función del valor y los límites critical y warning.
 
  
<center><br><br>
+
==== Configuración inicial====
[[Image:Services-oper-list.png|700px|center]]
 
</center><br><br>
 
  
Si hace click en el nombre de un servicio verá la vista específica de ese servicio. Como sabe el estado del servicio se calcula como la suma de los pesos asociados a cada módulo. Los servicios, al igual que los módulos, tienen asociado un estado dependiendo de su valor. Esta vista muestra el estado de cada item del servicio con los siguientes parámetros:  
+
Para crear un nuevo servicio se debe hacer click en el botón Create service, y rellenar el formulario que aparecerá:
  
* Agent Name: nombre del agente al que pertenece el módulo.
+
<br><center><br>
* Module Name: nombre del módulo.
+
[[Image:Formulario_servicios.png|center]]
* Description: descripción libre.
 
* Weight Critical: peso cuando el módulo está en estado crítico.
 
* Weight Warning: peso cuando el módulo está en estado warning.
 
* Weight Ok: peso cuando el módulo está en estado normal.
 
* Data: valor del módulo.
 
* Status: estado del módulo.
 
 
 
<center><br><br>
 
[[Image:Online-sales-service.png|700px|center]]
 
 
</center><br><br>
 
</center><br><br>
  
También se pueden crear módulos asociados a servicios con las ventajas que esto implica (periodicidad de cálculo, integración con el sistema de alertas etc.) La forma de asociar un módulo a un servicio es seguir los siguientes pasos:
+
Los campos del formulario son:
  
# Crear los monitores individuales que componen el servicio y asegurarse de que funcionan correctamente.
+
* '''Nombre''': El nombre del servicio. Debe ser un nombre único, que permitirá identificar el servicio.
# Establecer los umbrales individuales para cada monitor para definir estados CRITICAL y/o WARNING.
+
* '''Descripción''': Descripción del servicio, un texto largo de carácter obligatorio. Dicha descripción será la que aparecerá en el mapa del servicio, en la vista de tabla de servicio y en el widget de servicios (en lugar del nombre).
# Crear un servicio con aquellos monitorres que consideremos, y definir umbrales tanto para el servicio como pesos para cada monitor incluido en el servicio.
+
* '''Grupo''': Grupo al que pertenece el servicio, útil para organizarlo y para aplicar restricciones de ACL.
# Ir al agente donde queremos "ubicar" el monitor asociado al servicio.
+
* '''Agente para guardar los datos''': El servicio guarda los datos en unos módulos especiales de datos (en concreto los módulos de predicción) y es necesario introducir un agente para que sea el contenedor de estos módulos, a la vez también de las alarmas que posteriormente tendrá que configurar en este mismo formulario. <b>Nota:</b> Tenga en cuenta que el intervalo en el que se realizarán todos los cálculos de los módulos del servicio dependerán del intervalo del agente configurado como contenedor.
# Crear un nuevo modulo de tipo "prediction" asociado a ese agente, utilizando el editor de modulos del servidor Prediction, para asociarlo a uno de los servicios de la lista.
+
* '''Modo''': Modo en el que se realizará el cálculo de pesos de los elementos. Puede tener 2 valores:
# Si queremos asociar alertas al servicio, debemos hacerlo sobre el modulo asociado al servicio. El servicio como tal no tiene posibilidad de agregar alertas, ni gráficas ni informes, todo debe ser hecho a través del monitor vinculado al servicio, tal y como se ha descrito.
+
** '''Inteligente''': Los pesos y elementos que formen parte del servicio se calcularán de forma automática en base a reglas establecidas.
 +
** '''Manual''': Los pesos y los elementos que formen parte del servicio se indicarán manualmente con valores fijos.
  
<center><br><br>
+
{{warning|El modo ''inteligente'' solo está disponible a partir de la versión ''7.0NG 748'' de Pandora FMS.
[[Image:Service_module.png|700px|center]]
 
<br><br></center>
 
  
Después de haber creado todos los servicios puede crear los Mapas Visuales para ver el estado de los servicios en todo momento de una forma más viusal. Tiene más información sobre los Mapas Visuales de Pandora FMS en la sección: [[Pandora:Documentation_es:Presentacion_datos|Visualización y presentación]].
+
Los modos ''automático'' y ''simple'' de versiones anteriores pasarán a ser ''manuales'' mediante la aplicación del ''MR 40'' en la actualización de versión.}}
  
Con esta herramienta hemos hecho los mapas que ha visto en la introducción y que representan los servicios de Chip Company. Abajo puede ver el mapa general que muestra los servicios de Chip Company.
+
* '''Crítico''': Umbral de peso para declarar el servicio como crítico. En modo '''inteligente''' este valor será un porcentaje. Más adelante se explica como contribuyen los elementos a este valor.
 +
* '''Advertencia''': Umbral de peso para declarar el servicio como en estado de advertencia. En modo '''inteligente''' este valor será un porcentaje. Más adelante se explica como contribuyen los elementos a este valor.
 +
* '''Elementos desconocidos como críticos''': Permite indicar que los elementos en estado desconocido aporten su peso igual que si fuesen un elemento crítico.
 +
* '''Favorito''': Permite marcar el servicio como favorito. Con ello se creará un enlace directo en el menú lateral y se podrán filtrar los servicios en las vistas en base a este criterio.
  
<center><br><br>
+
<br>
[[Image:Screen-chip-overview.png|center]]
+
[[Image:Servicios_favoritos.png|center]]
</center><br><br>
+
<br>
  
Además si necesita un mapa más técnico puede crear mapas más detallados con la Consola Visual de Pandora FMS. Puede añadir iconos, gráficas, puntos de estado, etiquetas y datos como texto simple. La imagen de abajo muestra una vista técnica del servicio de Tienda Online con los estados de todos los dispositivos.
+
* '''Modo silencioso''': Activa el modo silencio del servicio, por lo que no generará alertas ni eventos.
 +
* '''Protección en cascada habilitada''': Activa la protección en cascada sobre los elementos del servicio. Estos no generarán alertas ni eventos si pertenecen a un servicio (o subservicio) que está en estado crítico.
 +
* '''Calcular SLA continuo''': Activa la creación de módulos de SLA y SLA value para el servicio actual, si está desactivado no dispondrá de la información de SLA calculada de manera dinámica, ni funcionarán las alertas sobre cumplimiento SLA de este servicio. Se utiliza para casos en los que el número de servicios necesarios es tan alto que puede afectar al rendimiento. '''Si se desactiva esta opción, una vez ya creado el servicio se borrará el histórico de datos de estos módulos, por lo que se perderá información.'''
 +
* '''Intervalo SLA''': Periodo de tiempo para calcular el SLA efectivo del servicio.
 +
* '''Límite SLA''': Umbral de estado en OK del servicio para que se considere un SLA positivo durante el periodo de tiempo que ha configurado en el campo previo.
 +
* '''Alerta del servicio en estado advertencia''': Plantilla de alerta que tendrá el servicio para lanzar la alerta cuando el servicio pase a estado de advertencia.
 +
* '''Alerta del servicio en estado crítico''': Plantilla de alerta que tendrá el servicio para lanzar la alerta cuando el servicio pase a estado de critico.
 +
* '''Alerta del servicio en estado desconocido''': Plantilla de alerta que tendrá el servicio para lanzar la alerta cuando el servicio pase a estado de desconocido.
 +
* '''Alerta del SLA en estado crítico''': Plantilla de alerta que tendrá el servicio para lanzar la alerta cuando el SLA del servicio no se cumpla.
  
<center><br><br>
+
====Configuración de elementos====
[[Image:Online-sales-map.png|700px|center]]
 
</center><br><br>
 
  
=== Agrupaciones de servicios ===
+
Una vez rellenado correctamente el formulario tendrá un servicio vacío el cual hay que rellenar con elementos como veremos a continuación. En el formulario de edición del servicio, se selecciona la pestaña 'Configurar elementos'.
  
Los servicios son agrupaciones lógicas que conforman parte de la estructura de negocio de una organización. Por ello puede tener cierto sentido la agrupación de servicios ya que a veces los servicios por si sólos no tienen un significado completo. Para agrupar servicios es necesario asignarlos cada uno de los servicios que queramos agrupar como módulo a un agente, creando así una nueva agrupación lógica.
+
<br>
 +
[[Image:Elementos_servicios.png|center]]
 +
<br>
  
Estas agrupaciones nos ayudaran a por ejemplo: crear mapas visuales, configurar alertas, aplicar políticas de monitorización, etc. De tal manera que podemos crear alertas que avisen cuando la compañía está en estado crítico porque los comerciales no pueden realizar su trabajo, o cuando una de las sedes no está a pleno rendimiento por problemas técnicos con su servicio de ERP.
+
Haciendo click en el botón Add element aparecerá una ventana emergente con un formulario. El formulario será ligeramente distinto si el servicio está en modo inteligente o en modo manual.
  
Para de forma más clara que son agrupaciones de servicios se proponen dos ejemplos.
+
<br>
 +
[[Image:Formulario_elementos_servicios.png|center]]
 +
<br>
  
==== Varios servicios en una misma compañia ====
+
Los campos del formulario son:
  
Continuando con el ejemplo anterior, supongamos que además de dar una servicio en nuestra compañía tenemos comerciales que lo venden y estos deben conectarse a un CRM para gestionar sus clientes.
+
* '''Descripción''': Texto opcional que se usará para representar el elemento en el mapa de servicio. Si no se indica se usará el nombre del módulo, agente o servicio (según el elemento añadido).
 +
* '''Tipo''': Lista desplegable para elegir si el elemento será un servicio, módulo o agente. En servicios en modo inteligente además se puede elegir el tipo dinámico.
 +
* '''Agente''': Buscador inteligente de agentes. Solo visible si el elemento a crear o editar es de tipo agente o módulo.
 +
* '''Módulo''': Lista desplegable con los módulos del agente elegido previamente en el buscador inteligente. Este control solo es visible si se edita o se crea un elemento para el servicio de tipo módulo.
 +
* '''Servicio''': Lista desplegable de los servicios para crear un elemento. Solo visible si el elemento a crear o editar es de tipo servicio. Además hay que tener en cuenta que los servicios que aparecerán en la lista desplegable son los que no sean ancestros del servicio, es necesario esto para mostrar una correcta estructura arborescente de dependencia entre servicios.
  
Nuestro servicio de CRM se compone de:
+
Los siguientes campos solo estarán disponibles para los elementos de tipo dinámico, en servicios en modo inteligente:
  
* Dos router en HA.
+
* '''Tipo de elementos que coinciden''': Lista desplegable para elegir si los elementos para los que se evaluarán las reglas dinámicas y que formarán parte del servicio serán agentes o módulos.
* Dos servidores WEB Apache.
+
* '''Filtrar por grupo''': Regla para indicar el grupo al que debe pertenecer el elemento para formar parte del servicio.
* Un cluster MySQL de dos nodos de almacenamiento y dos nodos de procesamiento SQL.
+
* '''Con nombre de agente''': Regla para indicar el nombre del agente que debe tener el elemento para formar parte del servicio. Se indicará un texto que deberá ser parte del nombre del agente deseado.
 +
* '''Con nombre de módulo''': Regla para indicar el nombre del módulo que debe tener el elemento para formar parte del servicio. Se indicará un texto que deberá ser parte del nombre del módulo deseado.
 +
* '''Con nombre de campo personalizado''': Regla para indicar el nombre del campo personalizado que debe tener el elemento para formar parte del servicio. Se indicará un texto que deberá ser parte del nombre del campo personalizado deseado.
 +
* '''Con valor de campo personalizado''': Regla para indicar el valor del campo personalizado que debe tener el elemento para formar parte del servicio. Se indicará un texto que deberá ser parte del valor del campo personalizado deseado.
  
Para este ejemplo podemos suponer que tenemos configurado el servicio del CRM con los pesos adecuados.
+
Por ejemplo, si la configuración de un elemento dinámico fuese:
  
En este momento tenemos dos servicios:
+
<br>
 +
[[Image:Elementos_dinamicos_servicios.png|center]]
 +
<br>
  
# Servicio de Cluster Web (con el que damos servicios a los clientes)
+
Se usarían como elementos del servicio todos los módulos que en su nombre incluyan "Host Alive", que se encuentren en un agente que en su nombre incluya "SW", dentro del grupo "Servers", con un campo personalizado que en su nombre incluya "Departamento" con un valor que incluya "Sistemas".
# Servicio de CRM (con el que nuestros comerciales gestionan los clientes)
 
  
<center><br><br>
+
Los siguientes campos solo estarán disponibles para los servicios en modo manual:
[[File:servicios_separado.jpeg|center]]
 
</center><br><br>
 
  
Para continuar con la agrupación de servicio lo ideal sería crear una nuevo agente que se llame por ejemplo "Compañia" y que contenga como módulos los servicios Cluster Web y CRM. De esta forma tendríamos los servicios quedarían agrupados de la siguiente manera.
+
* '''Crítico''''': Peso que el elemento sumará al servicio cuando se encuentre en estado crítico.
 +
* '''Advertencia''''': Peso que el elemento sumará al servicio cuando se encuentre en estado advertencia.
 +
* '''Desconocido''''': Peso que el elemento sumará al servicio cuando se encuentre en estado desconocido.
 +
* '''Normal''''': Peso que el elemento sumará al servicio cuando se encuentre en estado normal.
  
<br><br><center>
+
Para calcular el estado de un servicio, se sumará el peso de cada uno de sus elementos en base a su estado, y si supera los umbrales establecidos en el servicio para advertencia o para crítico, el estado del servicio pasará a advertencia o crítico según corresponda.
[[File:Servicios_compania.jpeg|center‎]]
 
<br><br></center>
 
  
==== Distintos servicios en varias sedes ====
+
En los servicios en modo inteligente, ya que no se definen pesos para los elementos, la forma en que se calcula su estado es la siguiente:
  
Otro ejemplo podría ser la situación en la que queremos monitorizar las diferentes sedes de una empresa, en la que cada sede tiene sus propios servicios internos.  
+
* Los elementos críticos contribuyen con la totalidad de su porcentaje al peso del servicio. Esto significa que si por ejemplo tenemos 4 elementos en el servicio y solo 1 de ellos en crítico, ese elemento sumará un 25% al peso del servicio. Si en lugar de 4 elementos fuesen 5, el elemento crítico sumaría un 20% al peso del servicio.
 +
* Los elementos en advertencia contribuyen con la mitad de su porcentaje al peso del servicio. Esto significa que si por ejemplo tenemos 4 elementos en el servicio y solo 1 de ellos en advertencia, ese elemento sumará un 12.5% al peso del servicio. Si en lugar de 4 elementos fuesen 5, el elemento en advertencia sumaría un 10% al peso del servicio.
  
Para este ejemplo supondremos que contamos con tres sedes con los siguientes servicios ya configurados en cada una de ellas CRM, ERP y Web Interna. Para cada sede se configurará los diferentes servicios con sus necesidades específicas. Hasta aquí tenemos monitorizadas todos servicios de las diferentes sedes de manera independiente. Resultando el siguiente gráfico.
+
{{warning|Los elementos dinámicos no se ven afectados por la protección en cascada de servicios.}}
  
<br><br><center>
+
==== Módulos que se crean al configurar un servicio: ====
[[File:Servicios_sedes_separado.jpeg|900px|center]]
 
</center><br><br>
 
  
Pero puede surgir la necesidad de crear agrupaciones lógicas que representen a las diferentes sedes de la empresa para poder tener en Pandora FMS una estructura más fiel a la que existe en la realidad. Para ello podemos crear un agente por sede cuyos módulos sean los diferentes servicios de dicha sede, obteniendo los siguientes grupos.
+
* '''SLA Value Service:''' Es el valor porcentual del cumplimiento de SLA. (async_data)
  
<br>
+
* '''Service_SLA_Service:''' Aquí nos muestra si el SLA se está cumpliendo o no. (async_proc)
<center><br>
 
[[File:Servicios_sedes_agrupados.jpeg|900px|center]]
 
</center><br>
 
<br>
 
  
Con esta manera de agrupar los servicios se puede crear la estructura lógica presente en el mundo real en Pandora FMS obteniendo una monitorización de servicios completa.
+
* '''Service_Service:''' En este módulo nos muestra la suma de los pesos del servicio. (async_data)
  
 +
<br><br>
  
 
=== Visualización de los Servicios ===
 
=== Visualización de los Servicios ===
==== En Pandora versión 5 y superiores ====
 
A partir de esta versión se dispone de múltiples maneras de ver el estado del servicio. He incluso ver de una manera cómoda y visual el porque esta en ese estado el servicio con vistas como una vista arborescente o la lista simple de elementos de ese servicio.
 
  
===== Lista simple de todos los servicios =====
+
==== Lista simple de todos los servicios ====
Es la lista de operación que muestra todos los servicios creados, por supuesto solo muestra los de los grupos que tiene acceso el usuario que este usando la consola de Pandora.
+
 
 +
Es la lista de operación que muestra todos los servicios creados, por supuesto solo muestra los de los grupos que tiene acceso el usuario que este usando la consola de Pandora FMS.
  
 
Para llegar a esta vista, solo tiene que ir al menú de Operación, abrir la entrada Monitorización y dentro de este es la sección Servicios.
 
Para llegar a esta vista, solo tiene que ir al menú de Operación, abrir la entrada Monitorización y dentro de este es la sección Servicios.
Line 392: Line 391:
  
 
Cada fila representa un servicio y las columnas que se muestran son:
 
Cada fila representa un servicio y las columnas que se muestran son:
* '''Nombre''': es el nombre que tiene el servicio.
+
* '''Nombre''': Es el nombre que tiene el servicio.
 
* '''Descripción''': la descripción corta de lo que es el servicio.
 
* '''Descripción''': la descripción corta de lo que es el servicio.
* '''Grupo''': el icono del grupo al que pertenece el servicio y que el usuario puede ver.
+
* '''Grupo''': El icono del grupo al que pertenece el servicio y que el usuario puede ver.
* '''Critico''': el valor umbral de las sumas de pesos para marcar el servicio como critico.
+
* '''Critico''': El valor umbral de las sumas de pesos para marcar el servicio como critico.
* '''Advertencia''': el valor umbral de las sumas de pesos para marcar el servicio como en estado de advertencia.
+
* '''Advertencia''': El valor umbral de las sumas de pesos para marcar el servicio como en estado de advertencia.
* '''Valor''': el valor de las sumas de pesos de los elementos que contienen el servicio.
+
* '''Valor''': El valor de las sumas de pesos de los elementos que contienen el servicio.
* '''Estado''': un icono que representa el estado del servicio. Hay los siguientes tres posibles estados representados normalmente con los siguientes colores:
+
* '''Estado''': Un icono que representa el estado del servicio. Hay los siguientes tres posibles estados representados normalmente con los siguientes colores:
** '''Rojo''': el servicio ha entrado en estado de crítico porque la suma de los pesos de los módulos ha superado o igualado el umbral de critico.
+
** '''Rojo''': El servicio ha entrado en estado de crítico porque la suma de los pesos de los módulos ha superado o igualado el umbral de crítico.
** '''Amarillo''': el servicio ha entrado en estado de advertencia porque la suma de los pesos de los módulos ha superado o igualado el umbral de advertencia.
+
** '''Amarillo''': El servicio ha entrado en estado de advertencia porque la suma de los pesos de los módulos ha superado o igualado el umbral de advertencia.
** '''Verde''': el servicio se mantiene en estado normal o correcto porque la suma de los pesos de los módulos no ha llegado como mínimo al umbral de advertencia.
+
** '''Verde''': El servicio se mantiene en estado normal o correcto porque la suma de los pesos de los módulos no ha llegado como mínimo al umbral de advertencia.
** '''Gris''': el servicio se mantiene en estado desconocido, normalmente ocurre cuando el servicio esta recién creado y no tiene elementos contenidos en el, o cuando tiene el Servidor de Predicción de Pandora FMS caído.
+
** '''Gris''': El servicio se mantiene en estado desconocido, normalmente ocurre cuando el servicio esta recién creado y no tiene elementos contenidos en el, o cuando tiene el Servidor de Predicción de Pandora FMS caído.
* '''SLA''': el valor de SLA del servicio, el SLA estará con alguno de los siguientes valores:
+
* '''SLA''': El valor de SLA del servicio, el SLA estará con alguno de los siguientes valores:
** '''OK''': se cumple el SLA en el periodo definido para el SLA del servicio.
+
** '''OK''': Se cumple el SLA en el periodo definido para el SLA del servicio.
** '''INCORRECTO''': no se cumple el SLA en el periodo definido para el SLA del servicio.
+
** '''INCORRECTO''': No se cumple el SLA en el periodo definido para el SLA del servicio.
** '''N/A''': el SLA esta en estado desconocido, porque todavía no ha recogido datos suficientes para hacer el calculo.
+
** '''N/A''': El SLA esta en estado desconocido, porque, o bien todavía no ha recogido datos suficientes para hacer el cálculo o bien está desactivado el SLA.
 +
 
 +
<br><br>
 +
===== Tabla de todos los servicios =====
 +
 
 +
Tabla de visualización rápida de todos los servicios visibles y su estado actual.
 +
<br>
 +
[[File:Servs.JPG|center|800px]]
 +
<br>
  
 
===== Lista simple de un servicio y todos los elementos que contiene =====
 
===== Lista simple de un servicio y todos los elementos que contiene =====
A esta vista puedes acceder clickando a través del nombre de un servicio en la lista de todos los servicios, o a través de la pestaña con icono de lupa en la cabecera de titulo del servicio.
+
Esta vista es accesible haciendo clic en el nombre de un servicio en la lista de todos los servicios, o a través de la pestaña con icono de lupa en la cabecera de título del servicio.
  
Pandora te mostrara una página parecida a la que ves en la siguiente captura de pantalla:
+
Pandora FMS mostrará una página parecida a la mostrada en la siguiente captura de pantalla:
  
 
<br><center><br>
 
<br><center><br>
Line 417: Line 424:
 
</center><br><br>
 
</center><br><br>
  
En la que puede ver claramente dos zonas, el servicio con las mismas columnas que en la vista anterior y debajo la lista de los elementos que componen este servicio en formato de tabla donde las filas son cada elemento y las columnas son:
+
En la captura podemos distinguir dos zonas, el servicio con las mismas columnas que en la vista anterior en la parte superior. La lista de los elementos que componen este servicio en la parte inferior.
* '''Tipo''': icono que representa el tipo de elemento, es o un bloque de lego para los módulos o unos bloques de lego apilados para el agente o el icono de un diagrama de red para los servicios.
+
 
* '''Nombre''': texto que tiene el nombre del agente, o el nombre del agente y el módulo, o el nombre del servicio. Todos ellos son un link a la vista de operación correspondiente.
+
La lista de los elementos aparece en formato de tabla, donde las filas corresponden a cada elemento y las columnas representan:
* '''Descripción''': texto corto que describe el elemento.
+
* '''Tipo''': Icono que representa el tipo de elemento, es o un bloque de construcción para los módulos o unos bloques apilados para el agente o el icono de un diagrama de red para los servicios.
* '''Peso para critico''': el valor de peso cuando el elemento esta en crítico.
+
* '''Nombre''': Texto que tiene el nombre del agente, o el nombre del agente y el módulo, o el nombre del servicio. Todos ellos contienen un enlace a la vista de operación correspondiente.
* '''Peso para advertencia''': el valor de peso cuando el elemento esta en advertencia.
+
* '''Descripción''': Texto corto que describe el elemento.
* '''Peso para normal''': el valor de peso cuando el elemento esta en normal.
+
* '''Peso para crítico''': El valor del peso asociado cuando el elemento esta en crítico.
* '''Dato''': el valor del elemento que según el tipo puede ser:
+
* '''Peso para advertencia''': El valor del peso asociado cuando el elemento esta en advertencia.
** '''Modulos''' el valor del módulo.
+
* '''Peso para normal''': El valor de peso asociado cuando el elemento esta en normal.
** '''Agentes''' un texto que dirá el estado del agente.
+
* '''Dato''': El valor del elemento que según el tipo puede ser:
** '''Servicios''' la suma de pesos de los elementos del servicio que ha sido escogido como elemento para el servicio padre.
+
** '''Módulos''': El valor del módulo.
* '''Estado''' icono que representa con color el estado del elemento.
+
** '''Agentes''': Un texto que dirá el estado del agente.
 +
** '''Servicios''': La suma de pesos de los elementos del servicio que ha sido escogido como elemento para el servicio padre.
 +
* '''Estado''': Icono que representa con color el estado del elemento.
  
 
{{warning|Hay que tener en cuenta que el cálculo de los servicios lo realiza el servidor de predicción, por lo que los datos no son a tiempo real. Y puede darse situaciones en que añadas un agente o módulo y el peso no se actualice hasta que el servidor vuelva a calcular ese servicio}}
 
{{warning|Hay que tener en cuenta que el cálculo de los servicios lo realiza el servidor de predicción, por lo que los datos no son a tiempo real. Y puede darse situaciones en que añadas un agente o módulo y el peso no se actualice hasta que el servidor vuelva a calcular ese servicio}}
  
 
===== Vista de mapa de servicio =====
 
===== Vista de mapa de servicio =====
Para acceder a esta vista puede ir usando la pestaña/botón situado en la cabecera en la vista de operación del servicio como puede ver en la captura de pantalla.
+
Esta vista desplegará el servicio en forma arborescente como puede ver en la siguiente captura de pantalla. De esta manera se puede de un vistazo rápido ver como influyen los módulos, agentes o sub servicios en la monitorización del servicio. Incluso en los subservicios puede ver a su vez que es lo que les influye a la hora de calcular el estado por la suma de los pesos.
 
 
<br><center><br>
 
[[Image:Services tab servicemap v5.png|center]]
 
</center><br><br>
 
 
 
Esta vista se desplegara el servicio en forma arborescente como puede ver en la siguiente captura de pantalla. De esta manera se puede de un vistazo rápido ver como influyen los módulos, agentes o sub servicios en la monitorización del servicio. Incluso en los subservicios puede ver a su vez que es lo que les influye a la hora de calcular el estado por la suma de los pesos.
 
  
 
<br><center><br>
 
<br><center><br>
Line 446: Line 449:
  
 
Los posibles nodos que hay son:
 
Los posibles nodos que hay son:
* '''Nodo de módulo''' representado con el icono de la gráfica del latido de corazón. Este nodo siempre es un nodo final u nodo hoja del que no cuelgan otros nodos.
+
* '''Nodo de módulo''': Representado con el icono de la gráfica del latido de corazón. Este nodo siempre es un nodo final u nodo hoja del que no cuelgan otros nodos.
* '''Nodo de agente''' representado con el icono de caja de CPU. Este también es un nodo final del cual no colgara ningún otro.
+
* '''Nodo de agente''': Representado con el icono de caja de CPU. Este también es un nodo final del cual no colgara ningún otro.
* '''Nodo de servicio''' representado con el icono del martillo y la llave fija cruzados. De este al ser un servicio debe contener elementos que se representaran como ramas que salen hacia abajo de el.
+
* '''Nodo de servicio''': Representado con el icono del martillo y la llave fija cruzados. De este, al ser un servicio debe contener elementos que se representarán como ramas que salen hacia abajo de él.
  
Y el color de los nodos y la flecha que sale de ellos y sube hacia arriba al servicio padre depende del estado del nodo, como siempre verde OK, rojo crítico, amarillo advertencia o gris en estado desconocido.
+
Y el color de los nodos y la flecha que sale de ellos y sube hacia arriba al servicio padre depende del estado del nodo, como siempre: verde OK, rojo crítico, amarillo advertencia o gris en estado desconocido.
  
Dentro del nodo tendrás:
+
Dentro del nodo tendrá:
* '''Titulo''' que es el nombre del servicio, el nombre del agente o el nombre del módulo acompañado del agente.
+
* '''Título''': Que es el nombre del servicio, el nombre del agente o el nombre del módulo acompañado del agente.
 
* '''Lista de valores'''
 
* '''Lista de valores'''
** '''Crítico''': sera el peso que suma cuando esta en estado critico, excepto si el servicio es el servicio raíz del árbol que sera el umbral para ponerse en estado crítico.
+
** '''Crítico''': El peso que suma cuando está en estado crítico (excepto si el servicio es el servicio raíz del árbol) que usa el umbral para ponerse en estado crítico.
** '''Advertencia''': sera el peso que suma cuando esta en estado advertencia, excepto si el servicio es el servicio raíz del árbol que sera el umbral para ponerse en estado advertencia.
+
** '''Advertencia''': El peso que suma cuando está en estado advertencia (excepto si el servicio es el servicio raíz del árbol) que usa el umbral para ponerse en estado advertencia.
** '''Normal''': sera el peso que suma cuando esta en estado OK o normal, excepto si el servicio es el servicio raíz del árbol que no aparecerá en la lista de valores.
+
** '''Normal''': El peso que suma cuando está en estado OK o normal( excepto si el servicio es el servicio raíz del árbol) que no aparecerá en la lista de valores.
** '''Valor''': es el valor actual en el momento en que ha sido pintado el árbol, no se actualizará hasta que no refresque la página de esta vista de árbol. Además si es el servicio raíz del árbol que no aparecerá en la lista de valores.
+
** '''Desconocido''': El peso que suma cuando está en estado Desconocido( excepto si el servicio es el servicio raíz del árbol) que no aparecerá en la lista de valores.
 +
 
 +
Además, sobre cada elemento del árbol se puede hacer clic y el destino es la vista de operación de cada uno de ellos.
  
Además cada elemento del árbol es clickable y el destino es la vista de operación de cada uno de ellos.
+
{{tip|Cuando el servicio esté en modo ''simple'', aparecerá una exclamación roja al lado de cada elemento crítico.}}
  
 
===== Servicios en la Consola visual =====
 
===== Servicios en la Consola visual =====
Line 466: Line 471:
  
 
<br><center><br>
 
<br><center><br>
[[Image:Services visualmap v5.png|center|800px]]
+
[[Image:Servicios1.JPG|center|800px]]
 
</center><br><br>
 
</center><br><br>
  
Para crear un ítem de servicio en un mapa, el proceso es igual que para el resto de items de los visual map pero la paleta de opciones sera como la que ve en la captura de pantalla.
+
Para crear un ítem de servicio en un mapa, el proceso es igual que para el resto de items de los visual map pero la paleta de opciones será como la que ve en la captura de pantalla.
  
 
<br><center><br>
 
<br><center><br>
[[Image:Services visualmap add item v5.png|center|800px]]
+
[[Image:Servicios2.JPG|center|800px]]
 
</center><br><br>
 
</center><br><br>
  
 
Tendrá los controles:
 
Tendrá los controles:
* '''Etiqueta''': titulo que recibirá el servicio en el mapa visual.
+
* '''Etiqueta''': Título que recibirá el servicio en el mapa visual.
* '''Servicio''': lista desplegable que muestra los servicios a los que tiene acceso para añadir al mapa.
+
* '''Servicio''': Lista desplegable que muestra los servicios a los que tiene acceso para añadir al mapa.
 +
 
 +
Hay que tener en cuenta, que un ítem del servicio, al contrario que otros ítems del mapa visual, no se puede enlazar con otros mapas visuales, y siempre el enlace de la consola visual que permita hacer clic, tiene como destino la vista de mapa de servicio arborescente anteriormente descrito.
 +
 
 +
==== Vista de árbol de los servicios ====
 +
 
 +
Esta vista permite la visualización de los servicios en forma de árbol.
 +
 
 +
En cada nivel se muestra un recuento del número de elementos que engloba cada servicio o agente.
 +
* Servicios: Informa del número total de servicios, agentes y módulos que pertenecen a dicho servicio.
 +
* Agentes: Informa del número de módulos en estado critical (color rojo), warning (color amarillo), unknown (color gris), no iniciados (color azul) y estado normal (color verde).
 +
 
 +
Siempre se mostrarán en el primer nivel aquellos servicios que no pertenecen a otro. Para el caso de un servicio hijo, esté se mostrará anidado dentro de su padre.
 +
 
 +
<center>
 +
[[File:services_treeview.png]]
 +
</center>
 +
 
 +
{{Warning|La restricción de permisos ACLs sólo se aplica al primer nivel}}
 +
 
 +
<br><br>
 +
 
 +
=== Cómo interpretar los datos de un servicio ===
 +
 
 +
Las paradas planificadas recalculan el valor de los informes de SLA teniendo en cuenta que se permita el recálculo “atrás en el tiempo” con paradas planificadas añadidas a posteriori (eso es una opción que se debe activar a nivel global en el setup general). Cuando se trata de un informe de SLA de servicio, si existe una parada planificada que afecta a uno o más elementos del servicio, se considera que la parada planificada afecta a todo el servicio, a no poder definir el impacto que tiene la parada en el global del servicio.
 +
 
 +
Es importante destacar que esto es a nivel de informe, los árboles de servicio, y la información que presentan en la consola visual no se alteran respecto a paradas planificadas creadas después de su supuesta ejecución. Estos valores de cumplimiento % de servicio se calculan en tiempo real sobre datos del histórico del mismo servicio, no tiene que ver con un informe que se puede “cocinar”.
 +
 
 +
Por otro lado, es importante conocer cómo se calcula el % de cumplimiento de un servicio:
 +
 
 +
Supongamos que tenemos un servicio, definido por un 95% de cumplimiento en un intervalo de 1 hora. Supongamos esta tabla de valores, donde t es el tiempo, x es el % de cumplimiento del servicio (SLA), y s es si el servicio cumple o no (1 cumple, 0 no cumple). En 1 hora tendríamos exactamente 12 muestras (suponiendo un intervalo de 5 minutos).
 +
 
 +
Supongamos el caso donde el servicio se cumple bien durante las primeras 11 muestras (primeros 55 minutos) y en el minuto 60 falla, tendríamos estos valores:
 +
 
 +
<pre>
 +
  t    |  s  |    x 
 +
--------+-------+--------
 +
1          1      100
 +
2          1      100
 +
3          1      100
 +
4          1      100
 +
5          1      100
 +
6          1      100
 +
7          1      100
 +
8          1      100
 +
9          1      100
 +
10        1      100
 +
11        1      100
 +
12        0      91,6
 +
</pre>
 +
 
 +
Este caso es fácil de calcular, el % se calcula en función del número de muestras, en t3 por ejemplo son 3 muestras totales, con tres muestras que cumplen servicio, 100%, mientras que en t12, tenemos 12 muestras y 11 válidas: 11/12.
 +
 
 +
Supongamos que es en medio de la muestra y que se va recuperando poco a poco
 +
 
 +
<pre>
 +
  t    |  s  |    x 
 +
--------+-------+--------
 +
1          1      100
 +
2          1      100
 +
3          1      100
 +
4          1      100
 +
5          1      100
 +
6          0      83,3
 +
7          1      85,7
 +
8          1      87,5
 +
9          1      88,8
 +
10        1      90
 +
11        1      90,9
 +
12        1      91,6
 +
</pre>
 +
 
 +
Hasta aquí todo parece similar al punto anterior, pero veamos que pasa si continuamos en el tiempo:
 +
 
 +
<pre>
 +
  t    |  s  |    x 
 +
--------+-------+--------
 +
13        1      91,6
 +
14        1      91,6
 +
15        1      91,6
 +
16        1      91,6
 +
17        1      91,6
 +
18        1      100
 +
19        1      100
 +
....
 +
</pre>
  
Hay que tener en cuenta que un item del servicio al contrario que otros items del mapa visual, no se puede enlazar con otros mapas visuales, y siempre el enlace clickable de la consola visual tiene como destino la vista de mapa de servicio arborescente anteriormente descrito.
+
Aquí, vemos un comportamiento poco intuitivo, ya que el volumen de muestras válidas continua siendo 11 para una ventana de tiempo hasta llegar a t18, donde se queda fuera el único valor inválido, de forma que en t18 el cumplimiento pasa a ser del 100%. Este escalón entre 91,6 y 100 se explica por el tamaño de la ventana. Cuando mayor sea la ventana (generalmente en cálculo de SLA es diaria, semanal o mensual) menos abrupto será el escalón.
 +
 
 +
'''Cálculo de pesos en el modo simple '''
 +
 
 +
Los pesos se tratan de forma algo diferente en el modo simple al solo existir el peso crítico y tener la posibilidad de caer en dos estados a parte del normal. A cada elemento se le da peso 1 en critical y 0 en el resto, y cada vez que se hace un cambio en los elementos del servicio, se recalculan los pesos del servicio. El peso warning del servicio es despreciable, tiene valor 0.5 siempre por que si se deja a 0 el servicio siempre va a estar mínimo en warning, pero el peso de warning no se usa en el modo simple. El peso critical se calcula de manera que sea la mitad de la suma de los pesos críticos de los elementos, que es 1. Si hay 3 elementos el peso critical del servicio es 1.5, y luego ya es el servidor el que se encarga de mirar si se ha superado o igualado el peso critical para pasar el servicio a estado critical o warning.
 +
 
 +
=== Protección en cascada de servicios ===
 +
 
 +
Desde la actualización OUM725, está disponible la posibilidad de silenciar aquellos elementos de un servicio de manera dinámica.
 +
 
 +
Esto nos permite evitar una avalancha de alertas por cada elemento que pertenezca al servicio o sub-servicios.
 +
 
 +
Cuando tenemos la característica 'protección en cascada de servicios' activa, se ejecutará la acción asociada a la plantilla que hayamos configurado para el servicio raíz. Informándonos de los elementos que tienen un estado incorrecto dentro del servicio.
 +
 
 +
Es importante tener en cuenta que este sistema permite que se utilicen las alertas de los elementos que vayan a crítico dentro del servicio, aunque el estado general del mismo sea correcto.
 +
 
 +
La protección en cascada de servicios nos avisará con exactitud de los elementos raíz que hayan fallado sin importar la profundidad del servicio definido.
 +
 
 +
<center>
 +
[[File:service2test.png]]
 +
</center>
 +
 
 +
En el ejemplo mostrado, vemos que disponemos de uno de los elementos del servicio en estado crítico. Aunque el servicio principal se mantenga en estado correcto, nos avisará del estado de los elementos incorrectos disparando la alerta relacionada con el elemento en crítico. 
 +
 
 +
<!-- Falta imagen, meter el diseño funcional de carla -->
 +
 
 +
=== Análisis de causa raíz ===
 +
 
 +
Dentro de un servicio podemos tener un número ilimitado de sub-servicios (caminos). En versiones anteriores a OUM725, Pandora FMS alertaba indicando el estado del servicio (normal, crítico, advertencia, etc.). A partir de OUM725, está disponible una nueva macro, que nos indicará la causa raíz del estado del servicio.
 +
 
 +
Para usarla, agregaremos el siguiente texto a la plantilla que hayamos asociado al servicio:
 +
 
 +
 
 +
Cuerpo de una alerta: Mensaje de ejemplo
 +
La cadena de acontecimientos que han provocado el estado del servicio es la siguiente:
 +
_rca_
 +
 
 +
 
 +
Esto nos devolverá una salida similar a la que sigue:
 +
 
 +
Cuerpo de una alerta: Mensaje de ejemplo
 +
La cadena de acontecimientos que han provocado el estado del servicio es la siguiente:
 +
[Aplicación Web -> HW -> Apache server 3]
 +
[Aplicación Web -> HW -> Apache server 4]
 +
[Aplicación Web -> HW -> Apache server 10]
 +
[Aplicación Web -> DB Instances -> MySQL_base_1]
 +
[Aplicación Web -> DB Instances -> MySQL_base_5]
 +
[Aplicación Web -> Balanceadores -> 192.168.10.139]
 +
 
 +
 
 +
Viendo esta salida, podemos interpretar, que:
 +
 
 +
* Los servidores Apache 3,4 y 10 están en estado crítico
 +
* Las bases de datos MySQL_base 1 y 5 están caídas
 +
* El balanceador 192.168.10.139 no responde
 +
 
 +
 
 +
Esta información añadida, nos permite depurar el porqué del estado del servicio, reduciendo las tareas de investigación de causas de una caída.
 +
 
 +
 
 +
 
 +
=== Agrupaciones de servicios ===
 +
 
 +
Los servicios son agrupaciones lógicas que conforman parte de la estructura de negocio de una organización. Por ello puede tener cierto sentido la agrupación de servicios, ya que en muchos casos puede haber dependencias entre unos y otros, conformando por ejemplo un servicio general (la compañía) varios servicios más particulares (web corporativa, comunicaciones, etc.). Para agrupar servicios es necesario que estén creados tanto el servicio general o superior, como los servicios inferiores que se agregarán a éste para crear la estructura lógica en forma de árbol.
 +
 
 +
Estas agrupaciones nos ayudarán a por ejemplo: crear mapas visuales, configurar alertas, aplicar políticas de monitorización, etc. De tal manera que podemos crear alertas que avisen cuando la compañía está en estado crítico porque los comerciales no pueden realizar su trabajo, o cuando una de las sedes no está a pleno rendimiento por problemas técnicos con su servicio de ERP.
 +
 
 +
Para entender de forma más clara lo que son las agrupaciones de servicios, a continuación se muestran dos ejemplos.
 +
 
 +
=== Ejemplos de monitorización de servicios ===
 +
 
 +
==== Servicio de Pandora FMS ====
 +
 
 +
A continuación vemos un caso en el que se monitoriza el estado del servicio de monitorización de Pandora FMS, compuesto por el servicio Apache, el servicio MySQL, Pandora server y Tentacle. Cada uno de estos elementos constituye a su vez un servicio con distintos componentes, formando, mediante la agrupación de servicios, una estructura en forma de árbol.
 +
 
 +
 
 +
[[File:Arbol.JPG|800px|center]]
 +
 
 +
 
 +
En este caso, el servicio general de Pandora FMS alcanzará el estado crítico al llegar a peso 2, y estado warning con peso 1.
 +
Como se puede observar, los cuatro componentes tienen diferentes pesos sobre el servicio de Pandora FMS:
 +
* '''MySQL:''' Crítico para el servicio de Pandora FMS, peso individual de 2 si MySQL está caído. Adquirirá un peso de 1 si se encuentra en estado warning, mostrando ya un aviso en el servicio de Pandora FMS.
 +
* '''Pandora Server:''' Crítico para el servicio de Pandora FMS, peso individual de 2 si el Pandora Server se encuentra caído. Peso individual de 1 si se encuentra en estado warning, por ejemplo, por una excesiva carga de CPU, escalando el aviso hasta el servicio general de Pandora FMS.
 +
* '''Apache:''' Supone un degradado del servicio de Pandora FMS, pero no una interrupción total, por lo que adquiere un peso individual de 1 si se encuentra caído, mostrando en estado de warning el servicio de Pandora FMS.
 +
* '''Tentacle:''' Supone un degradado y hay componentes que pueden fallar, pero no supone la interrupción total del funcionamiento de Pandora FMS, por lo que su peso individual en caso de caída es 1, mostrando un warning en el servicio general.
 +
 
 +
En la siguiente imagen puede verse la configuración de los diferentes pesos de los elementos para el estado general del servicio de Pandora FMS:
 +
 
 +
 
 +
[[File:Pesos.JPG|800px|center]]
 +
 
 +
==== Servicio de almacenamiento en cluster, agrupación de servicios ====
 +
 
 +
Los servicios son agrupaciones lógicas que conforman parte de la estructura de negocio de una organización. Por ello, puede tener cierto sentido la agrupación de servicios ya que a veces los servicios por si solos no tienen un significado completo. Para agrupar servicios simplemente se añaden como elemento a un servicio superior, creando así una nueva agrupación lógica.
 +
 
 +
En el siguiente ejemplo tenemos un cluster de almacenamiento en HA. Para este caso se ha cogido un sistema de dos fileserver funcionando paralelamente, cada uno controlando el porcentaje y el estado de una serie de discos que dan servicio a departamentos concretos, creando así una estructura en forma de árbol de servicios agrupados.
 +
 
 +
 
 +
[[File:Cluster.JPG|center|800px]]
 +
 
 +
 
 +
Según esta estructura, el umbral de criticidad del servicio de almacenamiento de la compañía se alcanzará únicamente si los dos fileserver fallan, ya que esto denegaría totalmente el servicio, mientras que la caída de uno de ellos tan sólo supondría un servicio degradado.
 +
En la siguiente imagen puede observarse la configuración de pesos otorgada a los dos elementos principales del servicio de almacenamiento:
 +
 
 +
 
 +
[[File:Pesoscluster.JPG|center|800px]]
 +
 
 +
 
 +
En la siguiente imagen podemos ver el contenido y configuración de pesos del servicio agrupado FS01. Aquí los elementos tendrán un peso específico en función de su criticidad, siendo:
 +
* '''FS01 ALIVE:''' Crítico para el servicio de FS01, ya que se trata de la ip virtual asignada al primer cluster de discos, peso individual de 2, ya que si se encuentra caído, el resto de los elementos del servicio se encontrarán por lógica fuera de funcionamiento. En este caso no hay umbral warning, ya que se trata de un dato dependiente de estado Sí/No.
 +
* '''DHCPserver ping:''' Crítico para el servicio de FS01, le otorgamos peso individual de 2. En este caso tampoco hay umbral warning.
 +
* '''Discos''' Se les otorga un peso individual de 1 en caso de que alcancen su umbral crítico, y 0.5 para su umbral warning, por lo que ésto solo afectará de manera crítica al servicio de FS01 si existen al menos dos en estado crítico o los cuatro discos en estado warning.
 +
 
 +
 
 +
[[File:Pesosfs01.JPG|center|800px]]
  
 
== Pandora Server ==
 
== Pandora Server ==
  
Es necesario que el modulo Prediction este funcionando y que tenga instalada la versión Enterprise de Pandora Server para poder realizar la monitoración de Servicios.
+
Es necesario que el componente PredictionServer este funcionando y que tenga instalada la versión Enterprise de Pandora Server para poder realizar la monitorización de Servicios.
 +
 
 +
 
  
 
[[Pandora:Documentation|Volver a Indice de Documentacion Pandora FMS]]
 
[[Pandora:Documentation|Volver a Indice de Documentacion Pandora FMS]]
  
 
[[Category:Pandora FMS]]
 
[[Category:Pandora FMS]]

Latest revision as of 10:01, 4 September 2020

Volver a Indice de Documentacion Pandora FMS

1 Monitorización de Servicios

1.1 Introducción

Un servicio es una agrupación de recursos IT basándose en sus funcionalidades.

Un servicio puede ser, por ejemplo, su sitio web oficial, su CRM, su aplicación de soporte o incluso todas sus impresoras. Los servicios son agrupaciones lógicas que incluyen hosts, routers, switches, firewalls, CRM, ERP, webs y por supuesto otros servicios.

En Pandora FMS, representamos los servicios como una agrupación de elementos monitorizados (módulos, agentes u otros servicios) cuyo estado individual, afecta de una determinada manera a la funcionalidad global del servicio que se presta.

1.2 Servicios en Pandora FMS

1.2.1 Cómo funcionan los servicios en Pandora FMS

La monitorización básica en Pandora FMS consiste en la recogida de métricas de diferentes orígenes, representándolas como monitores (módulos).

La monitorización en servicios nos permite agrupar estos elementos, de tal manera que, jugando con ciertos márgenes basados en la acumulación de fallos, podremos monitorizar grupos de elementos de diferente índole y su relación en un servicio mayor y general.

En definitiva, la monitorización de servicios nos permite comprobar el estado de un servicio global. Podremos conocer si nuestro servicio se está proporcionando con normalidad (verde), degradado (amarillo) o si no estamos prestando el servicio (rojo).

Para entender mejor en qué consiste la monitorización de servicios, vamos a poner un pequeño ejemplo.


Supongamos que queremos monitorizar nuestra aplicación web, que tenemos balanceada a través de una serie de elementos redundantes. La infraestructura en la que se basa nuestra aplicación podría estar formada por los siguientes elementos:

  • Dos routers en HA.
  • Dos switches en HA.
  • Veinte servidores WEB Apache.
  • Cuatro servidores de Aplicaciones Weblogic
  • Un cluster MySQL de dos nodos de almacenamiento y dos nodos de procesamiento SQL.

Dado que nuestro objetivo es saber si nuestra aplicación web está funcionando correctamente, es decir, la apreciación final por parte de nuestros clientes es que la aplicación funciona.


La necesidad de monitorizar servicios como algo "abstracto" surge cuando nos enfrentamos a la siguiente pregunta:

¿Qué pasa con mi aplicación si se cae un elemento que en principio no es crítico?

Como por ejemplo, si cayera uno de los veinte servidores Apache. En principio podríamos no avisar, debido a que tanta redundancia se plantea para tener situaciones problemáticas cubiertas. Pero entonces, ¿sobre cuál alertar? ¿todos? ¿sólo algunos? ¿cuál es la regla para alertar?

Podríamos pensar que Pandora FMS sólo debería avisarnos si se cae un elemento más crítico (por ejemplo un router) o si se cayesen varios servidores Apache.

Para solventar todas estas dudas, aparece la funcionalidad de monitorización a través de servicios en Pandora FMS.


Los servicios en Pandora FMS nos ayudan a:

  • Limitar la cantidad de avisos recibidos. Recibiremos alertas sobre situaciones que comprometen la fiabilidad de los servicios que proveemos.
  • Llevar un seguimiento del nivel de cumplimiento.
  • Simplificar la visualización de la monitorización de nuestra infraestructura.


Para lograr esto, deberemos tener monitorizado cada elemento que pueda afectar negativamente a nuestra aplicación.

A través de la consola de Pandora FMS, deberemos definir un árbol de servicio en el que indicaremos tanto los elementos que afectan a nuestra aplicación, como el grado en que afectan.

Todos los elementos que añadamos a los árboles de servicio corresponderán a información que ya está siendo monitorizada, ya sea en forma de módulos, agentes concretos u otros servicios.


Para indicar el grado en que afectan los estados de cada elemento al estado global, se utilizará un sistema de suma de pesos, de modo que los más importantes (con más peso) serán más relevantes para ajustar el estado global del servicio completo a un estado incorrecto antes que los elementos menos importantes (con menos peso).


Veamos todas estas ideas a través de un ejemplo práctico:

  • Switches y routers: 5 puntos a cada uno cuando estén en critical, y 3 puntos si están en warning.
  • Servidores WEB: 1.2 puntos a cada uno en critical, no contemplamos el estado warning.
  • Servidores WebLogic: 2 puntos a cada uno en critical.
  • Cluster MySQL: 5 puntos a cada nodo en critical y 3 puntos en warning.


Tipo de elemento Asignación de pesos
Normal Warning Critical Unknown
Router0355
Switch0355
Web server001.21.2
Weblogic server0022
MySQL server0355


Establecemos un umbral de warning para el servicio de 4, y un umbral de critical de 6. De esta forma, y suponiendo que todo va bien el servicio estaría "OK" si todos los elementos monitorizados están OK o no son lo suficientemente importantes como para provocar carencias en la prestación de nuestro servicio.

Configuración del servicio
Normal Warning Critical
0 >=4 >=6


Ahora supongamos que se cae un (1) servidor Web Apache:

  • 1 x Servidor Apache en CRITICAL x 1.2 pto = 1.2 Dado que 1.2 < 4 (Warning), el servicio sigue en estado OK.

La contribución de pesos será:

2 x 0 (routers en OK)
+ 2 x 0 (switches en OK)
+ 19 x 0 (apache OK)
+ 1 x 1.2 (apache CRIT)
+ 4 x 0 (weblogic OK)
+ 1 x 0 (mysql OK)
Total: 1.2 --> Nuestro servicio estará en NORMAL


Veamos que pasa si se cae un servidor WEB y un Weblogic:

  • 1 x Servidor Apache en CRITICAL x 1.2 pto = 1.2
  • 1 x Servidor Weblogic en CRITICAL x 2 = 2

Total, 3,2 sigue siendo < 4 así que el servicio sigue en estado OK, se sigue prestando, no es necesaria de manera inmediata una actuación técnica.

La contribución de pesos será:

2 x 0 (routers en OK)
+ 2 x 0 (switches en OK)
+ 19 x 0 (apache OK)
+ 1 x 1.2 (apache CRIT)
+ 3 x 0 (weblogic OK)
+ 1 x 2 (weblogic CRIT)
+ 1 x 0 (mysql OK)
Total: 3.2 --> Nuestro servicio estará en NORMAL


Veamos que pasa si se caen dos servidores WEB y un Weblogic:

  • 2 x Servidor Apache en CRITICAL x 1.2 pto = 2.4
  • 1 x Servidor Weblogic en CRITICAL x 2 = 2

Total, 4,4 ahora ya es > 4 y el servicio pasa a estado WARNING, nuestro servicio ha entrado en un estado degradado. Sigue funcionando, y puede que no requiera una actuación técnica inmediata, pero es evidente que se ha producido un problema en nuestra infraestructura.

2 x 0 (routers en OK)
+ 2 x 0 (switches en OK)
+ 18 x 0 (apache OK)
+ 2 x 1.2 (apache CRIT)
+ 3 x 0 (weblogic OK)
+ 1 x 2 (weblogic CRIT)
+ 1 x 0 (mysql OK)
Total: 4.4 --> Nuestro servicio estará en WARNING


Supongamos que ademas de lo anterior se cae un Router:

  • 2 x Servidor Apache en CRITICAL x 1.2 pto = 2.4
  • 1 x Servidor Weblogic en CRITICAL x 2 = 2
  • 1 x Router en CRITICAL x 5 = 5

Tenemos ya un 9,4 superior al umbral de 6 para CRITICAL, así que el servicio está en crítico, no se está prestando el servicio la actuación técnica inmediata es imperativa.

1 x 0 (routers en OK)
+ 1 x 5 (router en CRIT)
+ 2 x 0 (switches en OK)
+ 18 x 0 (apache OK)
+ 2 x 1.2 (apache CRIT)
+ 3 x 0 (weblogic OK)
+ 1 x 2 (weblogic CRIT)
+ 1 x 0 (mysql OK)
Total: 9.4 --> Nuestro servicio estará en CRÍTICO

Pandora FMS alertará al equipo de trabajo correspondiente (operadores, técnicos, etc.).


La monitorización de servicios es una característica únicamente de la versión Enterprise de Pandora FMS.

1.2.1.1 Cómo funciona el modo simple

Existe la posibilidad de que el sistema de pesos sea demasiado complejo si las necesidades de monitorización son más básicas.

Por ello se encuentra disponible el modo simple en la configuración de los servicios.

En este modo solo es necesario indicar qué elementos son críticos y cuáles no.

Solo los elementos marcados como críticos serán tenidos en cuenta para realizar los cálculos y solo el estado critical de los elementos tendrá valor.

  • Cuando entre 0 y el 50% de los elementos críticos se encuentre en estado critical, el servicio entrará en estado warning.
  • Cuando más del 50% de los elementos críticos entren en estado critical, el servicio entrará en estado critical.


Pongamos un ejemplo de servicio simple:

  • Router como elemento crítico.
  • Impresora como elemento no crítico.
  • Servidor Apache como elemento crítico.


En un determinado momento, los monitores se encuentran en la siguiente situación:

  • Router en critical.
  • Impresora en critical.
  • Servidor Apache en warning.

El estado del servicio bajo esta casuística, sería warning, ya que la impresora no es un elemento crítico y su estado no es tenido en cuenta, así como el estado del servidor Apache, que pese a ser un elemento crítico solo se valoraría en el caso de tener estado critical.

Esto hace que exista un único elemento crítico en estado critical, justo el 50% del total de los elementos críticos indicados.


Supongamos que los monitores se encuentran en la siguiente situación:

  • Router en critical.
  • Impresora en critical.
  • Servidor Apache en critical.

El estado del servicio sería critical, ya que más del 50% del total de los elementos críticos se encuentran en estado crítico.


Finalmente otro día los elementos se encuentran en estos estados:

  • Router en normal.
  • Impresora en critical.
  • Servidor Apache en normal.

El estado del servicio sería normal, ya que menos del 50% del total de los elementos críticos se encuentran en estado crítico.

De hecho, ningún elemento clave está en estado critical, solamente la impresora que, como hemos visto antes, al no ser un elemento crítico no es tenido en cuenta para los cálculos.

1.2.1.2 Servicios raíz

A partir de la versión 7.0 OUM726 de Pandora FMS, los servicios se evalúan de manera ligeramente diferente.

A partir de ahora se evaluarán los servicios que no formen parte de otro servicio, es lo que denominamos servicios raíz. Este cambio en la lógica nos permite agilizar la monitorización, reduciendo las colas de trabajo.

Así mismo, y partiendo de esta base, ahora cuando un servicio definido en un nodo de Pandora FMS aparezca como elemento de un servicio raíz en Metaconsola, será el servidor de Metaconsola quien lo evalúe, actualizando los valores almacenados en el nodo.

Esto nos aporta una lógica distribuida más eficiente y nos permite aplicar un sistema de protección en cascada basado en servicios, este punto lo tratamos con más detalle en [Protección en cascada de servicios].

También se han ampliado las posibilidades de los servicios en Metaconsola, permitiendo agregar como elementos de un servicio tanto otros servicios, como módulos o agentes. En versiones previas sólo se admitían servicios de nodo.

1.2.2 Creando un nuevo servicio

1.2.2.1 Introducción

Template warning.png

Es necesaria la versión Enterprise y el componente PredictionServer habilitado para poder utilizar los servicios.

 


Los servicios pueden representar:

  • Módulos
  • Agentes completos
  • Otros servicios

Los valores de un servicio se calculan por medio del servidor de Predicción.

Una vez que tiene todos los dispositivos monitorizados, dentro de cada servicio puede añadir todos los módulos, agentes o subservicios que necesite para monitorizar el servicio. Por ejemplo, si quiere monitorizar el servicio de la Tienda Online necesita un modulo para el contenido, un servicio que monitorice el estado de las comunicaciones, etc. A través de los siguientes pasos puede ver como crear un servicio con Pandora FMS.

Para crear un nuevo servicio tendremos que ir a Services dentro del menú Topology Maps.


Menu services.png


Aparecerá una vista de árbol con todos los servicios.


Arbol servicios.png


1.2.2.2 Configuración inicial

Para crear un nuevo servicio se debe hacer click en el botón Create service, y rellenar el formulario que aparecerá:



Formulario servicios.png


Los campos del formulario son:

  • Nombre: El nombre del servicio. Debe ser un nombre único, que permitirá identificar el servicio.
  • Descripción: Descripción del servicio, un texto largo de carácter obligatorio. Dicha descripción será la que aparecerá en el mapa del servicio, en la vista de tabla de servicio y en el widget de servicios (en lugar del nombre).
  • Grupo: Grupo al que pertenece el servicio, útil para organizarlo y para aplicar restricciones de ACL.
  • Agente para guardar los datos: El servicio guarda los datos en unos módulos especiales de datos (en concreto los módulos de predicción) y es necesario introducir un agente para que sea el contenedor de estos módulos, a la vez también de las alarmas que posteriormente tendrá que configurar en este mismo formulario. Nota: Tenga en cuenta que el intervalo en el que se realizarán todos los cálculos de los módulos del servicio dependerán del intervalo del agente configurado como contenedor.
  • Modo: Modo en el que se realizará el cálculo de pesos de los elementos. Puede tener 2 valores:
    • Inteligente: Los pesos y elementos que formen parte del servicio se calcularán de forma automática en base a reglas establecidas.
    • Manual: Los pesos y los elementos que formen parte del servicio se indicarán manualmente con valores fijos.

Template warning.png

El modo inteligente solo está disponible a partir de la versión 7.0NG 748 de Pandora FMS.

Los modos automático y simple de versiones anteriores pasarán a ser manuales mediante la aplicación del MR 40 en la actualización de versión.

 


  • Crítico: Umbral de peso para declarar el servicio como crítico. En modo inteligente este valor será un porcentaje. Más adelante se explica como contribuyen los elementos a este valor.
  • Advertencia: Umbral de peso para declarar el servicio como en estado de advertencia. En modo inteligente este valor será un porcentaje. Más adelante se explica como contribuyen los elementos a este valor.
  • Elementos desconocidos como críticos: Permite indicar que los elementos en estado desconocido aporten su peso igual que si fuesen un elemento crítico.
  • Favorito: Permite marcar el servicio como favorito. Con ello se creará un enlace directo en el menú lateral y se podrán filtrar los servicios en las vistas en base a este criterio.


Servicios favoritos.png


  • Modo silencioso: Activa el modo silencio del servicio, por lo que no generará alertas ni eventos.
  • Protección en cascada habilitada: Activa la protección en cascada sobre los elementos del servicio. Estos no generarán alertas ni eventos si pertenecen a un servicio (o subservicio) que está en estado crítico.
  • Calcular SLA continuo: Activa la creación de módulos de SLA y SLA value para el servicio actual, si está desactivado no dispondrá de la información de SLA calculada de manera dinámica, ni funcionarán las alertas sobre cumplimiento SLA de este servicio. Se utiliza para casos en los que el número de servicios necesarios es tan alto que puede afectar al rendimiento. Si se desactiva esta opción, una vez ya creado el servicio se borrará el histórico de datos de estos módulos, por lo que se perderá información.
  • Intervalo SLA: Periodo de tiempo para calcular el SLA efectivo del servicio.
  • Límite SLA: Umbral de estado en OK del servicio para que se considere un SLA positivo durante el periodo de tiempo que ha configurado en el campo previo.
  • Alerta del servicio en estado advertencia: Plantilla de alerta que tendrá el servicio para lanzar la alerta cuando el servicio pase a estado de advertencia.
  • Alerta del servicio en estado crítico: Plantilla de alerta que tendrá el servicio para lanzar la alerta cuando el servicio pase a estado de critico.
  • Alerta del servicio en estado desconocido: Plantilla de alerta que tendrá el servicio para lanzar la alerta cuando el servicio pase a estado de desconocido.
  • Alerta del SLA en estado crítico: Plantilla de alerta que tendrá el servicio para lanzar la alerta cuando el SLA del servicio no se cumpla.

1.2.2.3 Configuración de elementos

Una vez rellenado correctamente el formulario tendrá un servicio vacío el cual hay que rellenar con elementos como veremos a continuación. En el formulario de edición del servicio, se selecciona la pestaña 'Configurar elementos'.


Elementos servicios.png


Haciendo click en el botón Add element aparecerá una ventana emergente con un formulario. El formulario será ligeramente distinto si el servicio está en modo inteligente o en modo manual.


Formulario elementos servicios.png


Los campos del formulario son:

  • Descripción: Texto opcional que se usará para representar el elemento en el mapa de servicio. Si no se indica se usará el nombre del módulo, agente o servicio (según el elemento añadido).
  • Tipo: Lista desplegable para elegir si el elemento será un servicio, módulo o agente. En servicios en modo inteligente además se puede elegir el tipo dinámico.
  • Agente: Buscador inteligente de agentes. Solo visible si el elemento a crear o editar es de tipo agente o módulo.
  • Módulo: Lista desplegable con los módulos del agente elegido previamente en el buscador inteligente. Este control solo es visible si se edita o se crea un elemento para el servicio de tipo módulo.
  • Servicio: Lista desplegable de los servicios para crear un elemento. Solo visible si el elemento a crear o editar es de tipo servicio. Además hay que tener en cuenta que los servicios que aparecerán en la lista desplegable son los que no sean ancestros del servicio, es necesario esto para mostrar una correcta estructura arborescente de dependencia entre servicios.

Los siguientes campos solo estarán disponibles para los elementos de tipo dinámico, en servicios en modo inteligente:

  • Tipo de elementos que coinciden: Lista desplegable para elegir si los elementos para los que se evaluarán las reglas dinámicas y que formarán parte del servicio serán agentes o módulos.
  • Filtrar por grupo: Regla para indicar el grupo al que debe pertenecer el elemento para formar parte del servicio.
  • Con nombre de agente: Regla para indicar el nombre del agente que debe tener el elemento para formar parte del servicio. Se indicará un texto que deberá ser parte del nombre del agente deseado.
  • Con nombre de módulo: Regla para indicar el nombre del módulo que debe tener el elemento para formar parte del servicio. Se indicará un texto que deberá ser parte del nombre del módulo deseado.
  • Con nombre de campo personalizado: Regla para indicar el nombre del campo personalizado que debe tener el elemento para formar parte del servicio. Se indicará un texto que deberá ser parte del nombre del campo personalizado deseado.
  • Con valor de campo personalizado: Regla para indicar el valor del campo personalizado que debe tener el elemento para formar parte del servicio. Se indicará un texto que deberá ser parte del valor del campo personalizado deseado.

Por ejemplo, si la configuración de un elemento dinámico fuese:


Elementos dinamicos servicios.png


Se usarían como elementos del servicio todos los módulos que en su nombre incluyan "Host Alive", que se encuentren en un agente que en su nombre incluya "SW", dentro del grupo "Servers", con un campo personalizado que en su nombre incluya "Departamento" con un valor que incluya "Sistemas".

Los siguientes campos solo estarán disponibles para los servicios en modo manual:

  • Crítico: Peso que el elemento sumará al servicio cuando se encuentre en estado crítico.
  • Advertencia: Peso que el elemento sumará al servicio cuando se encuentre en estado advertencia.
  • Desconocido: Peso que el elemento sumará al servicio cuando se encuentre en estado desconocido.
  • Normal: Peso que el elemento sumará al servicio cuando se encuentre en estado normal.

Para calcular el estado de un servicio, se sumará el peso de cada uno de sus elementos en base a su estado, y si supera los umbrales establecidos en el servicio para advertencia o para crítico, el estado del servicio pasará a advertencia o crítico según corresponda.

En los servicios en modo inteligente, ya que no se definen pesos para los elementos, la forma en que se calcula su estado es la siguiente:

  • Los elementos críticos contribuyen con la totalidad de su porcentaje al peso del servicio. Esto significa que si por ejemplo tenemos 4 elementos en el servicio y solo 1 de ellos en crítico, ese elemento sumará un 25% al peso del servicio. Si en lugar de 4 elementos fuesen 5, el elemento crítico sumaría un 20% al peso del servicio.
  • Los elementos en advertencia contribuyen con la mitad de su porcentaje al peso del servicio. Esto significa que si por ejemplo tenemos 4 elementos en el servicio y solo 1 de ellos en advertencia, ese elemento sumará un 12.5% al peso del servicio. Si en lugar de 4 elementos fuesen 5, el elemento en advertencia sumaría un 10% al peso del servicio.

Template warning.png

Los elementos dinámicos no se ven afectados por la protección en cascada de servicios.

 


1.2.2.4 Módulos que se crean al configurar un servicio:

  • SLA Value Service: Es el valor porcentual del cumplimiento de SLA. (async_data)
  • Service_SLA_Service: Aquí nos muestra si el SLA se está cumpliendo o no. (async_proc)
  • Service_Service: En este módulo nos muestra la suma de los pesos del servicio. (async_data)



1.2.3 Visualización de los Servicios

1.2.3.1 Lista simple de todos los servicios

Es la lista de operación que muestra todos los servicios creados, por supuesto solo muestra los de los grupos que tiene acceso el usuario que este usando la consola de Pandora FMS.

Para llegar a esta vista, solo tiene que ir al menú de Operación, abrir la entrada Monitorización y dentro de este es la sección Servicios.



Services list services admin v5.png


Cada fila representa un servicio y las columnas que se muestran son:

  • Nombre: Es el nombre que tiene el servicio.
  • Descripción: la descripción corta de lo que es el servicio.
  • Grupo: El icono del grupo al que pertenece el servicio y que el usuario puede ver.
  • Critico: El valor umbral de las sumas de pesos para marcar el servicio como critico.
  • Advertencia: El valor umbral de las sumas de pesos para marcar el servicio como en estado de advertencia.
  • Valor: El valor de las sumas de pesos de los elementos que contienen el servicio.
  • Estado: Un icono que representa el estado del servicio. Hay los siguientes tres posibles estados representados normalmente con los siguientes colores:
    • Rojo: El servicio ha entrado en estado de crítico porque la suma de los pesos de los módulos ha superado o igualado el umbral de crítico.
    • Amarillo: El servicio ha entrado en estado de advertencia porque la suma de los pesos de los módulos ha superado o igualado el umbral de advertencia.
    • Verde: El servicio se mantiene en estado normal o correcto porque la suma de los pesos de los módulos no ha llegado como mínimo al umbral de advertencia.
    • Gris: El servicio se mantiene en estado desconocido, normalmente ocurre cuando el servicio esta recién creado y no tiene elementos contenidos en el, o cuando tiene el Servidor de Predicción de Pandora FMS caído.
  • SLA: El valor de SLA del servicio, el SLA estará con alguno de los siguientes valores:
    • OK: Se cumple el SLA en el periodo definido para el SLA del servicio.
    • INCORRECTO: No se cumple el SLA en el periodo definido para el SLA del servicio.
    • N/A: El SLA esta en estado desconocido, porque, o bien todavía no ha recogido datos suficientes para hacer el cálculo o bien está desactivado el SLA.



1.2.3.1.1 Tabla de todos los servicios

Tabla de visualización rápida de todos los servicios visibles y su estado actual.

Servs.JPG


1.2.3.1.2 Lista simple de un servicio y todos los elementos que contiene

Esta vista es accesible haciendo clic en el nombre de un servicio en la lista de todos los servicios, o a través de la pestaña con icono de lupa en la cabecera de título del servicio.

Pandora FMS mostrará una página parecida a la mostrada en la siguiente captura de pantalla:



Services list elements operation v5.png


En la captura podemos distinguir dos zonas, el servicio con las mismas columnas que en la vista anterior en la parte superior. La lista de los elementos que componen este servicio en la parte inferior.

La lista de los elementos aparece en formato de tabla, donde las filas corresponden a cada elemento y las columnas representan:

  • Tipo: Icono que representa el tipo de elemento, es o un bloque de construcción para los módulos o unos bloques apilados para el agente o el icono de un diagrama de red para los servicios.
  • Nombre: Texto que tiene el nombre del agente, o el nombre del agente y el módulo, o el nombre del servicio. Todos ellos contienen un enlace a la vista de operación correspondiente.
  • Descripción: Texto corto que describe el elemento.
  • Peso para crítico: El valor del peso asociado cuando el elemento esta en crítico.
  • Peso para advertencia: El valor del peso asociado cuando el elemento esta en advertencia.
  • Peso para normal: El valor de peso asociado cuando el elemento esta en normal.
  • Dato: El valor del elemento que según el tipo puede ser:
    • Módulos: El valor del módulo.
    • Agentes: Un texto que dirá el estado del agente.
    • Servicios: La suma de pesos de los elementos del servicio que ha sido escogido como elemento para el servicio padre.
  • Estado: Icono que representa con color el estado del elemento.

Template warning.png

Hay que tener en cuenta que el cálculo de los servicios lo realiza el servidor de predicción, por lo que los datos no son a tiempo real. Y puede darse situaciones en que añadas un agente o módulo y el peso no se actualice hasta que el servidor vuelva a calcular ese servicio

 


1.2.3.1.3 Vista de mapa de servicio

Esta vista desplegará el servicio en forma arborescente como puede ver en la siguiente captura de pantalla. De esta manera se puede de un vistazo rápido ver como influyen los módulos, agentes o sub servicios en la monitorización del servicio. Incluso en los subservicios puede ver a su vez que es lo que les influye a la hora de calcular el estado por la suma de los pesos.



Services servicemap v5.png


Los posibles nodos que hay son:

  • Nodo de módulo: Representado con el icono de la gráfica del latido de corazón. Este nodo siempre es un nodo final u nodo hoja del que no cuelgan otros nodos.
  • Nodo de agente: Representado con el icono de caja de CPU. Este también es un nodo final del cual no colgara ningún otro.
  • Nodo de servicio: Representado con el icono del martillo y la llave fija cruzados. De este, al ser un servicio debe contener elementos que se representarán como ramas que salen hacia abajo de él.

Y el color de los nodos y la flecha que sale de ellos y sube hacia arriba al servicio padre depende del estado del nodo, como siempre: verde OK, rojo crítico, amarillo advertencia o gris en estado desconocido.

Dentro del nodo tendrá:

  • Título: Que es el nombre del servicio, el nombre del agente o el nombre del módulo acompañado del agente.
  • Lista de valores
    • Crítico: El peso que suma cuando está en estado crítico (excepto si el servicio es el servicio raíz del árbol) que usa el umbral para ponerse en estado crítico.
    • Advertencia: El peso que suma cuando está en estado advertencia (excepto si el servicio es el servicio raíz del árbol) que usa el umbral para ponerse en estado advertencia.
    • Normal: El peso que suma cuando está en estado OK o normal( excepto si el servicio es el servicio raíz del árbol) que no aparecerá en la lista de valores.
    • Desconocido: El peso que suma cuando está en estado Desconocido( excepto si el servicio es el servicio raíz del árbol) que no aparecerá en la lista de valores.

Además, sobre cada elemento del árbol se puede hacer clic y el destino es la vista de operación de cada uno de ellos.

Info.png

Cuando el servicio esté en modo simple, aparecerá una exclamación roja al lado de cada elemento crítico.

 


1.2.3.1.4 Servicios en la Consola visual

A partir de esta versión, en la consola visual puede añadir servicios como otro ítem mas a mostrar dentro del mapa.



Servicios1.JPG


Para crear un ítem de servicio en un mapa, el proceso es igual que para el resto de items de los visual map pero la paleta de opciones será como la que ve en la captura de pantalla.



Servicios2.JPG


Tendrá los controles:

  • Etiqueta: Título que recibirá el servicio en el mapa visual.
  • Servicio: Lista desplegable que muestra los servicios a los que tiene acceso para añadir al mapa.

Hay que tener en cuenta, que un ítem del servicio, al contrario que otros ítems del mapa visual, no se puede enlazar con otros mapas visuales, y siempre el enlace de la consola visual que permita hacer clic, tiene como destino la vista de mapa de servicio arborescente anteriormente descrito.

1.2.3.2 Vista de árbol de los servicios

Esta vista permite la visualización de los servicios en forma de árbol.

En cada nivel se muestra un recuento del número de elementos que engloba cada servicio o agente.

  • Servicios: Informa del número total de servicios, agentes y módulos que pertenecen a dicho servicio.
  • Agentes: Informa del número de módulos en estado critical (color rojo), warning (color amarillo), unknown (color gris), no iniciados (color azul) y estado normal (color verde).

Siempre se mostrarán en el primer nivel aquellos servicios que no pertenecen a otro. Para el caso de un servicio hijo, esté se mostrará anidado dentro de su padre.

Services treeview.png

Template warning.png

La restricción de permisos ACLs sólo se aplica al primer nivel

 




1.2.4 Cómo interpretar los datos de un servicio

Las paradas planificadas recalculan el valor de los informes de SLA teniendo en cuenta que se permita el recálculo “atrás en el tiempo” con paradas planificadas añadidas a posteriori (eso es una opción que se debe activar a nivel global en el setup general). Cuando se trata de un informe de SLA de servicio, si existe una parada planificada que afecta a uno o más elementos del servicio, se considera que la parada planificada afecta a todo el servicio, a no poder definir el impacto que tiene la parada en el global del servicio.

Es importante destacar que esto es a nivel de informe, los árboles de servicio, y la información que presentan en la consola visual no se alteran respecto a paradas planificadas creadas después de su supuesta ejecución. Estos valores de cumplimiento % de servicio se calculan en tiempo real sobre datos del histórico del mismo servicio, no tiene que ver con un informe que se puede “cocinar”.

Por otro lado, es importante conocer cómo se calcula el % de cumplimiento de un servicio:

Supongamos que tenemos un servicio, definido por un 95% de cumplimiento en un intervalo de 1 hora. Supongamos esta tabla de valores, donde t es el tiempo, x es el % de cumplimiento del servicio (SLA), y s es si el servicio cumple o no (1 cumple, 0 no cumple). En 1 hora tendríamos exactamente 12 muestras (suponiendo un intervalo de 5 minutos).

Supongamos el caso donde el servicio se cumple bien durante las primeras 11 muestras (primeros 55 minutos) y en el minuto 60 falla, tendríamos estos valores:

   t    |   s   |    x  
--------+-------+--------
1          1      100
2          1      100
3          1      100
4          1      100
5          1      100
6          1      100
7          1      100
8          1      100
9          1      100
10         1      100
11         1      100
12         0      91,6

Este caso es fácil de calcular, el % se calcula en función del número de muestras, en t3 por ejemplo son 3 muestras totales, con tres muestras que cumplen servicio, 100%, mientras que en t12, tenemos 12 muestras y 11 válidas: 11/12.

Supongamos que es en medio de la muestra y que se va recuperando poco a poco

   t    |   s   |    x  
--------+-------+--------
1          1      100
2          1      100
3          1      100
4          1      100
5          1      100
6          0      83,3
7          1      85,7
8          1      87,5
9          1      88,8
10         1      90 
11         1      90,9
12         1      91,6

Hasta aquí todo parece similar al punto anterior, pero veamos que pasa si continuamos en el tiempo:

   t    |   s   |    x  
--------+-------+--------
13        1      91,6
14        1      91,6
15        1      91,6
16        1      91,6
17        1      91,6
18        1      100
19        1      100
....

Aquí, vemos un comportamiento poco intuitivo, ya que el volumen de muestras válidas continua siendo 11 para una ventana de tiempo hasta llegar a t18, donde se queda fuera el único valor inválido, de forma que en t18 el cumplimiento pasa a ser del 100%. Este escalón entre 91,6 y 100 se explica por el tamaño de la ventana. Cuando mayor sea la ventana (generalmente en cálculo de SLA es diaria, semanal o mensual) menos abrupto será el escalón.

Cálculo de pesos en el modo simple

Los pesos se tratan de forma algo diferente en el modo simple al solo existir el peso crítico y tener la posibilidad de caer en dos estados a parte del normal. A cada elemento se le da peso 1 en critical y 0 en el resto, y cada vez que se hace un cambio en los elementos del servicio, se recalculan los pesos del servicio. El peso warning del servicio es despreciable, tiene valor 0.5 siempre por que si se deja a 0 el servicio siempre va a estar mínimo en warning, pero el peso de warning no se usa en el modo simple. El peso critical se calcula de manera que sea la mitad de la suma de los pesos críticos de los elementos, que es 1. Si hay 3 elementos el peso critical del servicio es 1.5, y luego ya es el servidor el que se encarga de mirar si se ha superado o igualado el peso critical para pasar el servicio a estado critical o warning.

1.2.5 Protección en cascada de servicios

Desde la actualización OUM725, está disponible la posibilidad de silenciar aquellos elementos de un servicio de manera dinámica.

Esto nos permite evitar una avalancha de alertas por cada elemento que pertenezca al servicio o sub-servicios.

Cuando tenemos la característica 'protección en cascada de servicios' activa, se ejecutará la acción asociada a la plantilla que hayamos configurado para el servicio raíz. Informándonos de los elementos que tienen un estado incorrecto dentro del servicio.

Es importante tener en cuenta que este sistema permite que se utilicen las alertas de los elementos que vayan a crítico dentro del servicio, aunque el estado general del mismo sea correcto.

La protección en cascada de servicios nos avisará con exactitud de los elementos raíz que hayan fallado sin importar la profundidad del servicio definido.

Service2test.png

En el ejemplo mostrado, vemos que disponemos de uno de los elementos del servicio en estado crítico. Aunque el servicio principal se mantenga en estado correcto, nos avisará del estado de los elementos incorrectos disparando la alerta relacionada con el elemento en crítico.


1.2.6 Análisis de causa raíz

Dentro de un servicio podemos tener un número ilimitado de sub-servicios (caminos). En versiones anteriores a OUM725, Pandora FMS alertaba indicando el estado del servicio (normal, crítico, advertencia, etc.). A partir de OUM725, está disponible una nueva macro, que nos indicará la causa raíz del estado del servicio.

Para usarla, agregaremos el siguiente texto a la plantilla que hayamos asociado al servicio:


Cuerpo de una alerta: Mensaje de ejemplo
La cadena de acontecimientos que han provocado el estado del servicio es la siguiente:
_rca_


Esto nos devolverá una salida similar a la que sigue:

Cuerpo de una alerta: Mensaje de ejemplo
La cadena de acontecimientos que han provocado el estado del servicio es la siguiente:
[Aplicación Web -> HW -> Apache server 3]
[Aplicación Web -> HW -> Apache server 4]
[Aplicación Web -> HW -> Apache server 10]
[Aplicación Web -> DB Instances -> MySQL_base_1]
[Aplicación Web -> DB Instances -> MySQL_base_5]
[Aplicación Web -> Balanceadores -> 192.168.10.139]


Viendo esta salida, podemos interpretar, que:

  • Los servidores Apache 3,4 y 10 están en estado crítico
  • Las bases de datos MySQL_base 1 y 5 están caídas
  • El balanceador 192.168.10.139 no responde


Esta información añadida, nos permite depurar el porqué del estado del servicio, reduciendo las tareas de investigación de causas de una caída.


1.2.7 Agrupaciones de servicios

Los servicios son agrupaciones lógicas que conforman parte de la estructura de negocio de una organización. Por ello puede tener cierto sentido la agrupación de servicios, ya que en muchos casos puede haber dependencias entre unos y otros, conformando por ejemplo un servicio general (la compañía) varios servicios más particulares (web corporativa, comunicaciones, etc.). Para agrupar servicios es necesario que estén creados tanto el servicio general o superior, como los servicios inferiores que se agregarán a éste para crear la estructura lógica en forma de árbol.

Estas agrupaciones nos ayudarán a por ejemplo: crear mapas visuales, configurar alertas, aplicar políticas de monitorización, etc. De tal manera que podemos crear alertas que avisen cuando la compañía está en estado crítico porque los comerciales no pueden realizar su trabajo, o cuando una de las sedes no está a pleno rendimiento por problemas técnicos con su servicio de ERP.

Para entender de forma más clara lo que son las agrupaciones de servicios, a continuación se muestran dos ejemplos.

1.2.8 Ejemplos de monitorización de servicios

1.2.8.1 Servicio de Pandora FMS

A continuación vemos un caso en el que se monitoriza el estado del servicio de monitorización de Pandora FMS, compuesto por el servicio Apache, el servicio MySQL, Pandora server y Tentacle. Cada uno de estos elementos constituye a su vez un servicio con distintos componentes, formando, mediante la agrupación de servicios, una estructura en forma de árbol.


Arbol.JPG


En este caso, el servicio general de Pandora FMS alcanzará el estado crítico al llegar a peso 2, y estado warning con peso 1. Como se puede observar, los cuatro componentes tienen diferentes pesos sobre el servicio de Pandora FMS:

  • MySQL: Crítico para el servicio de Pandora FMS, peso individual de 2 si MySQL está caído. Adquirirá un peso de 1 si se encuentra en estado warning, mostrando ya un aviso en el servicio de Pandora FMS.
  • Pandora Server: Crítico para el servicio de Pandora FMS, peso individual de 2 si el Pandora Server se encuentra caído. Peso individual de 1 si se encuentra en estado warning, por ejemplo, por una excesiva carga de CPU, escalando el aviso hasta el servicio general de Pandora FMS.
  • Apache: Supone un degradado del servicio de Pandora FMS, pero no una interrupción total, por lo que adquiere un peso individual de 1 si se encuentra caído, mostrando en estado de warning el servicio de Pandora FMS.
  • Tentacle: Supone un degradado y hay componentes que pueden fallar, pero no supone la interrupción total del funcionamiento de Pandora FMS, por lo que su peso individual en caso de caída es 1, mostrando un warning en el servicio general.

En la siguiente imagen puede verse la configuración de los diferentes pesos de los elementos para el estado general del servicio de Pandora FMS:


Pesos.JPG

1.2.8.2 Servicio de almacenamiento en cluster, agrupación de servicios

Los servicios son agrupaciones lógicas que conforman parte de la estructura de negocio de una organización. Por ello, puede tener cierto sentido la agrupación de servicios ya que a veces los servicios por si solos no tienen un significado completo. Para agrupar servicios simplemente se añaden como elemento a un servicio superior, creando así una nueva agrupación lógica.

En el siguiente ejemplo tenemos un cluster de almacenamiento en HA. Para este caso se ha cogido un sistema de dos fileserver funcionando paralelamente, cada uno controlando el porcentaje y el estado de una serie de discos que dan servicio a departamentos concretos, creando así una estructura en forma de árbol de servicios agrupados.


Cluster.JPG


Según esta estructura, el umbral de criticidad del servicio de almacenamiento de la compañía se alcanzará únicamente si los dos fileserver fallan, ya que esto denegaría totalmente el servicio, mientras que la caída de uno de ellos tan sólo supondría un servicio degradado. En la siguiente imagen puede observarse la configuración de pesos otorgada a los dos elementos principales del servicio de almacenamiento:


Pesoscluster.JPG


En la siguiente imagen podemos ver el contenido y configuración de pesos del servicio agrupado FS01. Aquí los elementos tendrán un peso específico en función de su criticidad, siendo:

  • FS01 ALIVE: Crítico para el servicio de FS01, ya que se trata de la ip virtual asignada al primer cluster de discos, peso individual de 2, ya que si se encuentra caído, el resto de los elementos del servicio se encontrarán por lógica fuera de funcionamiento. En este caso no hay umbral warning, ya que se trata de un dato dependiente de estado Sí/No.
  • DHCPserver ping: Crítico para el servicio de FS01, le otorgamos peso individual de 2. En este caso tampoco hay umbral warning.
  • Discos Se les otorga un peso individual de 1 en caso de que alcancen su umbral crítico, y 0.5 para su umbral warning, por lo que ésto solo afectará de manera crítica al servicio de FS01 si existen al menos dos en estado crítico o los cuatro discos en estado warning.


Pesosfs01.JPG

1.3 Pandora Server

Es necesario que el componente PredictionServer este funcionando y que tenga instalada la versión Enterprise de Pandora Server para poder realizar la monitorización de Servicios.


Volver a Indice de Documentacion Pandora FMS