No se recupera estado host alive

Soporte de la comunidad

No se recupera estado host alive

Posted by jmlara on April 4, 2013 at 12:26

He montado un agente básico que monitoriza acceso a “internet”: http://www.google.es
Este tiene 2 monitores del tipo: Host Alive y Host Latency

Durante un tiempo funcionan correctamente, pero finalmente acaban cayendo en estado crítico (pierde ping en el caso del host alive) y ya no se vuelve a recuperar.
Si entro en la consola de comandos del servidor pandora, hago ping a http://www.google.es sin problemas.

La única forma que he encontrado de recuperar el estado es reiniciar pandora, y automáticamente todo ok.

Pandora FMS v4.0.3 – Build PC130331

Mario replied 11 years, 10 months ago 2 Members · 20 Replies
20 Replies

Mario

Administrator
April 4, 2013 at 13:51

1150 Karma points

Community rank: Tentacle Master

Like it
Up
0
Down
Drop it
::
Buenas

Comprueba la carga y el retraso que tiene el servidor de Red en la vista de servidores. Si es elevado sube el numero de hilos del servidor.
Si el retraso del mismo no es tan elevado o nulo, modifica en el archivo de configuración del servidor los chequeos icmp que estaran a uno y ponlo a 2.
(icmp_checks 2).

Nos informas si tras estos cambios obtienes alguna mejora.

Un saludo
jmlara

Member
April 4, 2013 at 14:22

0 Karma points

Community rank: Tentacle noob

Like it
Up
0
Down
Drop it
::
No se si se analizar el tema de la carga, aunque debería ser nimio, a ver si el pantallazo que adjunto aclara algo.

Sobre el parámetro icmp_checks, lo he puesto a 4, para que vaya holgado, y de nuevo se he reproducido el problema.
Reinicio servidor y todo ok, en esta ocasión al cabo de pocos minutos ya no se recupera.
Verifico nuevamente ping des de la línea de comandos, todo ok.

Puntualizo también, que el monitor “Host Latency” no devuelve ningún valor, es decir, fallan ambos monitores la mismo tiempo.

Me he dado cuenta que el fallo es general del Pandora Network Server, ya que todos los Host Alive que tengo, están caídos, y no se recuperan.

Gracias por tan rápida respuesta!
—
Jose
Mario

Administrator
April 4, 2013 at 14:40

1150 Karma points

Community rank: Tentacle Master

Like it
Up
0
Down
Drop it
::
Hola Jose

Los icmp_check mas altos lo que te provoca es más carga en el servidor por lo que no te ayuda, más de 2 no es necesario, además por la carga que tiene el servidor de red no considero que sea un problema de carga.
¿Cuales son las prestaciones del equipo? Estoy observando también que tiene mucho retardo en el servidor de datos para los módulos que tiene, en el servidor de datos si le haría falta subir el número de hilos a 2.
¿Has comprobado si el dato te devuelve 1 o 0? Es decir si el modulo devuelve 1 y luego te aparece en estado critical o por el contrario esta reportando un 0 tal y como muestra el estado.
¿Has instalado la 4.0.3 desde el principio o es una actualización de versiones anteriores?

Un saludo
jmlara

Member
April 4, 2013 at 16:07

0 Karma points

Community rank: Tentacle noob

Like it
Up
0
Down
Drop it
::
Ok, he puesto icmp_check en 2, tal y como me recomiendas.
El equipo es una máquina virtual en ESXi con 1GB de RAM, que monta la Virtual Appliance 4.0.3 (descargada hace 1 semana aprox.), posteriormente se han hecho 2 updates directamente desde la consola gráfica.

¿Cómo se sube el número de hilos?

Acabo de ver que el tema de la latencia ahora es muy diferente, ver adjunto.

Adjunto otro pantallazo con la gráfica del monitor en un rango de 12h, llevaba varios días en critical y aquí se pueden ver claramente los 3 reinicios.
jmlara

Member
April 4, 2013 at 16:16

0 Karma points

Community rank: Tentacle noob

Like it
Up
0
Down
Drop it
::
El adjunto que no ha subido…
Mario

Administrator
April 4, 2013 at 16:58

1150 Karma points

Community rank: Tentacle Master

Like it
Up
0
Down
Drop it
::
Ok.

Para cambiar los hilos de los servidores de Pandora, los puedes cambiar en el archivo de configuración del servidor, es el parámetro dataserver_threads.

Actualmente tengo instalada una Appliance sobre Vbox que esta funcionando correctamente con estos tipos de módulos, pero aún asi te voy a indicar unos pasos a seguir, para descartar problemas con el servidor pandora en el Appliance

1.- Descarga el paquete rpm del servidor pandora (http://sourceforge.net/projects/pandora/files/Pandora%20FMS%204.0.3/SUSE%20%28RPM%29/pandorafms_server-4.0.3-130118.noarch.rpm/download)

2.- Para el servidor ( /etc/init.d/pandora_server stop) y realiza una actualización del servidor forzándolo ( rpm -U –force ) .

3.- Reinicia todos los servicios con los que trabaja Pandora. ( apache, mysql, tentacle, pandora_server )
/etc/init.d/apache2 restart
/etc/init.d/mysql restart
/etc/init.d/tentacle_serverd restart
/etc/init.d/pandora_server restart

Una vez esto comprueba el funcionamiento de los módulos. Comprueba también los logs para ver si nos devuelven alguna información al respecto.

Un saludo
jmlara

Member
April 4, 2013 at 21:15

0 Karma points

Community rank: Tentacle noob

Like it
Up
0
Down
Drop it
::
Mario,
He hecho todos los pasos que me has indicado a pies juntillas.
De momento todo va bien, esperaré 3-4 días, ya que ese es el tiempo máximo que me aguantó el monitor desde que lo pusimos en marcha.

En cualquier caso el tema de la actualización forzada, que sugiere? Que la compilación appliance viene con algún problema? Para montarla en el ESXi tuve que usar el converter…

Gracias!
jmlara

Member
April 5, 2013 at 12:59

0 Karma points

Community rank: Tentacle noob

Like it
Up
0
Down
Drop it
::
No ha habido suerte. Todo sigue igual.
Ahora mismo todos los monitores de red inoperativos desde las 23:20 de ayer…

¿Qué mas podemos revisar?

Gracias!
Mario

Administrator
April 5, 2013 at 13:23

1150 Karma points

Community rank: Tentacle Master

Like it
Up
0
Down
Drop it
::
Vaya!

En el archivo de configuración de Pandora existe un parámetro llamado verbosity y viene configurado por defecto a 1. Configúralo a 10 y reinicia el servidor de Pandora. Con esta configuración los logs nos van a devolver más información al respecto.
¿De cuanto tiempo es el intervalo de ejecución de estos módulos? Si es menor a 5 minutos, configúralo a 5 para ver si de este modo reportan correctamente.

Un saludo
jmlara

Member
April 5, 2013 at 13:30

0 Karma points

Community rank: Tentacle noob

Like it
Up
0
Down
Drop it
::
El intervalo es de 5′.

Ha ocurrido algo nuevo, y es que el monitor se ha recuperado “sólo”, sin ninguna intervención manual. Sin reiniciar nada.

Activo el verbosity a 10, aunque no se dónde mirar estos logs…

Gracias!
Mario

Administrator
April 5, 2013 at 13:59

1150 Karma points

Community rank: Tentacle Master

Like it
Up
0
Down
Drop it
::
Esos logs se encuentran en /var/log/pandora. Son pandora_server.log y pandora_server.error.

Un saludo
jmlara

Member
April 11, 2013 at 14:11

0 Karma points

Community rank: Tentacle noob

Like it
Up
0
Down
Drop it
::
Tengo más información.

Llevaba 4 días sin haber ningún fallo, me conecto a la consola, que no lo hacía desde entonces y al cabo de pocos segundos se produce el fallo, por lo que puede haber sido casualidad o una causa.

Este corte se produjo el 9 de Abril sobre las 11:11, ahora estoy revisando los logs, pero ya no ha registros de esa fecha! Sólo del día de hoy 11/04, como si el número de entradas estuviesen limitadas.
He revisado en pandora_server.log y en pandora_server.log.old

pandora_server.error, sólo tiene entradas de SNMP, que creo no tienen relación:
Use of uninitialized value in string eq at /usr/lib/perl5/PandoraFMS/SNMPServer.pm line 68.
Use of uninitialized value in string eq at /usr/lib/perl5/PandoraFMS/SNMPServer.pm line 71.
Estos 2 errores se producen de forma sistemática cada vez que se reinicia el servidor.

Gracias,
—
Jose
Mario

Administrator
April 11, 2013 at 14:31

1150 Karma points

Community rank: Tentacle Master

Like it
Up
0
Down
Drop it
::
Hola Jose

Los erorres del log, es un bug de la versión 4.0.3 con el SNMPserver, pero no es crítico y no afecta al rendimiento del servidor.

Cuando cambia el estado del módulo de red, ¿al mismo tiempo cambia el estado del resto de modulos Host Alive que tienes configurado?

Realiza un módulo host alive, si no lo tienes, que apunte al propio servidor, ese no debería de fallar nunca y me indicas.

Un saludo
jmlara

Member
April 11, 2013 at 14:54

0 Karma points

Community rank: Tentacle noob

Like it
Up
0
Down
Drop it
::
En el estado actual, con el módulo host alive de google en estado crítico, he creado el módulo que me has pedido.
Te adjunto imagen con la configuración, contra la ip: 127.0.0.1 y el estado de critical que muestra justo después de haber refrescado.

Confirmo que todos los módulos host alive están caídos, incluido éste.
Mario

Administrator
April 11, 2013 at 15:42

1150 Karma points

Community rank: Tentacle Master

Like it
Up
0
Down
Drop it
::
Incrementa el network_timeout del archivo de configuración del servidor a 7, reinicia el servidor y me vas comentando si vuelve a ocurrir.

Reinicia también antes del servidor de pandora, apache y mysql.

Un saludo
jmlara

Member
April 11, 2013 at 15:48

0 Karma points

Community rank: Tentacle noob

Like it
Up
0
Down
Drop it
::
Ok, he modificado parámetro network_timeout de 5 a 7.
He lanzado “reboot”, te cuento novedades…

Mil gracias por tu tiempo!!
jmlara

Member
April 12, 2013 at 13:51

0 Karma points

Community rank: Tentacle noob

Like it
Up
0
Down
Drop it
::
Después de 20h ha vuelto a caer.

En la foto adjunta se puede ver como caen todos los host alive simultáneamente, incluido el que monitoriza el propio servidor pandora, llevan así 2h y no se recuperan.
Mario

Administrator
April 12, 2013 at 14:05

1150 Karma points

Community rank: Tentacle Master

Like it
Up
0
Down
Drop it
::
Vaya!

¿Has comprobado si cuando se caen, Pandora lanza alguna herramienta como el backup, el pandora_db.pl….?
jmlara

Member
April 12, 2013 at 17:43

0 Karma points

Community rank: Tentacle noob

Like it
Up
0
Down
Drop it
::
Modificando el tamaño del log con max_log_size, para poder tener más histórico y con verbosity 10, he capturado esto ahora mismo, que se ha vuelto a reproducir el problema:

2013-04-12 15:29:42 pandorafms [V10] Generating event ‘Module Host Alive (0.00) is going to CRITICAL’ for agent ID 2 module ID 21.
2013-04-12 15:29:42 pandorafms [V10] Evaluating alert ‘Critical condition’ for agent ‘Servidores Google’.
2013-04-12 15:29:42 pandorafms [V10] Processing alert ‘Critical condition’ for agent ‘Servidores Google’: Execute the alert.
2013-04-12 15:29:42 pandorafms [V10] Executing alert ‘Critical condition’ for module ‘Host Alive’.
2013-04-12 15:29:42 pandorafms [V10] Executing action ‘eMail’ for alert ‘Critical condition’ agent ‘Servidores Google’.
2013-04-12 15:29:42 pandorafms [V10] Generating event ‘Alert fired (Critical condition) assigned to (Host Alive)’ for agent ID 2 module ID 21.
2013-04-12 15:29:50 pandorafms [V10] Processing module ‘Host Alive’ for agent ID 3.
2013-04-12 15:29:50 pandorafms [V10] Validating events for id_agentmodule #74
2013-04-12 15:29:50 pandorafms [V10] Generating event ‘Module Host Alive (0.00) is going to CRITICAL’ for agent ID 3 module ID 74.
2013-04-12 15:30:10 pandorafms [V10] Parent_agent_name: parent_id: 1

Aquí se ve como 2 módulos host alive de 2 agentes diferentes, caen simultáneamente. El tercero también cae al cabo de pocos segundos.

¿Cómo puedo saber si en este momento pandora a lanzado alguna herramienta como backup o pandora_db.pl??
Puntualizar que la configuración está toda por defecto, salvo la creación de agentes y módulos + 1 alerta y los cambios que se han ido realizando para encontrar este problema.
También he instalado la última build: Pandora FMS v4.0.3 – Build PC130407
Mario

Administrator
April 15, 2013 at 15:46

1150 Karma points

Community rank: Tentacle Master

Like it
Up
0
Down
Drop it
::
Buenas.

Todo esta apuntando a un problema de rendimiento. ¿El servidor de datos sigue teniendo retraso?

En /etc/cron.daily probablemente tengas el fichero pandora_db. Si quieres para probar que ese no es el motivo de este error, elimínalo de ahí, o cópialo en otra carpeta. De esta forma nos aseguramos de que no se ejecuta de forma automática.
Cuando estén funcionando correctamente los módulos ejecútala de forma manual ” /usr/share/pandora_server/util/pandora_db.pl /etc/pandora/pandora_server.conf “.

De esta forma puedes comprobar si estos módulos empiezan a reportar de forma errónea o no.

Un saludo

Welcome to Pandora FMS Community!