Welcome to Pandora FMS Community › Forums › Soporte de la comunidad › No se recupera estado host alive
-
No se recupera estado host alive
Posted by jmlara on April 4, 2013 at 12:26He montado un agente básico que monitoriza acceso a “internet”: http://www.google.es
Este tiene 2 monitores del tipo: Host Alive y Host LatencyDurante un tiempo funcionan correctamente, pero finalmente acaban cayendo en estado crítico (pierde ping en el caso del host alive) y ya no se vuelve a recuperar.
Si entro en la consola de comandos del servidor pandora, hago ping a http://www.google.es sin problemas.La única forma que he encontrado de recuperar el estado es reiniciar pandora, y automáticamente todo ok.
Pandora FMS v4.0.3 – Build PC130331
Mario replied 11 years, 10 months ago 2 Members · 20 Replies -
20 Replies
-
::
Buenas
Comprueba la carga y el retraso que tiene el servidor de Red en la vista de servidores. Si es elevado sube el numero de hilos del servidor.
Si el retraso del mismo no es tan elevado o nulo, modifica en el archivo de configuración del servidor los chequeos icmp que estaran a uno y ponlo a 2.
(icmp_checks 2).Nos informas si tras estos cambios obtienes alguna mejora.
Un saludo
-
::
No se si se analizar el tema de la carga, aunque debería ser nimio, a ver si el pantallazo que adjunto aclara algo.
Sobre el parámetro icmp_checks, lo he puesto a 4, para que vaya holgado, y de nuevo se he reproducido el problema.
Reinicio servidor y todo ok, en esta ocasión al cabo de pocos minutos ya no se recupera.
Verifico nuevamente ping des de la línea de comandos, todo ok.Puntualizo también, que el monitor “Host Latency” no devuelve ningún valor, es decir, fallan ambos monitores la mismo tiempo.
Me he dado cuenta que el fallo es general del Pandora Network Server, ya que todos los Host Alive que tengo, están caídos, y no se recuperan.
Gracias por tan rápida respuesta!
—
Jose -
::
Hola Jose
Los icmp_check mas altos lo que te provoca es más carga en el servidor por lo que no te ayuda, más de 2 no es necesario, además por la carga que tiene el servidor de red no considero que sea un problema de carga.
¿Cuales son las prestaciones del equipo? Estoy observando también que tiene mucho retardo en el servidor de datos para los módulos que tiene, en el servidor de datos si le haría falta subir el número de hilos a 2.
¿Has comprobado si el dato te devuelve 1 o 0? Es decir si el modulo devuelve 1 y luego te aparece en estado critical o por el contrario esta reportando un 0 tal y como muestra el estado.
¿Has instalado la 4.0.3 desde el principio o es una actualización de versiones anteriores?Un saludo
-
::
Ok, he puesto icmp_check en 2, tal y como me recomiendas.
El equipo es una máquina virtual en ESXi con 1GB de RAM, que monta la Virtual Appliance 4.0.3 (descargada hace 1 semana aprox.), posteriormente se han hecho 2 updates directamente desde la consola gráfica.¿Cómo se sube el número de hilos?
Acabo de ver que el tema de la latencia ahora es muy diferente, ver adjunto.
Adjunto otro pantallazo con la gráfica del monitor en un rango de 12h, llevaba varios días en critical y aquí se pueden ver claramente los 3 reinicios.
-
-
::
Ok.
Para cambiar los hilos de los servidores de Pandora, los puedes cambiar en el archivo de configuración del servidor, es el parámetro dataserver_threads.
Actualmente tengo instalada una Appliance sobre Vbox que esta funcionando correctamente con estos tipos de módulos, pero aún asi te voy a indicar unos pasos a seguir, para descartar problemas con el servidor pandora en el Appliance
1.- Descarga el paquete rpm del servidor pandora (http://sourceforge.net/projects/pandora/files/Pandora%20FMS%204.0.3/SUSE%20%28RPM%29/pandorafms_server-4.0.3-130118.noarch.rpm/download)
2.- Para el servidor ( /etc/init.d/pandora_server stop) y realiza una actualización del servidor forzándolo ( rpm -U –force ) .
3.- Reinicia todos los servicios con los que trabaja Pandora. ( apache, mysql, tentacle, pandora_server )
/etc/init.d/apache2 restart
/etc/init.d/mysql restart
/etc/init.d/tentacle_serverd restart
/etc/init.d/pandora_server restartUna vez esto comprueba el funcionamiento de los módulos. Comprueba también los logs para ver si nos devuelven alguna información al respecto.
Un saludo
-
::
Mario,
He hecho todos los pasos que me has indicado a pies juntillas.
De momento todo va bien, esperaré 3-4 días, ya que ese es el tiempo máximo que me aguantó el monitor desde que lo pusimos en marcha.En cualquier caso el tema de la actualización forzada, que sugiere? Que la compilación appliance viene con algún problema? Para montarla en el ESXi tuve que usar el converter…
Gracias!
-
-
::
Vaya!
En el archivo de configuración de Pandora existe un parámetro llamado verbosity y viene configurado por defecto a 1. Configúralo a 10 y reinicia el servidor de Pandora. Con esta configuración los logs nos van a devolver más información al respecto.
¿De cuanto tiempo es el intervalo de ejecución de estos módulos? Si es menor a 5 minutos, configúralo a 5 para ver si de este modo reportan correctamente.Un saludo
-
-
-
::
Tengo más información.
Llevaba 4 días sin haber ningún fallo, me conecto a la consola, que no lo hacía desde entonces y al cabo de pocos segundos se produce el fallo, por lo que puede haber sido casualidad o una causa.
Este corte se produjo el 9 de Abril sobre las 11:11, ahora estoy revisando los logs, pero ya no ha registros de esa fecha! Sólo del día de hoy 11/04, como si el número de entradas estuviesen limitadas.
He revisado en pandora_server.log y en pandora_server.log.oldpandora_server.error, sólo tiene entradas de SNMP, que creo no tienen relación:
Use of uninitialized value in string eq at /usr/lib/perl5/PandoraFMS/SNMPServer.pm line 68.
Use of uninitialized value in string eq at /usr/lib/perl5/PandoraFMS/SNMPServer.pm line 71.
Estos 2 errores se producen de forma sistemática cada vez que se reinicia el servidor.Gracias,
—
Jose -
::
Hola Jose
Los erorres del log, es un bug de la versión 4.0.3 con el SNMPserver, pero no es crítico y no afecta al rendimiento del servidor.
Cuando cambia el estado del módulo de red, ¿al mismo tiempo cambia el estado del resto de modulos Host Alive que tienes configurado?
Realiza un módulo host alive, si no lo tienes, que apunte al propio servidor, ese no debería de fallar nunca y me indicas.
Un saludo
-
::
En el estado actual, con el módulo host alive de google en estado crítico, he creado el módulo que me has pedido.
Te adjunto imagen con la configuración, contra la ip: 127.0.0.1 y el estado de critical que muestra justo después de haber refrescado.Confirmo que todos los módulos host alive están caídos, incluido éste.
-
-
-
-
-
::
Modificando el tamaño del log con max_log_size, para poder tener más histórico y con verbosity 10, he capturado esto ahora mismo, que se ha vuelto a reproducir el problema:
2013-04-12 15:29:42 pandorafms [V10] Generating event ‘Module Host Alive (0.00) is going to CRITICAL’ for agent ID 2 module ID 21.
2013-04-12 15:29:42 pandorafms [V10] Evaluating alert ‘Critical condition’ for agent ‘Servidores Google’.
2013-04-12 15:29:42 pandorafms [V10] Processing alert ‘Critical condition’ for agent ‘Servidores Google’: Execute the alert.
2013-04-12 15:29:42 pandorafms [V10] Executing alert ‘Critical condition’ for module ‘Host Alive’.
2013-04-12 15:29:42 pandorafms [V10] Executing action ‘eMail’ for alert ‘Critical condition’ agent ‘Servidores Google’.
2013-04-12 15:29:42 pandorafms [V10] Generating event ‘Alert fired (Critical condition) assigned to (Host Alive)’ for agent ID 2 module ID 21.
2013-04-12 15:29:50 pandorafms [V10] Processing module ‘Host Alive’ for agent ID 3.
2013-04-12 15:29:50 pandorafms [V10] Validating events for id_agentmodule #74
2013-04-12 15:29:50 pandorafms [V10] Generating event ‘Module Host Alive (0.00) is going to CRITICAL’ for agent ID 3 module ID 74.
2013-04-12 15:30:10 pandorafms [V10] Parent_agent_name: parent_id: 1Aquí se ve como 2 módulos host alive de 2 agentes diferentes, caen simultáneamente. El tercero también cae al cabo de pocos segundos.
¿Cómo puedo saber si en este momento pandora a lanzado alguna herramienta como backup o pandora_db.pl??
Puntualizar que la configuración está toda por defecto, salvo la creación de agentes y módulos + 1 alerta y los cambios que se han ido realizando para encontrar este problema.
También he instalado la última build: Pandora FMS v4.0.3 – Build PC130407 -
::
Buenas.
Todo esta apuntando a un problema de rendimiento. ¿El servidor de datos sigue teniendo retraso?
En /etc/cron.daily probablemente tengas el fichero pandora_db. Si quieres para probar que ese no es el motivo de este error, elimínalo de ahí, o cópialo en otra carpeta. De esta forma nos aseguramos de que no se ejecuta de forma automática.
Cuando estén funcionando correctamente los módulos ejecútala de forma manual ” /usr/share/pandora_server/util/pandora_db.pl /etc/pandora/pandora_server.conf “.De esta forma puedes comprobar si estos módulos empiezan a reportar de forma errónea o no.
Un saludo