Thread Rating:
  • 0 Vote(s) - 0 Average
  • 1
  • 2
  • 3
  • 4
  • 5
No se recupera estado host alive
#11
El intervalo es de 5'.

Ha ocurrido algo nuevo, y es que el monitor se ha recuperado "sólo", sin ninguna intervención manual. Sin reiniciar nada.

Activo el verbosity a 10, aunque no se dónde mirar estos logs...

Gracias!
 Reply
#12
Esos logs se encuentran en /var/log/pandora. Son pandora_server.log y pandora_server.error.

Un saludo
 Reply
#13
Tengo más información.

Llevaba 4 días sin haber ningún fallo, me conecto a la consola, que no lo hacía desde entonces y al cabo de pocos segundos se produce el fallo, por lo que puede haber sido casualidad o una causa.

Este corte se produjo el 9 de Abril sobre las 11:11, ahora estoy revisando los logs, pero ya no ha registros de esa fecha! Sólo del día de hoy 11/04, como si el número de entradas estuviesen limitadas.
He revisado en pandora_server.log y en pandora_server.log.old

pandora_server.error, sólo tiene entradas de SNMP, que creo no tienen relación:
Use of uninitialized value in string eq at /usr/lib/perl5/PandoraFMS/SNMPServer.pm line 68.
Use of uninitialized value in string eq at /usr/lib/perl5/PandoraFMS/SNMPServer.pm line 71.
Estos 2 errores se producen de forma sistemática cada vez que se reinicia el servidor.

Gracias,
--
Jose
 Reply
#14
Hola Jose

Los erorres del log, es un bug de la versión 4.0.3 con el SNMPserver, pero no es crítico y no afecta al rendimiento del servidor.

Cuando cambia el estado del módulo de red, ¿al mismo tiempo cambia el estado del resto de modulos Host Alive que tienes configurado?

Realiza un módulo host alive, si no lo tienes, que apunte al propio servidor, ese no debería de fallar nunca y me indicas.

Un saludo

 Reply
#15
En el estado actual, con el módulo host alive de google en estado crítico, he creado el módulo que me has pedido.
Te adjunto imagen con la configuración, contra la ip: 127.0.0.1 y el estado de critical que muestra justo después de haber refrescado.

Confirmo que todos los módulos host alive están caídos, incluido éste.


Attached Files


.png   error.png (Size: 7.45 KB / Downloads: 54)
.png   config.png (Size: 28.22 KB / Downloads: 55)
 Reply
#16
Incrementa el network_timeout del archivo de configuración del servidor  a 7, reinicia el servidor y me vas comentando si vuelve a ocurrir.

Reinicia también antes del servidor de pandora, apache y mysql.

Un saludo
 Reply
#17
Ok, he modificado parámetro network_timeout de 5 a 7.
He lanzado "reboot", te cuento novedades...

Mil gracias por tu tiempo!!
 Reply
#18
Después de 20h ha vuelto a caer.

En la foto adjunta se puede ver como caen todos los host alive simultáneamente, incluido el que monitoriza el propio servidor pandora, llevan así 2h y no se recuperan.


Attached Files


.png   host_alive.png (Size: 15.13 KB / Downloads: 44)
 Reply
#19
Vaya!

¿Has comprobado si cuando se caen, Pandora lanza alguna herramienta como el backup, el pandora_db.pl....?

 Reply
#20
Modificando el tamaño del log con max_log_size, para poder tener más histórico y con verbosity 10, he capturado esto ahora mismo, que se ha vuelto a reproducir el problema:

2013-04-12 15:29:42 pandorafms [V10] Generating event 'Module Host Alive (0.00) is going to CRITICAL' for agent ID 2 module ID 21.
2013-04-12 15:29:42 pandorafms [V10] Evaluating alert 'Critical condition' for agent 'Servidores Google'.
2013-04-12 15:29:42 pandorafms [V10] Processing alert 'Critical condition' for agent 'Servidores Google': Execute the alert.
2013-04-12 15:29:42 pandorafms [V10] Executing alert 'Critical condition' for module 'Host Alive'.
2013-04-12 15:29:42 pandorafms [V10] Executing action 'eMail' for alert 'Critical condition' agent 'Servidores Google'.
2013-04-12 15:29:42 pandorafms [V10] Generating event 'Alert fired (Critical condition) assigned to (Host Alive)' for agent ID 2 module ID 21.
2013-04-12 15:29:50 pandorafms [V10] Processing module 'Host Alive' for agent ID 3.
2013-04-12 15:29:50 pandorafms [V10] Validating events for id_agentmodule #74
2013-04-12 15:29:50 pandorafms [V10] Generating event 'Module Host Alive (0.00) is going to CRITICAL' for agent ID 3 module ID 74.
2013-04-12 15:30:10 pandorafms [V10] Parent_agent_name:  parent_id: 1

Aquí se ve como 2 módulos host alive de 2 agentes diferentes, caen simultáneamente. El tercero también cae al cabo de pocos segundos.

¿Cómo puedo saber si en este momento pandora a lanzado alguna herramienta como backup o pandora_db.pl??
Puntualizar que la configuración está toda por defecto, salvo la creación de agentes y módulos + 1 alerta y los cambios que se han ido realizando para encontrar este problema.
También he instalado la última build: Pandora FMS v4.0.3 - Build PC130407
 Reply


Users browsing this thread: 1 Guest(s)


(c) 2006-2018 Artica Soluciones Tecnológicas. Contents of this wiki are under Create Common Attribution v3 licence. | pandorafms.com | pandorafms.org

Theme © MyBB Themes