Bienvenido a la comunidad de Pandora FMS › Forums › Soporte de la comunidad › Caídas masivas de Pandora FMS
-
Caídas masivas de Pandora FMS
Posted by iCroxx on mayo 24, 2019 at 14:13Buenos días!
Estoy teniendo problemas de caídas de los agentes, en el momento es que hay demasiadas caídas reales, parece que Pandora no es capaz de aguantar o procesar tanta información y caen todos los demás agentes, quedan todos en estado “Desconocido”.
He reiniciado varias veces el servicio y comprobado todos los logs, en ninguno de ellos indica errores, he comprado httpd, pandora, mariadb y los mensajes del sistema. Al reiniciar la máquina se levantan la gran mayoría de los agentes, pero al poco vuelven a caer todos de nuevo.
Estoy usando la version de Pandora 7.0.32 MR 27
Un saludo!
iCroxx replied 5 years, 8 months ago 3 Members · 9 Replies -
9 Replies
-
::
Buenos días!
Estoy teniendo problemas de caídas de los agentes, en el momento es que hay demasiadas caídas reales, parece que Pandora no es capaz de aguantar o procesar tanta información y caen todos los demás agentes, quedan todos en estado “Desconocido”.
He reiniciado varias veces el servicio y comprobado todos los logs, en ninguno de ellos indica errores, he comprado httpd, pandora, mariadb y los mensajes del sistema. Al reiniciar la máquina se levantan la gran mayoría de los agentes, pero al poco vuelven a caer todos de nuevo.
Estoy usando la version de Pandora 7.0.32 MR 27
Un saludo!
Buenos días, iCroxx
Por lo que nos cuentas parece que lo que te sucede es que el dispositivo que se cae es un dispositivo padre por lo que Pandora FMS utiliza el modo cascada y muestra los dispositivos hijos como estado desconocido.
Por ejemplo si tenemos un router que va a dos switches y a su vez estos a varios PCs, cuando se cae un switch muestra todos los PCs que están por debajo en estado desconocido porque realmente no es que no tengan conexión si no que Pandora FMS “desconoce” su estado porque el switch por el que tiene que pasar esta caído.
Igualmente te recomendamos que actualices a nuestra última versión, la 734 con MR 27.
Un cordial saludo,
Eduardo.
-
::
Buenos días!
Estoy teniendo problemas de caídas de los agentes, en el momento es que hay demasiadas caídas reales, parece que Pandora no es capaz de aguantar o procesar tanta información y caen todos los demás agentes, quedan todos en estado “Desconocido”.
He reiniciado varias veces el servicio y comprobado todos los logs, en ninguno de ellos indica errores, he comprado httpd, pandora, mariadb y los mensajes del sistema. Al reiniciar la máquina se levantan la gran mayoría de los agentes, pero al poco vuelven a caer todos de nuevo.
Estoy usando la version de Pandora 7.0.32 MR 27
Un saludo!
Buenos días, iCroxx
Por lo que nos cuentas parece que lo que te sucede es que el dispositivo que se cae es un dispositivo padre por lo que Pandora FMS utiliza el modo cascada y muestra los dispositivos hijos como estado desconocido.
Por ejemplo si tenemos un router que va a dos switches y a su vez estos a varios PCs, cuando se cae un switch muestra todos los PCs que están por debajo en estado desconocido porque realmente no es que no tengan conexión si no que Pandora FMS “desconoce” su estado porque el switch por el que tiene que pasar esta caído.
Igualmente te recomendamos que actualices a nuestra última versión, la 734 con MR 27.
Un cordial saludo,
Eduardo.
Buenos días Eduardo,
¿Hay alguna manera de desactivar el modo cascada?
Un saludo.
-
::
Buenos días,
Como veo que no obtengo respuesta, retome el post a ver si alguien puede contestarme, el caso es que, creo que no me he explicado bien o no nos hemos entendido, las caídas no vienen junto a la caída de un agente superior, viene que al caerse un grupo de agente, caen todos los demás, sin tener estos ninguna relación con el agente superior. Es decir, que no influye el tema de cascada, simplemente se quedan todos en desconocidos y ya, hacen el intento de recuperarse sin exito.
Un saludo.
-
::
Buenos días,
Como veo que no obtengo respuesta, retome el post a ver si alguien puede contestarme, el caso es que, creo que no me he explicado bien o no nos hemos entendido, las caídas no vienen junto a la caída de un agente superior, viene que al caerse un grupo de agente, caen todos los demás, sin tener estos ninguna relación con el agente superior. Es decir, que no influye el tema de cascada, simplemente se quedan todos en desconocidos y ya, hacen el intento de recuperarse sin exito.
Un saludo.
Buenos días iCroxx
¿Podrías indicarnos qué tipo de módulos son los que entran en estado desconocido? De igual manera, nos sería de gran utilidad conocer la estructura de los agentes para saber por qué podrían propagarse las caídas que nos comentas.
¿Sería posible que comprobases también cuántos archivos tienes en el directorio /data_in/ cuando los agentes empiezan a pasar a estado desconocido?
Es muy recomendable también mantener Pandora FMS actualizado para evitar posibles problemas derivados de una instalación desactualizada. Recuerda que actualmente estamos corriendo bajo la versión 735 MR 28.
Un cordial saludo,
Eduardo.
-
::
Buenos días,
Como veo que no obtengo respuesta, retome el post a ver si alguien puede contestarme, el caso es que, creo que no me he explicado bien o no nos hemos entendido, las caídas no vienen junto a la caída de un agente superior, viene que al caerse un grupo de agente, caen todos los demás, sin tener estos ninguna relación con el agente superior. Es decir, que no influye el tema de cascada, simplemente se quedan todos en desconocidos y ya, hacen el intento de recuperarse sin exito.
Un saludo.
Buenos días iCroxx
¿Podrías indicarnos qué tipo de módulos son los que entran en estado desconocido? De igual manera, nos sería de gran utilidad conocer la estructura de los agentes para saber por qué podrían propagarse las caídas que nos comentas.
¿Sería posible que comprobases también cuántos archivos tienes en el directorio /data_in/ cuando los agentes empiezan a pasar a estado desconocido?
Es muy recomendable también mantener Pandora FMS actualizado para evitar posibles problemas derivados de una instalación desactualizada. Recuerda que actualmente estamos corriendo bajo la versión 735 MR 28.
Un cordial saludo,
Eduardo.
Buenas tardes,
No se exactamente a lo que te refieres con tipo de módulos, pero hay de todo, equipos, routers, switch, antenas, coaxs… etc.
¿Cual seria la ruta del directorio /data_in/? Estoy buscándolo pero no lo encuentro.
Y si lo he ido actualizando a través del Update Manager.
Un saludo!
-
::
Buenos días,
Como veo que no obtengo respuesta, retome el post a ver si alguien puede contestarme, el caso es que, creo que no me he explicado bien o no nos hemos entendido, las caídas no vienen junto a la caída de un agente superior, viene que al caerse un grupo de agente, caen todos los demás, sin tener estos ninguna relación con el agente superior. Es decir, que no influye el tema de cascada, simplemente se quedan todos en desconocidos y ya, hacen el intento de recuperarse sin exito.
Un saludo.
Buenos días iCroxx
¿Podrías indicarnos qué tipo de módulos son los que entran en estado desconocido? De igual manera, nos sería de gran utilidad conocer la estructura de los agentes para saber por qué podrían propagarse las caídas que nos comentas.
¿Sería posible que comprobases también cuántos archivos tienes en el directorio /data_in/ cuando los agentes empiezan a pasar a estado desconocido?
Es muy recomendable también mantener Pandora FMS actualizado para evitar posibles problemas derivados de una instalación desactualizada. Recuerda que actualmente estamos corriendo bajo la versión 735 MR 28.
Un cordial saludo,
Eduardo.
Buenas tardes,
No se exactamente a lo que te refieres con tipo de módulos, pero hay de todo, equipos, routers, switch, antenas, coaxs… etc.
¿Cual seria la ruta del directorio /data_in/? Estoy buscándolo pero no lo encuentro.
Y si lo he ido actualizando a través del Update Manager.
Un saludo!
Buenas iCroxx,
La ruta del data_in es la siguiente:
/var/spool/pandora/data_in
Puedes contar los ficheros que contiene el directorio con este comando:
ls /var/spool/pandora/data_in | wc -l
Si hay ficheros encolados son xml que el servidor no puede procesar, y si los agentes no reciben esos ficheros en el doble de su intervalo de tiempo pasan a desconocido.
Un saludo
-
::
Buenos días,
Como veo que no obtengo respuesta, retome el post a ver si alguien puede contestarme, el caso es que, creo que no me he explicado bien o no nos hemos entendido, las caídas no vienen junto a la caída de un agente superior, viene que al caerse un grupo de agente, caen todos los demás, sin tener estos ninguna relación con el agente superior. Es decir, que no influye el tema de cascada, simplemente se quedan todos en desconocidos y ya, hacen el intento de recuperarse sin exito.
Un saludo.
Buenos días iCroxx
¿Podrías indicarnos qué tipo de módulos son los que entran en estado desconocido? De igual manera, nos sería de gran utilidad conocer la estructura de los agentes para saber por qué podrían propagarse las caídas que nos comentas.
¿Sería posible que comprobases también cuántos archivos tienes en el directorio /data_in/ cuando los agentes empiezan a pasar a estado desconocido?
Es muy recomendable también mantener Pandora FMS actualizado para evitar posibles problemas derivados de una instalación desactualizada. Recuerda que actualmente estamos corriendo bajo la versión 735 MR 28.
Un cordial saludo,
Eduardo.
Buenas tardes,
No se exactamente a lo que te refieres con tipo de módulos, pero hay de todo, equipos, routers, switch, antenas, coaxs… etc.
¿Cual seria la ruta del directorio /data_in/? Estoy buscándolo pero no lo encuentro.
Y si lo he ido actualizando a través del Update Manager.
Un saludo!
Buenas iCroxx,
La ruta del data_in es la siguiente:
/var/spool/pandora/data_in
Puedes contar los ficheros que contiene el directorio con este comando:
ls /var/spool/pandora/data_in | wc -l
Si hay ficheros encolados son xml que el servidor no puede procesar, y si los agentes no reciben esos ficheros en el doble de su intervalo de tiempo pasan a desconocido.
Un saludo
Buenas!
Me devuelve que hay 4 ficheros dentro, son “collections”, “conf”, “md5” y “netflow”.
Un saludo!
-
::
Buenos días,
Como veo que no obtengo respuesta, retome el post a ver si alguien puede contestarme, el caso es que, creo que no me he explicado bien o no nos hemos entendido, las caídas no vienen junto a la caída de un agente superior, viene que al caerse un grupo de agente, caen todos los demás, sin tener estos ninguna relación con el agente superior. Es decir, que no influye el tema de cascada, simplemente se quedan todos en desconocidos y ya, hacen el intento de recuperarse sin exito.
Un saludo.
Buenos días iCroxx
¿Podrías indicarnos qué tipo de módulos son los que entran en estado desconocido? De igual manera, nos sería de gran utilidad conocer la estructura de los agentes para saber por qué podrían propagarse las caídas que nos comentas.
¿Sería posible que comprobases también cuántos archivos tienes en el directorio /data_in/ cuando los agentes empiezan a pasar a estado desconocido?
Es muy recomendable también mantener Pandora FMS actualizado para evitar posibles problemas derivados de una instalación desactualizada. Recuerda que actualmente estamos corriendo bajo la versión 735 MR 28.
Un cordial saludo,
Eduardo.
Buenas tardes,
No se exactamente a lo que te refieres con tipo de módulos, pero hay de todo, equipos, routers, switch, antenas, coaxs… etc.
¿Cual seria la ruta del directorio /data_in/? Estoy buscándolo pero no lo encuentro.
Y si lo he ido actualizando a través del Update Manager.
Un saludo!
Buenas iCroxx,
La ruta del data_in es la siguiente:
/var/spool/pandora/data_in
Puedes contar los ficheros que contiene el directorio con este comando:
ls /var/spool/pandora/data_in | wc -l
Si hay ficheros encolados son xml que el servidor no puede procesar, y si los agentes no reciben esos ficheros en el doble de su intervalo de tiempo pasan a desconocido.
Un saludo
Buenas!
Me devuelve que hay 4 ficheros dentro, son “collections”, “conf”, “md5” y “netflow”.
Un saludo!
Buenas tardes iCroxx,
Esos ficheros están siempre, si no hay ninguno más es porque no se están encolando los XML de los agentes.
Habría que probar el comando cuando detectes que se están pasando los módulos a estado desconocido, porque ahora funciona bien, ¿no? La causa por la que pasen a desconocido puede ser porque haya muchos más ficheros que los 4 actuales en el data_in, entonces habría que revisar si los recursos de la máquina del servidor o los hilos del dataserver son suficientes para procesar el envío de los XML.
Si no hay ficheros encolados cuando los módulos estén pasando a desconocido, habría que revisar otras posibles causas.
Un saludo
-
::
Buenos días iCroxx
¿Podrías indicarnos qué tipo de módulos son los que entran en estado desconocido? De igual manera, nos sería de gran utilidad conocer la estructura de los agentes para saber por qué podrían propagarse las caídas que nos comentas.
¿Sería posible que comprobases también cuántos archivos tienes en el directorio /data_in/ cuando los agentes empiezan a pasar a estado desconocido?
Es muy recomendable también mantener Pandora FMS actualizado para evitar posibles problemas derivados de una instalación desactualizada. Recuerda que actualmente estamos corriendo bajo la versión 735 MR 28.
Un cordial saludo,
Eduardo.
Buenas tardes,
No se exactamente a lo que te refieres con tipo de módulos, pero hay de todo, equipos, routers, switch, antenas, coaxs… etc.
¿Cual seria la ruta del directorio /data_in/? Estoy buscándolo pero no lo encuentro.
Y si lo he ido actualizando a través del Update Manager.
Un saludo!
Buenas iCroxx,
La ruta del data_in es la siguiente:
/var/spool/pandora/data_in
Puedes contar los ficheros que contiene el directorio con este comando:
ls /var/spool/pandora/data_in | wc -l
Si hay ficheros encolados son xml que el servidor no puede procesar, y si los agentes no reciben esos ficheros en el doble de su intervalo de tiempo pasan a desconocido.
Un saludo
Buenas!
Me devuelve que hay 4 ficheros dentro, son “collections”, “conf”, “md5” y “netflow”.
Un saludo!
Buenas tardes iCroxx,
Esos ficheros están siempre, si no hay ninguno más es porque no se están encolando los XML de los agentes.
Habría que probar el comando cuando detectes que se están pasando los módulos a estado desconocido, porque ahora funciona bien, ¿no? La causa por la que pasen a desconocido puede ser porque haya muchos más ficheros que los 4 actuales en el data_in, entonces habría que revisar si los recursos de la máquina del servidor o los hilos del dataserver son suficientes para procesar el envío de los XML.
Si no hay ficheros encolados cuando los módulos estén pasando a desconocido, habría que revisar otras posibles causas.
Un saludo
Buenos días,
Si actualmente esta funcionando perfectamente, en caso de que vuelva a ocurrir las caídas probare a lanzar el comando de nuevo, te mantengo informado, muchas gracias!
Un saludo!