Pandora: Documentation ja: Intro Monitoring

From Pandora FMS Wiki
Revision as of 14:32, 26 November 2017 by Junichi (talk | contribs) (ステータス/イベントモニタリング)
Jump to: navigation, search

Pandora FMS ドキュメント一覧に戻る

1 モニタリングの概要

Pandora FMS のすべてのユーザ操作は、ウェブコンソールを通して行います。コンソールへのアクセスは、任意のコンピュータから特別なプログラムを必要とせずブラウザで行うことができます。

監視とは、情報を収集して保存し、そのデータに基づいて決定した処理を実行すために、あらゆるタイプのシステム上のプロセスを実行することです。

Pandora FMS は、収集する情報の範囲や量を拡張できる複数の機能をもったスケール可能な監視システムです。

2 ソフトウエアエージェントでのモニタリングと、リモートモニタリング

Pandora FMS には、主にソフトウエアエージェントを使った方法とリモートで行う方法の 2つの監視手法があります。

エージェントベースの監視 は、監視対象にインストールした小さなソフトウエアを用い、ローカルでコマンドやスクリプトを実行して情報を取得します。

リモート監視 は、監視対象の確認をリモートからネットワークを介して行います。監視対象には、追加のソフトウエアをインストールする必要はありません。

つまり、エージェントベースの監視は監視対象のローカルでチェックをして情報を取得し、リモート監視は Pandora FMS サーバからリモートでのチェックで情報を取得します。

Pandora FMS においては、一つの手法もしくは組み合わせでの監視が可能です。

3 Pandora FMS のエージェント

Pandora FMS で行われるすべての監視は、一般的に "エージェント" と呼ばれる対象を通して管理されます。それは、グループと呼ばれるより一般的な単位に分類されます。これらのエージェントは、監視しているさまざまなコンピュータ、デバイス、Webサイト、またはアプリケーションのそれぞれを表します。

Pandora FMS コンソールで定義されたエージェントは、ソフトウェアエージェントを通じて収集されたローカル情報、ネットワークチェックによって収集されたリモート情報、またはその両方を表示できます。 したがって、Pandora FMS コンソールの管理単位としてのエージェントと、ローカルでデータ収集を行うソフトウェアエージェントは別の意味であることを認識しておく必要があります。




AgentHierarchy.png



4 状態監視

監視をするとき、システムから、メモリ、CPU、筐体温度、接続ユーザ数、eコマースサイトの注文数、その他数値情報をシステムから取得します。時々、我々はデータにのみ興味を持ちますが、一般的に値に対して状態を関連付けたいと考えます。そこで「しきい値」を越えたときに状態が変化し、何が正常か異常かを知らせてくれるようにします。これが監視です。状態の概念につじて説明します。

Pandora FMS は、データに基づき状態を決定するための しきい値 を定義することができます。3つの可能な状態として、正常、警告、障害があります。しきい値は、ある状態が他の状態に移る値です。モジュールの状態は、それぞれのモジュールの設定において次のパラメータによって指定されたしきい値に依存します。

  • 警告状態 - 最小 最大(Warning status - Min. Max.): 警告状態の下限と上限です。モジュールの値がこの範囲に入ると、モジュールは警告状態になります。上限を設定しない場合は、無限(下限を超えたすべての値が対象)となります。
  • 警告状態 - 文字列(Warning status - Str.): 文字列モジュールに対する正規表現です。マッチするとモジュールは警告状態になります。
  • 障害状態 - 最小 最大(Critical status - Min. Max.): 障害状態の下限と上限です。モジュールの値がこの範囲に入ると、モジュールは障害状態になります。上限を設定しない場合は、無限(下限を超えたすべての値が対象)となります。
  • 障害状態 - 文字列(Critical status - Str.): 文字列モジュールに対する正規表現です。マッチするとモジュールは障害状態になります。
  • 範囲の反転(Inverse interval): 警告と障害のしきい値両方の設定に存在します。有効化すると、モジュールは、値がしきい値に指定した 範囲外 になった場合に状態変化します。文字列モジュールに対しても動作します。文字列が、警告/障害文字列にマッチしなかった場合に状態が変わります。


Threshold1.JPG



Threshold2.JPG


Info.png

"警告" と "障害" のしきい値が重なっている場合は、"障害" しきい値が常に優先されます。

 


5 その他共通モニタリングパラメータ

5.1 データの保存

Historicaldata.png

Pandora FMS は、どんなデータでも個別に保存することができます。デフォルトでは、すべてのモジュールのデータを保存します (それにより、グラフ表示やレポートの作成等が可能です)。しかし、多くのデータをモニタする必要がある大きなシステムでは、リソースの消費を押さえるために、いくつかのデータは保存しなくてもいいかもしれません。

このオプションにより、保存の必要がないモジュールのデータを保存しないようにできます。保存を無効にしても、アラートの動作、イベントの生成、現在の状態の参照は可能です。

5.2 連続抑制回数

Fft.png

連続抑制回数 (FF Threshold: FF は FlipFlop を意味します) パラメータは、イベントや状態の連続的な変化をフィルタするために利用します。オリジナルの状態から変化した状態が連続して X 回を超えて続かないと、変化が発生したと Pandora FMS が認識しないようにすることができます。以下に例を見てみましょう。あるホストへの ping でパケットロスがあります。このような場合、次のような結果になります。

1
1
0
1
1
0
1
1
1

しかし、ホストは稼働しています。連続抑制回数を 2に設定し、少なくとも 3回連続でダウン状態にならないと、Pandora にダウンと認識し通知して欲しくないとすると、上記の例はダウンと見なさないパターンに該当します。逆に以下のような場合にダウンと認識します。

1
1
0
1
0
0
0

最後の状態になったときに、ダウンと認識し、それ以前はダウンではありません。

連続抑制回数は、このような不安定な変動を避けるために便利です。すべてのモジュールにおいて実装されており、状態の変化を避けるのに利用します (*proc モジュールの場合は、設定された制限もしくは自動制限により制限されます)。

バージョン 5.1 からは、連続抑制回数には 2つのモードがあります。

  • 全状態変化(All state changing): 正常、警告、障害すべての状態変化に対して、同じ値を利用します。
  • 個別状態変化(Each state changing): 正常、警告、障害への状態変化ごとに異なる値を設定できます。

非同期モジュールでは、タイムアウト(連続抑制タイムアウト)も設定できます。短時間に複数回、警告や障害のデータを受信した場合にのみ障害通知をしたい場合に便利です。 データを受信する間隔がタイムアウト値を超えた場合は、連続抑制回数のカウンタがリセットされます。

Ff timeout.png

たとえば、エージェントから 5分以内に 2回障害データが送られた場合にのみ通知をしたい場合(5分を超える間隔でデータが送られてきても障害通知したくない場合)は、連続抑制回数に 1、連続抑制タイムアウトに 300 を設定します。