Difference between revisions of "Pandora: Documentation ja: Intro Monitoring"

From Pandora FMS Wiki
Jump to: navigation, search
(Pandora FMS のエージェント)
(その他共通モニタリングパラメータ)
Line 80: Line 80:
 
これらの値は、メイン画面のモニタビューに表示されます。いくつのチェック項目が正常、警告、障害状態であるか、簡単に確認することができます。
 
これらの値は、メイン画面のモニタビューに表示されます。いくつのチェック項目が正常、警告、障害状態であるか、簡単に確認することができます。
  
=== その他共通モニタリングパラメータ===
+
= その他共通モニタリングパラメータ=
  
 
==== データの保存 ====
 
==== データの保存 ====

Revision as of 14:31, 26 November 2017

Pandora FMS ドキュメント一覧に戻る

1 モニタリングの概要

Pandora FMS のすべてのユーザ操作は、ウェブコンソールを通して行います。コンソールへのアクセスは、任意のコンピュータから特別なプログラムを必要とせずブラウザで行うことができます。

監視とは、情報を収集して保存し、そのデータに基づいて決定した処理を実行すために、あらゆるタイプのシステム上のプロセスを実行することです。

Pandora FMS は、収集する情報の範囲や量を拡張できる複数の機能をもったスケール可能な監視システムです。

2 ソフトウエアエージェントでのモニタリングと、リモートモニタリング

Pandora FMS には、主にソフトウエアエージェントを使った方法とリモートで行う方法の 2つの監視手法があります。

エージェントベースの監視 は、監視対象にインストールした小さなソフトウエアを用い、ローカルでコマンドやスクリプトを実行して情報を取得します。

リモート監視 は、監視対象の確認をリモートからネットワークを介して行います。監視対象には、追加のソフトウエアをインストールする必要はありません。

つまり、エージェントベースの監視は監視対象のローカルでチェックをして情報を取得し、リモート監視は Pandora FMS サーバからリモートでのチェックで情報を取得します。

Pandora FMS においては、一つの手法もしくは組み合わせでの監視が可能です。

3 Pandora FMS のエージェント

Pandora FMS で行われるすべての監視は、一般的に "エージェント" と呼ばれる対象を通して管理されます。それは、グループと呼ばれるより一般的な単位に分類されます。これらのエージェントは、監視しているさまざまなコンピュータ、デバイス、Webサイト、またはアプリケーションのそれぞれを表します。

Pandora FMS コンソールで定義されたエージェントは、ソフトウェアエージェントを通じて収集されたローカル情報、ネットワークチェックによって収集されたリモート情報、またはその両方を表示できます。 したがって、Pandora FMS コンソールの管理単位としてのエージェントと、ローカルでデータ収集を行うソフトウェアエージェントは別の意味であることを認識しておく必要があります。




AgentHierarchy.png



3.1 ステータス/イベントモニタリング

Pandora FMS 3.0 で、これまでと動作が変るような新たな重要な機能が追加されました。Pandora FMS は、ユーザがデータを正常、警告、障害の 3つの状態に分類できるようにしています。

全ての *proc モジュールでは、値が 1 または 1以上だった場合、自動的に正常状態にします。また、1より小さい値 (0 もしくはマイナスの値) であれば、障害状態とします。

しかし、CPU使用率ではどうでしょうか。システムは、正常、障害、警告の値をどのように知ればよいでしょうか。それはデフォルトではわかりません。数値データを取得するだけで、それに関して言及はしません。すべて値としては "正しく"、つまり "正常" 状態です。

エージェント設定には、これまで出てきていない次の 2つのステータスフィールドがあります。

  • 警告状態 (Warning status)
  • 障害状態 (Critical status)

これら 2つのフィールドには、それぞれ最小と最大の 2つの値があります。モジュールが警告状態を示す範囲および、障害状態を示す範囲を設定します。

Critico.jpg

これらのオプションを理解するには、例を見ると良いでしょう。エージェントの CPU モジュールは、0% から 100% までの値をとり、常に正常状態です。そこで、CPU 使用率が 70% に達した場合に警告状態とし、90% に達したら障害状態にしたい場合は、次のように設定します。

  • 警告状態 (Warning status):70
  • 障害状態 (Critical status):90

これにより、値が 90 に達したときに、モジュールは障害状態となり、70 と 89.99 の間では、警告状態になります (70 より下回れば正常状態になります)。

文字列タイプのモジュールの場合は、Str フィールドに正規表現を使うことで警告および障害状態を設定できます。例えば、状態に応じて OKERROR connection failBUSY to much devices といった文字列を返すモジュールがあるとします。

警告や障害状態を設定するには、次の正規表現を設定します。

Warning Status: .*BUSY.*
Crirical Status: .*ERROR.*

正規表現は大文字小文字を区別するということに注意が必要です。 このモジュール設定により、文字列データに BUSY が含まれる場合は警告状態になり、文字列データに ERROR が含まれる場合は障害状態になります。

両方の状態を同じ値に設定した場合は、障害状態が優先されます。 つまり、警告状態になることはありません。障害状態は、警告状態よりも重要であるからです。

それぞれの状態を表すモジュールの例を以下に示します。

Colorin.jpg

ブーリアンデータ (1 か 0) を返すだけのモジュールでは意味がないことは明らかです。

これらの値は、メイン画面のモニタビューに表示されます。いくつのチェック項目が正常、警告、障害状態であるか、簡単に確認することができます。

4 その他共通モニタリングパラメータ

4.1 データの保存

Historicaldata.png

Pandora FMS は、どんなデータでも個別に保存することができます。デフォルトでは、すべてのモジュールのデータを保存します (それにより、グラフ表示やレポートの作成等が可能です)。しかし、多くのデータをモニタする必要がある大きなシステムでは、リソースの消費を押さえるために、いくつかのデータは保存しなくてもいいかもしれません。

このオプションにより、保存の必要がないモジュールのデータを保存しないようにできます。保存を無効にしても、アラートの動作、イベントの生成、現在の状態の参照は可能です。

4.2 連続抑制回数

Fft.png

連続抑制回数 (FF Threshold: FF は FlipFlop を意味します) パラメータは、イベントや状態の連続的な変化をフィルタするために利用します。オリジナルの状態から変化した状態が連続して X 回を超えて続かないと、変化が発生したと Pandora FMS が認識しないようにすることができます。以下に例を見てみましょう。あるホストへの ping でパケットロスがあります。このような場合、次のような結果になります。

1
1
0
1
1
0
1
1
1

しかし、ホストは稼働しています。連続抑制回数を 2に設定し、少なくとも 3回連続でダウン状態にならないと、Pandora にダウンと認識し通知して欲しくないとすると、上記の例はダウンと見なさないパターンに該当します。逆に以下のような場合にダウンと認識します。

1
1
0
1
0
0
0

最後の状態になったときに、ダウンと認識し、それ以前はダウンではありません。

連続抑制回数は、このような不安定な変動を避けるために便利です。すべてのモジュールにおいて実装されており、状態の変化を避けるのに利用します (*proc モジュールの場合は、設定された制限もしくは自動制限により制限されます)。

バージョン 5.1 からは、連続抑制回数には 2つのモードがあります。

  • 全状態変化(All state changing): 正常、警告、障害すべての状態変化に対して、同じ値を利用します。
  • 個別状態変化(Each state changing): 正常、警告、障害への状態変化ごとに異なる値を設定できます。

非同期モジュールでは、タイムアウト(連続抑制タイムアウト)も設定できます。短時間に複数回、警告や障害のデータを受信した場合にのみ障害通知をしたい場合に便利です。 データを受信する間隔がタイムアウト値を超えた場合は、連続抑制回数のカウンタがリセットされます。

Ff timeout.png

たとえば、エージェントから 5分以内に 2回障害データが送られた場合にのみ通知をしたい場合(5分を超える間隔でデータが送られてきても障害通知したくない場合)は、連続抑制回数に 1、連続抑制タイムアウトに 300 を設定します。