Difference between revisions of "Pandora: Documentation ja: Intro Monitoring"

From Pandora FMS Wiki
Jump to: navigation, search
(その他共通モニタリングパラメータ)
(ステータス/イベントモニタリング)
Line 33: Line 33:
 
<br>
 
<br>
  
=== ステータス/イベントモニタリング ===
+
= 状態監視 =
  
Pandora FMS 3.0 で、これまでと動作が変るような新たな重要な機能が追加されました。Pandora FMS は、ユーザがデータを正常、警告、障害の 3つの状態に分類できるようにしています。
+
監視をするとき、システムから、メモリ、CPU、筐体温度、接続ユーザ数、eコマースサイトの注文数、その他数値情報をシステムから取得します。時々、我々はデータにのみ興味を持ちますが、一般的に値に対して状態を関連付けたいと考えます。そこで「しきい値」を越えたときに状態が変化し、何が正常か異常かを知らせてくれるようにします。これが監視です。状態の概念につじて説明します。
  
全ての *proc モジュールでは、値が 1 または 1以上だった場合、自動的に正常状態にします。また、1より小さい値 (0 もしくはマイナスの値) であれば、障害状態とします。
+
Pandora FMS は、データに基づき状態を決定するための '''しきい値''' を定義することができます。3つの可能な状態として、正常、警告、障害があります。しきい値は、ある状態が他の状態に移る値です。モジュールの状態は、それぞれのモジュールの設定において次のパラメータによって指定されたしきい値に依存します。
  
しかし、CPU使用率ではどうでしょうか。システムは、正常、障害、警告の値をどのように知ればよいでしょうか。それはデフォルトではわかりません。数値データを取得するだけで、それに関して言及はしません。すべて値としては "正しく"、つまり "正常" 状態です。
+
* '''警告状態 - 最小 最大(Warning status - Min. Max.)''': 警告状態の下限と上限です。モジュールの値がこの範囲に入ると、モジュールは警告状態になります。上限を設定しない場合は、無限(下限を超えたすべての値が対象)となります。
 
+
* '''警告状態 - 文字列(Warning status - Str.)''': 文字列モジュールに対する正規表現です。マッチするとモジュールは警告状態になります。
エージェント設定には、これまで出てきていない次の 2つのステータスフィールドがあります。
+
* '''障害状態 - 最小 最大(Critical status - Min. Max.)''': 障害状態の下限と上限です。モジュールの値がこの範囲に入ると、モジュールは障害状態になります。上限を設定しない場合は、無限(下限を超えたすべての値が対象)となります。
 
+
* '''障害状態 - 文字列(Critical status - Str.)''': 文字列モジュールに対する正規表現です。マッチするとモジュールは障害状態になります。
*'''''警告状態 (Warning status)'''''
+
* '''範囲の反転(Inverse interval)''': 警告と障害のしきい値両方の設定に存在します。有効化すると、モジュールは、値がしきい値に指定した '''範囲外''' になった場合に状態変化します。文字列モジュールに対しても動作します。文字列が、警告/障害文字列にマッチしなかった場合に状態が変わります。
*'''''障害状態 (Critical status)'''''
 
 
 
これら 2つのフィールドには、それぞれ最小と最大の 2つの値があります。モジュールが警告状態を示す範囲および、障害状態を示す範囲を設定します。
 
  
 +
<br>
 
<center>
 
<center>
[[image:critico.jpg]]
+
[[image:Threshold1.JPG|center|400px]]
 
</center>
 
</center>
 +
<br>
  
これらのオプションを理解するには、例を見ると良いでしょう。エージェントの CPU モジュールは、0% から 100% までの値をとり、常に正常状態です。そこで、CPU 使用率が 70% に達した場合に警告状態とし、90% に達したら障害状態にしたい場合は、次のように設定します。
+
<br>
 
 
*警告状態 (Warning status):70
 
*障害状態 (Critical status):90
 
 
 
これにより、値が 90 に達したときに、モジュールは障害状態となり、70 と 89.99 の間では、警告状態になります (70 より下回れば正常状態になります)。
 
 
 
文字列タイプのモジュールの場合は、''Str'' フィールドに正規表現を使うことで警告および障害状態を設定できます。例えば、状態に応じて ''OK''、''ERROR connection fail''、''BUSY to much devices'' といった文字列を返すモジュールがあるとします。
 
 
 
警告や障害状態を設定するには、次の正規表現を設定します。
 
 
 
Warning Status: .*BUSY.*
 
Crirical Status: .*ERROR.*
 
 
 
'''正規表現は大文字小文字を区別するということに注意が必要です。''' このモジュール設定により、文字列データに ''BUSY'' が含まれる場合は警告状態になり、文字列データに ''ERROR'' が含まれる場合は障害状態になります。
 
 
 
'''両方の状態を同じ値に設定した場合は、障害状態が優先されます。''' つまり、警告状態になることはありません。障害状態は、警告状態よりも重要であるからです。
 
 
 
それぞれの状態を表すモジュールの例を以下に示します。
 
 
 
 
<center>
 
<center>
[[image:colorin.jpg|center|450px]]
+
[[image:Threshold2.JPG|center|400px]]
 
</center>
 
</center>
 +
<br>
  
ブーリアンデータ (1 か 0) を返すだけのモジュールでは意味がないことは明らかです。
+
{{Tip|"警告" と "障害" のしきい値が重なっている場合は、"障害" しきい値が常に優先されます。}}
 
 
これらの値は、メイン画面のモニタビューに表示されます。いくつのチェック項目が正常、警告、障害状態であるか、簡単に確認することができます。
 
  
 
= その他共通モニタリングパラメータ=
 
= その他共通モニタリングパラメータ=

Revision as of 14:32, 26 November 2017

Pandora FMS ドキュメント一覧に戻る

1 モニタリングの概要

Pandora FMS のすべてのユーザ操作は、ウェブコンソールを通して行います。コンソールへのアクセスは、任意のコンピュータから特別なプログラムを必要とせずブラウザで行うことができます。

監視とは、情報を収集して保存し、そのデータに基づいて決定した処理を実行すために、あらゆるタイプのシステム上のプロセスを実行することです。

Pandora FMS は、収集する情報の範囲や量を拡張できる複数の機能をもったスケール可能な監視システムです。

2 ソフトウエアエージェントでのモニタリングと、リモートモニタリング

Pandora FMS には、主にソフトウエアエージェントを使った方法とリモートで行う方法の 2つの監視手法があります。

エージェントベースの監視 は、監視対象にインストールした小さなソフトウエアを用い、ローカルでコマンドやスクリプトを実行して情報を取得します。

リモート監視 は、監視対象の確認をリモートからネットワークを介して行います。監視対象には、追加のソフトウエアをインストールする必要はありません。

つまり、エージェントベースの監視は監視対象のローカルでチェックをして情報を取得し、リモート監視は Pandora FMS サーバからリモートでのチェックで情報を取得します。

Pandora FMS においては、一つの手法もしくは組み合わせでの監視が可能です。

3 Pandora FMS のエージェント

Pandora FMS で行われるすべての監視は、一般的に "エージェント" と呼ばれる対象を通して管理されます。それは、グループと呼ばれるより一般的な単位に分類されます。これらのエージェントは、監視しているさまざまなコンピュータ、デバイス、Webサイト、またはアプリケーションのそれぞれを表します。

Pandora FMS コンソールで定義されたエージェントは、ソフトウェアエージェントを通じて収集されたローカル情報、ネットワークチェックによって収集されたリモート情報、またはその両方を表示できます。 したがって、Pandora FMS コンソールの管理単位としてのエージェントと、ローカルでデータ収集を行うソフトウェアエージェントは別の意味であることを認識しておく必要があります。




AgentHierarchy.png



4 状態監視

監視をするとき、システムから、メモリ、CPU、筐体温度、接続ユーザ数、eコマースサイトの注文数、その他数値情報をシステムから取得します。時々、我々はデータにのみ興味を持ちますが、一般的に値に対して状態を関連付けたいと考えます。そこで「しきい値」を越えたときに状態が変化し、何が正常か異常かを知らせてくれるようにします。これが監視です。状態の概念につじて説明します。

Pandora FMS は、データに基づき状態を決定するための しきい値 を定義することができます。3つの可能な状態として、正常、警告、障害があります。しきい値は、ある状態が他の状態に移る値です。モジュールの状態は、それぞれのモジュールの設定において次のパラメータによって指定されたしきい値に依存します。

  • 警告状態 - 最小 最大(Warning status - Min. Max.): 警告状態の下限と上限です。モジュールの値がこの範囲に入ると、モジュールは警告状態になります。上限を設定しない場合は、無限(下限を超えたすべての値が対象)となります。
  • 警告状態 - 文字列(Warning status - Str.): 文字列モジュールに対する正規表現です。マッチするとモジュールは警告状態になります。
  • 障害状態 - 最小 最大(Critical status - Min. Max.): 障害状態の下限と上限です。モジュールの値がこの範囲に入ると、モジュールは障害状態になります。上限を設定しない場合は、無限(下限を超えたすべての値が対象)となります。
  • 障害状態 - 文字列(Critical status - Str.): 文字列モジュールに対する正規表現です。マッチするとモジュールは障害状態になります。
  • 範囲の反転(Inverse interval): 警告と障害のしきい値両方の設定に存在します。有効化すると、モジュールは、値がしきい値に指定した 範囲外 になった場合に状態変化します。文字列モジュールに対しても動作します。文字列が、警告/障害文字列にマッチしなかった場合に状態が変わります。


Threshold1.JPG



Threshold2.JPG


Info.png

"警告" と "障害" のしきい値が重なっている場合は、"障害" しきい値が常に優先されます。

 


5 その他共通モニタリングパラメータ

5.1 データの保存

Historicaldata.png

Pandora FMS は、どんなデータでも個別に保存することができます。デフォルトでは、すべてのモジュールのデータを保存します (それにより、グラフ表示やレポートの作成等が可能です)。しかし、多くのデータをモニタする必要がある大きなシステムでは、リソースの消費を押さえるために、いくつかのデータは保存しなくてもいいかもしれません。

このオプションにより、保存の必要がないモジュールのデータを保存しないようにできます。保存を無効にしても、アラートの動作、イベントの生成、現在の状態の参照は可能です。

5.2 連続抑制回数

Fft.png

連続抑制回数 (FF Threshold: FF は FlipFlop を意味します) パラメータは、イベントや状態の連続的な変化をフィルタするために利用します。オリジナルの状態から変化した状態が連続して X 回を超えて続かないと、変化が発生したと Pandora FMS が認識しないようにすることができます。以下に例を見てみましょう。あるホストへの ping でパケットロスがあります。このような場合、次のような結果になります。

1
1
0
1
1
0
1
1
1

しかし、ホストは稼働しています。連続抑制回数を 2に設定し、少なくとも 3回連続でダウン状態にならないと、Pandora にダウンと認識し通知して欲しくないとすると、上記の例はダウンと見なさないパターンに該当します。逆に以下のような場合にダウンと認識します。

1
1
0
1
0
0
0

最後の状態になったときに、ダウンと認識し、それ以前はダウンではありません。

連続抑制回数は、このような不安定な変動を避けるために便利です。すべてのモジュールにおいて実装されており、状態の変化を避けるのに利用します (*proc モジュールの場合は、設定された制限もしくは自動制限により制限されます)。

バージョン 5.1 からは、連続抑制回数には 2つのモードがあります。

  • 全状態変化(All state changing): 正常、警告、障害すべての状態変化に対して、同じ値を利用します。
  • 個別状態変化(Each state changing): 正常、警告、障害への状態変化ごとに異なる値を設定できます。

非同期モジュールでは、タイムアウト(連続抑制タイムアウト)も設定できます。短時間に複数回、警告や障害のデータを受信した場合にのみ障害通知をしたい場合に便利です。 データを受信する間隔がタイムアウト値を超えた場合は、連続抑制回数のカウンタがリセットされます。

Ff timeout.png

たとえば、エージェントから 5分以内に 2回障害データが送られた場合にのみ通知をしたい場合(5分を超える間隔でデータが送られてきても障害通知したくない場合)は、連続抑制回数に 1、連続抑制タイムアウトに 300 を設定します。