目次

モニタリング概要

Pandora FMS ドキュメント一覧に戻る

モニタリングの概要

Pandora FMS のすべてのユーザ操作は、ウェブコンソールを通して行います。コンソールへのアクセスは、任意のコンピュータから特別なプログラムを必要とせず HTML5 に対応したブラウザで行うことができます。

監視とは、情報を収集して保存し、そのデータに基づいて決定した処理を実行すために、あらゆるタイプのシステム上のプロセスを実行することです。

Pandora FMS は、収集する情報の範囲や量を拡張できる複数の機能をもったスケール可能な監視システムです。

監視の基本を以下に示します。詳細を知りたい場合は、Web リンクを参照してください。

Pandora FMS における論理エージェント

Pandora FMS によるすべての監視は、論理エージェント で管理され、全ての 論理エージェント は、グループ に属します。これらエージェントは、監視対象のさまざまなコンピュータ、デバイス、Webサイト、またはアプリケーションを表します。

Pandora FMS コンソールで定義された論理エージェントでは、ソフトウェアエージェントを通じて収集されたローカル情報、ネットワークチェックを通じて収集されたリモート情報、またはその両方を表示できます。 そのため、Pandora FMS コンソール上で表現されるエージェントと、対象システムにインストールしてローカルでデータを収集するソフトウェアエージェントは異なるということを理解することが重要です。

ソフトウエアエージェントでのモニタリングと、リモートモニタリング

Pandora FMS には、主にソフトウエアエージェントを使った方法とリモートで行う方法の 2つの監視手法があります。

エージェントベースの監視 は、監視対象にインストールした小さなソフトウエアを用い、ローカルでコマンドやスクリプトを実行して情報を取得します。

リモート監視 は、監視対象の確認をリモートからネットワークを介して行います。監視対象には、追加のソフトウエアをインストールする必要はありません。

つまり、ソフトウエアエージェントベースの監視は監視対象のローカルでチェックをして情報を取得し、リモート監視は Pandora FMS サーバからリモートでのチェックで情報を取得します。

両方のタイプのエージェントは、同じ一般設定とデータ表示を共有します。Pandora FMS においては、一つの手法もしくは組み合わせでの監視が可能です。

コンソールでの論理エージェント設定

編集画面の例

メインフィールド:

高度な編集画面の例

メインフィールド:

コンソールでのエージェント参照

この画面では、エージェントに関する多くの情報を見ることができます。リモート実行を強制し、データを更新することができます。

上部には、エージェントデータの概要が表示されます。

バージョン NG 770 以降

お気に入りシステム を使用すると、エージェントを各ユーザのカスタムリストに追加できます。 メイン画面のエージェント名のすぐ横にある星ボタンをクリックします。

必要な数のエージェントを追加 (または削除) できます。エージェントはすべて、お気に入り(Favorite) メニュー (操作(Operation) セクション) の エージェント(Agents) セクションに常に表示されます。

エージェントに属するモジュールの一覧 (モジュール一覧(List of modules)) とそれに対応する状態。

初期化されたモジュールのみが表示されます。

エージェントのアラートの完全な一覧です。1つまたは複数のアラートを選択し、承諾(Validate) ボタンで承諾するオプションがあります:

ログ収集 で設定された ログソースの状態 です。

このエージェントの最新の イベント を一覧表示します(このエージェントの最新のイベント(Latest events for this agent))。過去 24 時間のイベントのみを表示するオプションがあります (24 時間以内の全イベント表示(Show all Events 24h)):

モジュール

モジュールは、エージェント内に格納されている情報の単位です。 これらは、エージェントが指しているデバイスまたはサーバの状態を見る監視項目です。

各モジュールに格納できるメトリックは 1つだけです。 同じエージェント内に同じ名前の 2つのモジュールを設定することはできません。

すべてのモジュールは以下の状態を持ちます。

モジュールは、二値、数値、文字列といった、異なるタイプ(種類はこちら )のデータを持ちます。

モジュールのタイプ

Pandora FMS には、いくつかのモジュールのタイプがあります。

状態監視

監視をするとき、システムから、メモリ、CPU、筐体温度、接続ユーザ数、eコマースサイトの注文数、その他数値情報をシステムから取得します。時々、我々はデータにのみ興味を持ちますが、一般的に値に対して状態を関連付けたいと考えます。そこで「しきい値」を越えたときに状態が変化し、何が正常か異常かを知らせてくれるようにします。これが監視です。状態の概念について説明します。

Pandora FMS は、データに基づき状態を決定するための しきい値 を定義することができます。3つの可能な状態として、正常警告障害があります。しきい値は、ある状態が他の状態に移る値です。モジュールの状態は、それぞれのモジュールの設定において次のパラメータによって指定されたしきい値に依存します。

“警告” と “障害” のしきい値が重なっている場合は、“障害” しきい値が常に優先されます。

数値しきい値 - ケーススタディ 1

CPU 使用率モジュールは、エージェントのステータスの中で常に緑色です。これは単に 0% と 100% の間の値を報告するためです。 70% に達したときに CPU 使用率モジュールが警告状態(黄色)になり、90% に達したときに障害状態(赤)になるようにするには、次のようにしきい値を設定する必要があります。

threshold3.jpg

そのコンピュータからデータを受信し、データが 70% 未満の場合、データは緑色で正常、70%〜89,99% は黄色で警告、90% 以上は赤、障害 となります。 しきい値の動作により、このような場合、上限を設定する必要はありません。これは、下限しきい値のみが設定されている場合、上限しきい値は “制限なし” と見なされ、下限を超える値はすべてしきい値内と見なされるためです。 さらに、しきい値が重複している場合、 障害しきい値が警告しきい値よりも優先されます。

文字列しきい値 - ケーススタディ 2

モジュールが次のような 文字列 としてデータを返すとします。

以下に示すように 警告状態(Warning Status) および 障害状態(Critical Status) フィールドの 文字列(Str.) に正規表現で設定することにより、アラートのしきい値を設定できます。

threshold4.jpg

正規表現には注意してください。大文字と小文字が区別されます。

この設定により、モジュールは、データに BUSY という文字列が含まれている場合は警告状態、データに ERROR という文字列が含まれている場合は障害状態となります。

動的監視 (自動しきい値設定)

動的監視は、インテリジェントかつ予測的な方法でモジュールの状態しきい値を自動的かつ動的に調整します。この処理では、しきい値の設定を指定の期間で収集した値から平均および標準偏差を計算することによって行います。

設定可能なパラメータ

ケーススタディ 1

次の例では、計算された平均値は赤い線の高さ(約30)にあります。

thresh1.jpg

動的しきい値を有効化すると、上限しきい値はこのように設定されます(約45以上)。

thresh2.jpg

パラメータ 2つの動的しきい値を使う(Dynamic Threshold Two Tailed) が有効化されたため、平均値を下回る障害しきい値も設定されています(約15以下)。

thresh3.jpg

それに応じて、パラメータ 最小動的しきい値(Dynamic Threshold Min.) および 最大動的しきい値(Dynamic Threshold Max.) が 20 および 30 に設定されたため、しきい値が拡大され、わずかに許容度が高くなりました。

thresh4.jpg

ケーススタディ 2

Web の応答時間モジュールを例にとります。しきい値の計算期間は 1週間です。

dynamic1.jpg

設定を保存し、pandora_db が実行後されると、しきい値は次のように設定されます。

dynamic2.jpg

このとき、モジュールは、応答時間が 0.33秒より大きい場合には「警告」ステータスに、0.37秒より大きい場合には「障害」に切り替わります。 グラフは次のようになります。

dynamic3.jpg

ここでは、しきい値はやや高いと考えられるため、パラメータ 最小動的しきい値 を使用して最小のしきい値を下げることにしました。 この場合、ある値を超えるものはすべて対象となり、しきい値は最大値を持たないため、 最大動的しきい値 は使用しません。変更は次のようになります。

dynamic4.jpg

変更を行ったあと pandora_db が実行されると、しきい値の設定は次のようになります。

dynamic5.jpg

グラフは次のようになります。

dynamic6.jpg

ケーススタディ 3

この例では、制御室または CPD の温度を監視しています。グラフは、わずかなばらつきのある値を示しています。

dynamic7.jpg

このような状況では、温度は安定した状態で、極端に高い値や極端に低い値になることはあまりありません。そのため、パラメータ 2つの動的しきい値を使う を設定して、上下両方のしきい値を調整します。 設定は次のとおりです。

dynamic8.jpg

自動的に生成されたしきい値は次の通りです。

dynamic9.jpg

グラフは以下のようになります。

dynamic10.jpg

この場合、23.10 と 26 の間の値は常に正常とみなされます。これが制御室で許容される温度です。必要に応じて “最小動的しきい値” および “最大動的しきい値” でしきい値を調整することができます。

追加設定パラメータ

pandora_server.conf に以下を設定可能です。

基本オプション


このインターフェースはローカルモニタリングとリモートモニタリングの両方によって使用され、いずれか一方でのみ有効なパラメーターがあることを常に念頭に置いてください。たとえば、タイムアウト(Timeout) および リトライ(Retries) パラメータは、ローカル監視(ローカルチェック)では役立ちませんが、リモート監視では重要です。


高度なオプション

このインターフェースはローカルモニタリングとリモートモニタリングの両方によって使用され、いずれかの範囲で有効なパラメーターを設定することを常に念頭に置いてください。 たとえば、タイムアウト(Timeout) および リトライ(Retries) パラメーターは、ローカル監視(ローカルチェック)では役立ちませんが、リモート監視では重要です。


連続抑制回数 (FF Threshold: FF は FlipFlop を意味します) パラメータは、イベントや状態の連続的な変化をフィルタするために利用します。オリジナルの状態から変化した状態が連続して X 回を超えて続かないと、変化が発生したと Pandora FMS が認識しないようにすることができます。以下に例を見てみましょう。あるホストへの ping でパケットロスがあります。このような場合、次のような結果になります。

 1
 1
 0
 1
 1
 0
 1
 1
 1

しかし、ホストは稼働しています。連続抑制回数を 2に設定し、少なくとも 3回連続でダウン状態にならないと、Pandora にダウンと認識し通知して欲しくないとすると、上記の例はダウンと見なさないパターンに該当します。逆に以下のような場合にダウンと認識します。

 1
 1
 0
 1
 0
 0
 0

最後の状態になったときに、ダウンと認識し、それ以前はダウンではありません。

連続抑制回数は、このような不安定な変動を避けるために便利です。すべてのモジュールにおいて実装されており、状態の変化を避けるのに利用します (*proc モジュールの場合は、設定された制限もしくは自動制限により制限されます)。

バージョン 5.1 からは、連続抑制回数には 2つのモードがあります。

非同期モジュールでは、タイムアウト(連続抑制タイムアウト)も設定できます。短時間に複数回、警告や障害のデータを受信した場合にのみ障害通知をしたい場合に便利です。 データを受信する間隔がタイムアウト値を超えた場合は、連続抑制回数のカウンタがリセットされます。

たとえば、エージェントから 5分以内に 2回障害データが送られた場合にのみ通知をしたい場合(5分を超える間隔でデータが送られてきても障害通知したくない場合)は、連続抑制回数に 1、連続抑制タイムアウトに 300 を設定します。

これは、連続抑制の高度なオプションで、モジュールの状態を制御します。“カウンタ維持” によって、値ではなく、受け取った値を持つモジュールの状態に応じて、あるステータスから別のステータスに移行するためのいくつかのカウンタ値が設定されます。

どのように動作するか例を以下に示します。

次のようなモジュールがあると仮定します。

 間隔: 5分
 しきい値:
   障害: 90 - 100;
   警告: 80 - 90;
 
 連続抑制:
    正常: 0;
    警告: 3;
    障害: 2;
 
 現在の状態: **正常**;

そして、以下のようなデータ/状態を受け取ります。

データ 状態
81 警告
83 警告
95 障害
89 警告
98 障害
81 警告
86 警告

例からわかるように、データから状態は警告と障害になりますが、連続抑制の定義にマッチしないため現在の状態は正常です。

カウンタ維持パラメータを設定することにより、カウンタは維持され、結果、状態の変化は以下のようになります。

データ データの状態 モジュールの状態
81 警告 正常
83 警告 正常
95 障害 正常
89 警告 警告
98 障害 警告
81 警告 警告
86 警告 警告

別の例を見てみます。

次のようなモジュールがあると仮定します。

 間隔: 5分
 しきい値:
   障害: 90 - 100;
   警告: 80 - 90;
 
 連続抑制:
    正常: 2;
    警告: 3;
    障害: 2;
 
 現在の状態: **正常**;

状態カウンタは、正常状態と障害状態が連続して到着した場合にのみ累積します。一方で、警告状態は連続して到着しなくてもカウンタを累積することがあります。

状態カウンタは、以下のような場合にリセットされます。 - 値の状態が現在の状態と一致する値が到着した場合 - “カウンタ維持” の状態にマッチし、状態が変更された場合

正常カウンタと障害カウンタには特別な動作があり、連続していない場合はこれらのカウンタのみがリセットされます。

この場合、次のようなデータを受け取ります。

データ データの状態 障害カウンタ 警告カウンタ 正常カウンタ モジュールの状態
81 警告 0 1 0 正常
83 警告 0 2 0 正常
95 障害 1 2 0 正常
89 警告 0 0 0 警告
警告カウンタが 3 になったとき、状態が警告に変更されカウンタはリセットされます。
50 正常 0 0 1 警告
98 障害 1 0 0 警告
正常カウンタと障害カウンタが増え続けるには、連続している必要があります。障害状態の値を受信したとき、正常カウンタは 0 になります。
91 障害 0 0 0 障害
障害カウンタが 2 に達すると、状態は障害に変更されカウンタはリセットされます。
30 正常 0 0 1/td> 障害
31 正常 0 0 0/td> 正常
正常カウンタが 2 に達すると、状態は正常に変更されカウンタはリセットされます。
81 警告 0 1 0/td> 正常
83 警告 0 2 0/td> 正常
12 正常 0 0 0/td> 正常
受け取ったデータが正常状態で、かつ現在の状態と同じであれば、カウンタはリセットされます。

 _macroname_

例:

    _technology_
    _modulepriority_
    _contactperson_

これらのマクロは、モジュールのアラートで利用でき、特に ユーザエクスペリエンス監視 で便利です。 モジュールが Web 分析モジュールタイプの場合:

動的マクロは @ で始まる特別なフォーマットを持ち、これらは置換されます。

    @DATE_FORMAT (ユーザが指定したフォーマットでの現在日時)
    @DATE_FORMAT_nh (時間)
    @DATE_FORMAT_nm (分)
    @DATE_FORMAT_nd (日)
    @DATE_FORMAT_ns (秒)
    @DATE_FORMAT_nM (月)
    @DATE_FORMAT_nY (年)

ここで、“n” は符号やマイナスを含まない数値です。フォーマットは perl strftime に従います。

モジュールタグ

管理(Management) メニュー → プロファイル(Profiles)モジュールタグ(Module tags)

タグは、各モジュールに関連付けられたタグで、このモジュールが生成するイベントに伝播され、このモジュールからのイベントアラートで使用できます。 これらはレポートやイベント表示でフィルターとして使用でき、マクロ として利用できるため、特定のビューを持つこともでき、アラートで使用することもできます。

また、モジュールに特定のアクセス許可を付与するために使用することもできます。これにより、ユーザはエージェントの一つのモジュールのみにエージェントの一つのモジュールのみにアクセスでき、残りのモジュールにはアクセスできないようにすることができます。

動的監視 (動的しきい値)

動的監視は、予測的な方法でのモジュール状態しきい値の動的かつ自動調整を行います。 動作は、指定された期間の値を収集し、モジュールレベルで対応するしきい値を設定するために使用される平均と標準偏差を計算することで行われます。 パラメータはモジュールの詳細オプションにあります。

モジュールライブラリ

バージョン 744 からあります。メニューからモジュールライブラリへアクセスするには、エージェント参照 (AR) 権限が必要です。

管理(Management)モジュールライブラリ(Module library)表示(View) にアクセスして、メイン画面にアクセスします。 カテゴリ (データベース、仮想化など) でグループ化したり、検索(Search) テキスト ボックスで名前でプラグインを検索したりすることもできます。

Pandora FMSEnterprise モジュール のダウンロードリンクは、次の場合にのみ表示されます。

Pandora FMS ドキュメント一覧に戻る