Pandora: Documentation ja: Services

From Pandora FMS Wiki
Revision as of 12:59, 24 October 2013 by Junichi (talk | contribs) (Pandora Server)
Jump to: navigation, search

Pandora FMS ドキュメント一覧に戻る

1 サービスモニタリング

1.1 概要

1.1.1 サービスモニタリングの概念

サービスは、機能に基づいて IT リソースをグループ化する手法です。例えば、サービスは、公式ウェブサイト、CRM システム、アプリケーション、または、プリンタなどです。サービスは、ホストやルータ、スイッチ、ファイアーウォール、CRM、ERP、ウェブやその他サービスの論理的なグループです。以下の例で、サービスとは何かをより明確にします。

Chip Company は、ウェブサイトを通してコンピュータを世界中に販売しています。オンラインショップ、サポート、および管理の 3つの大きな部門があります。

Chip-departments.png

ご覧の通り、オンラインショップ、サポート、直接ではありませんが管理の 3つのサービスが顧客に提供されています。すべてのサービスは、どれか一つが機能しなくなると他に影響が出て会社としての機会損失を発生させるため、ビジネスに重要です。最終的には、満足した顧客は、他の顧客を連れてきます。

Chip Company のサービスをモニタするには、それぞれのサービスの詳細をより知る必要があります。

オンラインショップ部門は、ショップのウェブサイトが稼働し、買い物がしやすいように、すべての製品の価格が正しい状態であること、製品の分類をし製品の情報を提供すること、配送および支払い方法を正しく示すことに責任があります。このサービスでは、次のようなパラメータをモニタリングしたいと考えます。

Operation-detail.png

サポート部門は、顧客が買ったコンピュータに関する全ての問題解決を行います。この部門の業務は、顧客のコンピュータ設定に対するヘルプ、返品されたコンピュータの交換などです。この部門は、オンラインショップと連携し、顧客サイドのサービスを行っています。そのため、高品質な会社であると認識してもらうためにとても重要です。サポートサービスでは、次のようなパラメータをモニタリングしたいと考えます。

Support-service-detail.png

3番目の部門は、マーケティング、広報など、その他内部管理を目的とした管理部門です。彼らの主な業務は、組織におけるすべてのプロセスが正しいかを見ることです。この部門のサービスは、すべての部門のとりまとめであるため、とても重要です。管理サービスのためのパラメータは次の通りです。

Management-detail.png

サービスをモニタするために、Pandora FMS ビジュアルコンソールで Chip Company のサービス構造を説明した画像を使ってマップを作成します。これらのマップは、リアルタイムで更新されるため、常にサービスの状態を知ることができます。最初に作成するマップは、それぞれのサービスのマップです。

次の画像は、それぞれのパラメータのステータスを含むオンラインショップサービスのマップを示しています。ご覧の通り、Content Updated というパラメータが赤くなっています。これは、そこに問題があることを意味しています。他のパラメータは、緑表示になっているため問題が無いといえます。緑の矢印をクリックすると、全体のビューに行くことができます。次のステップで示します。

Screen-onlineshop-detail.png

どんな問題が発生しているかを知りたい場合は、赤いアイコンをクリックします。すると、問題に関してより詳細を知ることができる、技術的な表示を見ることができます。この表示では、Pandora FMS が CRM、ERP、SAP サーバ、データベース (MySQL、Oracle など)、その他サーバやルータ、PC といったデバイスなど多くのソースから収集したデータが示されています。

Agent-detail.png

また、以下に示すようなサポートサービスのマップも作成します。ご覧の通り、サポートサービスの重要なパラメータが表示され、すべてが緑で問題無いことを示しています。

Screen-support-detail.png

最後に、次に示すような管理サービスのマップを作成します。こちらもまた、重要なパラメータが表示され、すべてが緑で問題無いことを示しています。

Screen-management-detail.png

さらに、全てのサービスの全体のマップを作成します。次の画像に示します。このマップでは、Chip Company のそれぞれのサービス状態と構造を見ることができます。また、それぞれのアイコンをクリックすると、それぞれのサービスマップを見ることができます。それぞれのサービスの状態は、それぞれのサービスのマップで見たものと同じで、管理およびサポートサービスには問題がありませんが、オンラインショップサービスには問題が発生しています。ご覧の通り、サービスの状態が構造的にトップまで影響しています。

Screen-chip-overview.png

1.2 Pandora FMS におけるサービス

1.2.1 Pandora FMS でのサービスの動作

Pandora FMS でのサービスのモニタリングは、ある特定の値だけのモニタリングではなく、異なる種類の要素グループのモニタによる複数の障害情報に基づいて実現します。

サービスモニタリングどのように構成されるのか理解しやすいように、例を示します。

我々は、サービスとしてのウェブクラスタが正常かどうかをモニタしたいとします。 このクラスタは、以下の要素から構成されます。

  • HA 構成の 2つのルータ
  • HA 構成の 2つのスイッチ
  • 20 の apache サーバ
  • 4つの Weblogic アプライアンスサーバ
  • 2つのストレージノードと 2つの SQL プロセスノードから成る 1つの MySQL クラスタ

それぞれの要素は個別にモニタリング可能です。実際、最初にサービスモニタリングを有効にする必要がありますが、サービスに含まれるそれぞれの要素は、Pandora で個別にモニタします。これは、サービスモニタリングの前に設定することです。

サービスモニタリングの概念として必要なこととして、このような疑問がでてきます。例えば、20 の apache サーバのうちの一つなど、一つの項目が障害状態だったとしても、全体としては障害では無いのではないだろうか。実際に、よくダウンするとしても 20ノードあるので警告でもないのではないだろうか。1ノードのダウンに対して警告は発するべきではありません (警告が 寝てる誰かを起こすことを考えてください)。実際、サービスは冗長化されており、より安全になっており、緊急作業は不要です。よりクリティカルな要素 (ルータなど) がダウンしたときや、4,5台の複数のウェブサーバダウンしたときに警告を発するべきです。

次のように、それぞれの要素に "ウエイト" を付与します。

  • スイッチおよびルータ: 個々の障害状態の時は 5ポイント、警告状態の時は 3ポイント
  • ウェブサーバ: 個々の障害状態の場合は 1.2 ポイント、警告状態はポイント無し
  • WebLogic サーバ: 個々の障害状態の場合は 2ポイント
  • MySQL クラスタ: それぞれのノードに 5ポイント、警告状態で 3ポイント

サービスを警告状態と判断する閾値を 4、障害状態と判断する閾値を 6 とします。すべてのモニタリング要素が正常であれば、サービスも正常です。

1台の apache サーバダウンが発生した場合は次のようになります。

  • 1 x 障害状態の Apache サーバ x 1.2 ポイント = 1.2 となり、ここで、1.2 < 4 (警告) であるため、サービスの状態はまだ正常です。

ウェブサーバと Weblogic サーバがダウンすると次のようになります。

  • 1 x 障害状態の apache サーバ x 1.2 ポイント = 1.2
  • 1 x 障害状態の Weblogic サーバ x 2 = 2

合計すると 3.2 となり、まだ < 4 です。そのため、サービスの状態はまだ正常です。オペレータが起きる必要はありません。

2台のウェブサーバと、1台の Weblogic サーバがダウンすると次のようになります。

  • 2 x 障害状態の Apache サーバ x 1.2 ポイント = 2.4
  • 1 x 障害状態の Weblogic サーバ x 2 = 2

この場合、4.4 > 4 となり、サービスが警告状態になります。オペレータはまだ緊急の SMS を受信しませんが、少なくとも誰かがメールを受け取ります。引き続き例を見ていきましょう。

上記の状態に加え、1台のルータがダウンすると次のようになります。

  • 2 x 障害状態の Apache サーバ x 1.2 ポイント = 2.4
  • 1 x 障害状態の Weblogic サーバ x 2 = 2
  • 1 x 障害状態のルータ x 5 = 5

合計ポイントは 9.4 となり、障害状態の閾値である 8 を越えています。サービスは障害状態となり、オペレータは起きることになります。

サービスモニタリングは、エンタープライズ版の Pandora FMS のみにある機能です。

1.2.2 新たなサービスの作成

1.2.2.1 Pandora FMS バージョン 5 以降

サービスは、以下を表すことができます。

  • モジュール
  • エージェント
  • 他のサービス

サービスの値は、予測モジュールのデフォルト間隔で予想サーバを使って計算されます。

それぞれのサービスには、作成したサービスをモニタするのに必要な全てのモジュール、エージェント、サブサービスを追加することができます。例えば、オンラインショップをモニタしたい場合、それに関連するモジュール、通信などをモニタするサブサービスなどが必要です。

新たなサービスを作成するには、操作メニューのサービスタブをクリックし、作成ボタンをクリックします。



Menu services.png


定義済みのサービス一覧が表示されます。以下はサービス定義が無い例です。



Services empty v5.png


新たなサービスを作成するには、作成ボタンをクリックし、以下に示す画面に表示されるフォームに入力します。



Services creation v5.png
New service2.png


フィールドの意味は次の通りです。

  • 名前(Name): サービス名。
  • 説明(Description): サービスの説明。
  • グループ(Group): サービスのグループ。組織分けと SLA の条件設定に便利です。
  • 自動計算(Auto calculate): デフォルトでチェックされており、サービスの障害閾値は 1、警告閾値は 0.5です。また、いつでもサービスの要素を作成することができ、正常状態の場合のウエイトは 0、警告状態は 0.1、障害状態は 1 が自動的に割り当てられます。
  • 障害(Critical): 障害状態のウエイト閾値です。自動計算が有効の場合デフォルトで 1 となり、このフィールドは無効です。
  • 警告(Warning): 警告状態のウエイト閾値です。自動計算が有効の場合デフォルトで 0.5 となり、このフィールドは無効です。
  • データ保存エージェント(Agent to store data): サービスモジュールを持つエージェントです。サービスは、特別なモジュール(予測モジュール)にデータを保存します。なぜなら、データを保存するモジュールおよび、サービスのアラート設定のために、エージェントが必要だからです。
  • SLA 間隔(S.L.A. Interval): SLA 計算を行う時間間隔です。デフォルト値は 1ヶ月です。
  • SLA 制限(S.L.A. limit): SLA が正常状態の閾値です。
  • 警告サービスアラート(Warning Service alert): サービスが警告状態になった場合に利用するアラートテンプレートです。
  • 障害サービスアラート(Critical Service alert): サービスが障害状態になった場合に利用するアラートテンプレートです。
  • SLA 障害サービスアラート(S.L.A. critical service alert): SLA 条件が満たされない場合にアラートを発生させるためにサービスが利用するアラートテンプレートです。

ノードを追加するには、'要素設定(Config elements)' タブへ行きます。



Services tab setup v5.png


次のような画面が表示されます。ここで、サービス要素を管理(編集、追加、削除)することができます。



Services elements empty v5.png


サービス設定ページでの重要なアイテムは次の通りです。

  • タイプ(Type): モジュールまたはエージェント。エージェントサービスは全モジュールで動作します。
  • エージェント(Agent): エージェントの検索入力です。要素タイプがエージェントまたはモジュールの場合のみ表示されます。
  • モジュール(Module): 検索で選択したエージェントのモジュールのドロップダウンリストです。これは、モジュールタイプでサービス要素を編集または作成するときのみ表示されます。
  • サービス(Service): アイテムを作成するためのサービス一覧のドロップダウンリストです。アイテム作成またはサービスタイプ編集の場合のみ表示されます。ドロップダウンリストに表示されるサービスは、すべてが依存サービスではないことに注意する必要があります。サービス間の依存関係はツリー表示で見る必要があります。
  • 障害ウエイト(weight on critical): 障害状態の場合の要素のウエイトで、自動計算が設定されている場合は、デフォルトは 1 で操作できません。
  • 警告ウエイト(wight on warning): 警告状態の場合の要素のウエイトで、自動計算が設定されている場合は、デフォルトは 0.5 で操作できません。
  • 正常ウエイト(weight on "OK"): 正常状態の場合の要素のウエイトで、自動計算が設定されている場合は、デフォルトは 0 で操作できません。

このページでサービスアイテムを作成すると、次のような画面で一覧が表示されます。



Services list elements admin v5.png


1.2.2.2 Pandora FMS 4.x

モジュールの関連付けで表現されるサービスの値は、リアルタイムで計算されます。そのため、最初に必要なことは、サービスを構成するデバイスが、正常、警告、障害の 3つの状態を持つようにすることです。これらについてより詳しくは、Pandora FMS でのモニタリング および ポリシーを使ったモニタリング を参照してください。

すべてのデバイスのモニタ設定を行ったあと、サービスとしてそれらをグループ化することができます。それぞれのサービスでは、サービスをモニタするのに必要なモジュールを追加することができます。例えば、オンラインショップサービスをモニタしたい場合、コンテンツやその他通信の状態などをモニタするモジュールが必要です。次のステップでは、Pandora FMS でのサービスの作成の仕方を見ることができます。

新たなサービスを作成するには、システム管理 (Administration) メニューのサービス (service) タブをクリックします。


File:Menu-services.png


サービス一覧が表示されます。以下の例では、サービスが定義されていません。


700px


新たなサービスを作成するのは、作成(Create) ボタンをクリックします。以下に示すフィールドを入力し、サービスを作成します。


700px


この時点では、アイテム無しでサービスが作成されています。そこでサービスにアイテムを追加する必要があります。新たなアイテムを追加するには、サービス管理タブの右上にあるオレンジのスパナアイコンをクリックします。すると、以下のようなフォームが表示されます。 このフォームでは、追加したいエージェントのモジュールを選択する必要があります。また、このモジュールに関する、正常、警告、障害状態に対応するウエイトを入力する必要があります。大きくするとサービス内でより重要となります。


700px


すべてのフィールドに入力したら、作成(Create) ボタンをクリックします。成功メッセージと共に、次のような画面が表示されます。


700px


サービスをモニタするために必要なアイテムを全て追加します。例えば、このサービスでは次の例に示すような要素とウエイトを設定しました。


700px


サービスを作成すると、操作(Operation)メニューのサービス(Service)タブがクリックできます。


File:Service-tab-oper-menu.png


以下に示すように、サービス操作一覧が表示されます。表示内容はリアルタイムで生成され、表示されるパラメータは次の通りです。

  • 名前(Name):サービスの名称です。
  • 説明(Description):サービスの説明です。
  • グループ(Group):サービスが属するグループです。
  • 障害(Critical):サービスが障害状態となる閾値です。
  • 警告(Warning):サービスが警告状態となる閾値です。
  • 値(Value):サービスの値です。リアルタイムで計算されます。
  • 状態(Status):サービスの値や障害状態、警告状態を元にした、サービスの状態です。


700px


サービス名をクリックすると、それのサービスビューが表示されます。サービスの値は、それぞれのモジュールの状態に関連付けられたウエイトの合計で計算されます。サービスモジュールの状態は、その値に関連付けられます。サービスモジュールは、次のパラメータで設定します。

  • エージェント名(Agent Name): モジュールが設定されるエージェントの名前です。
  • モジュール名(Module Name): モジュールの名前です。
  • 説明(Description): 任意の説明です。
  • 障害ウエイト(Weight Critical): モジュールが障害状態となるウエイトです。
  • 警告ウエイト(Weight Warning): モジュールが警告状態となるウエイトです。
  • 正常ウエイト(Weight Ok): モジュールが正常状態となるウエイトです。
  • データ(Data): モジュールの値です。
  • 状態(Status): モジュールの状態です。


700px


すべてのサービスを作成したら、いつでもサービスの状態を表示するビジュアルマップを作成することができます。Pandora FMS のビジュアルマップに関する詳細は、データ表示とレポートを参照してください。

このツールで、概要で示した Chip Company のサービスを説明するマップを作成しています。以下に Chip Company のサービスのマップを示します。

Screen-chip-overview.png

さらに、より技術的なマップが必要であれば、Pandora FMS のビジュアルマップコンソールでより詳細なマップを作成することもできます。アイコン、グラフ、状態を示すアイコン、タグ、データ等を追加できます。以下の画像では、全てのデバイスの状態を含むオンラインショップサービスの技術マップを示します。


700px


1.2.3 サービスグループ

サービスは、企業のビジネスにおける要素となる論理的なグループとして考えることができます。サービス単体では全体を表現できないため、サービスのグループを作成する必要があるでしょう。サービスグループを作成するには、既存のエージェントにそれぞれのサービスを追加する必要があります。この場合、サービスはエージェントのモジュールになります。

これらのグループは、ビジュアルマップの作成、アラートの設定、モニタリングポリーの適用などの助けになります。ERP において技術的問題が発生したために、営業の人が業務を出来なかったり、ある拠点が業務を出来ないというような、企業としてのクリティカルな状態の時に、アラームを実行するアラートを作成することができます。

より解りやすいように、以下にサービスグループの例を 2つ示します。

1.2.3.1 同一企業内の複数サービス

前述の例で、セールスマンが WEB サービスを顧客に売り、顧客管理に CRM にアクセスすると仮定します。

我々の CRM サービスは次のシステムから成り立っています。

  • HA 構成の 2つのルータ
  • 2台の Apache ウェブサーバ
  • データノード 2台、SQL ノード 2台の MySQL クラスタ

例えば、CRM サービスを作成して、CRM アーキテクチャが監視されていると仮定します。

この時、2つのサービスが存在します。

  1. ウェブクラスタサービス (顧客向け)
  2. CRM サービス (営業部門向け)

Servicios separado.jpeg

サービスグループを使う最も良いオプションとしては、クラスタサービスと CRM サービスを茂モジュールとして持つ "Company" といった名前の新たなエージェントを作成することです。つまり、サービスは、このような方法でグループ化します。

Servicios compania.jpeg

1.2.3.2 複数拠点での異なるサービス

他の例として、それぞれのサービスを提供している企業の異なる拠点をモニタするとします。

例えば、3拠点で CRM、ERP および内部ウェブのサービスがあるとします。サービスは、それぞれの拠点ごとのニーズで設定されています。ここで、それぞれの拠点のサービスを次の図のようにモニタリングします。

Servicios sedes separado.jpeg

しかし、Pandora FMS 内で、企業の組織に近い形で、それぞれの拠点のサービスをグループ化して表現するロジックが必要です。そうするためには、それぞれの拠点ごとに、それぞれのサービスをモジュールとして持つエージェントを作成します。この方法を使うと、次のようなグループになります。

Servicios sedes agrupados.jpeg

サービスをグループ化するこのような方法で、Pandora FMS 内に実際の構造を論理的に表現することができます。これで、全てのサービスをモニタリングすることができます。

1.2.4 サービス表示

1.2.4.1 Pandora FMS 5 およびそれ以上のバージョン

これ以降のバージョンでは、サービスを表示する複数の方法があります。ツリー表示と一覧表示で、サービスの状態の見方を選択できます。

1.2.4.1.1 全サービスの一覧表示

ユーザが参照可能(アクセス制御があります)なサービス一覧です。

この表示をするには、操作(Operation)メニュー >> モニタリング(Monitorization) >> サービス(Services) へ行きます。



Services list services admin v5.png


それぞれの行がサービスで、カラムは次の通りです。

  • 名前(Name): サービス名。
  • 説明(Description): サービスの説明。
  • グループ(Group): サービスが所属するグループのアイコン。
  • 障害(Critical): サービスが障害状態になるウエイトの合計の閾値。
  • 警告(Warning): サービスが警告状態になるウエイトの合計の閾値。
  • 値(Value): サービスのウエイトの合計値。
  • 状態(Status): サービスの状態を表現するアイコン。以下の 4種類があります。
    • : 障害閾値を超え、サービスが障害状態にある場合。
    • 黄色: 警告閾値を超え、サービスが警告状態にある場合。
    • : サービスが正常状態の場合。
    • グレー: サービスが不明状態の場合。これは、サービスが作成されたばかりでモジュールを含んでない場合または、予測サーバがダウンしている場合です。
  • SLA: サービス SLA の現在の値。とりうる値は次の通りです。
    • OK: SLA サービスで定義された間隔で SLA の条件に適合している場合。
    • INCORRECTO: SLA サービスで定義された間隔で SLA の条件に適合していない場合。
    • N/A: 計算のための十分なデータが無く、SLA が不明状態の場合。
1.2.4.1.2 サービスとその要素の一覧表示

この表示をするには、全サービス表示でサービス名をクリックするか、サービス名の近くの虫眼鏡アイコンをクリックします。



Services list elements operation v5.png


2つのパートに分かれており、前述の表示と同じカラムと、以下に示すサービスの要素一覧のカラムがあります。

  • タイプ(Type): 要素のタイプを表すアイコン。モジュールを表すレゴブロック、エージェントを表す積み重なったレゴブロック、サービスのネットワークダイアグラムアイコンです。
  • 名前(Name): モジュール / エージェント / サービスの名前を含んだテキストです。それぞれのセクションへのリンクもあります。
  • 説明(Description): 説明のテキストです。
  • 障害ウエイト(Weight critical): 要素が障害状態の合計値です。
  • 警告ウエイト(Weight warning): 要素が警告状態の合計値です。
  • 正常ウエイト(Weight normal): 要素が正常状態の合計値です。
  • データ(Data): エレメントの値で、次のいずれかです。
    • モジュール(Module) モジュールの値。
    • エージェント(Agents) エージェントの状態を表すテキスト。
    • サービス(Service) 選択したサービスの要素の全ウエイトの合計。
  • 状態(Status) 要素の状態を色とともに表すアイコン。

Template warning.png

サービス要素の計算は、予測サーバによって実施されることに注意してください。リアルタイムのデータではありません。また、サービスにエージェントが追加された場合、サービスのウエイトは、計算が再実行されるまで更新されないことに注意してください。

 


1.2.4.1.3 サービスマップ表示

この表示をするには、次の画面に示すサービス操作画面のヘッダーのタブをクリックします。



Services tab servicemap v5.png


ここでは、次の画面のようにサービスをツリー構造で表示します。これにより、サービスがどのような要素で構成されているかを一目で素早く確認することができます。



Services servicemap v5.png


ノードの種類は次の通りです。

  • モジュールノード(Module node) ハートビートアイコンで表示されます。このノードは常に末端です。
  • エージェントノード(Agent node) CPU ボックスアイコンで表示されます。このモジュールは常に末端です。
  • サービスノード(Service node) ハンマーとスパナアイコンで表示されます。他のノードを含む必要があります。

ノードの色とそれぞれがサービスに接続している線は、ノードの状態に依存します。

ノード内は次の通りです。

  • タイトル(Title) サービス / エージェント / モジュールノードの名前。
  • 値一覧(Value list)
    • 障害(Critical): 障害状態になるウエイトの合計です。ルートサービスノードの場合は、障害状態になる閾値を表します。
    • 警告(Warning): 警告状態になるウエイトの合計です。ルートサービスノードの場合は、警告状態になる閾値を表します。
    • 正常(Normal): 正常状態になるウエイトの合計です。ルートサービスノードの場合は何も表示しません。
    • 不明(Unknown): 不明状態。ルートサービスノードの場合は、不明状態になる閾値を表します。

ツリー内の各ノードはクリックすることができ、ノードの操作画面へのリンクになっています。

1.2.4.1.4 ビジュアルコンソールでのサービス

Pandora FMS バージョン 5 以降では、マップ内の他のアイテムのように、ビジュアルコンソールにサービスを追加することができます。



Services visualmap v5.png


To create a service on a map, the process is the same as for all other items of the visual map.



Services visualmap add item v5.png


次の設定があります。

  • ラベル(Label): ビジュアルコンソールノードに表示するタイトル。
  • サービス(Service): 表示するサービス。

サービスのどは、他のビジュアルマップへはリンクできないことに注意してください。リンクは、サービスツリー表示になります。

1.3 Pandora サーバ

予測サーバが起動しており、Pandora FMS Enterprise 版がインストールされていることが必須です。