回復

障害シナリオに応じて、回復作業にはいくつかの修復対応の計画的実行が必要となる場合があります。
障害が発生した Enterprise Server クラスターの回復には、一般的に次の作業が含まれます。
  • できる限り早く復旧する必要があるネットワーク接続のトラブルシューティング。接続が disabled としてマークされる前に行うのが理想的です。
  • 後で障害を分析するための情報の収集。
  • Enterprise Server クラスター クライアントが保持しているロックの解放。
  • データベースの復元。
どの回復プロセスでも、その主な目的は、業務の中断を最小限に抑えることです。クラスター障害に対して周到な準備をしておくことで、中断を最小化できます。
  • 起こり得る障害シナリオを特定し、それに対して準備しておいてください。
  • 準備作業を文書化し、システム管理者またはオペレーター (あるいはその両方) が障害発生時に必要な作業を適切に理解しておくことで、中断期間を最小限に抑えられます。

回復シナリオ

Enterprise Server クラスター障害には、主な原因が 2 つあります。
  • グローバル ロック マネージャー (GLM) への永続的な接続障害。
  • 壊滅的な GLM 障害 - ディスクの故障、メモリ破損、リソース不足などによって起こります。
注:

非永続的な接続障害では、環境変数 ES_GLM_TIMEOUT で指定された期間は接続ステータスが維持されます。接続障害の期間がこの変数で設定された期間を過ぎると、クラスター クライアントおよび GLM の間に定義された接続のステータスが disabled とマークされます。

この時点から、グローバル ロックを要求してもすべて失敗し、JCL ジョブ ログに次のメッセージが表示されます。
JCLCM2000E Unable to acquire global lock for job JRX0033. JCLCM0181S JOB ABENDED - COND CODE S922

GLM に再接続すると、直ちに接続のステータスは enabled にリセットされます。