[Linux] HDLM Recovery Kit の処理概要

HDLM ARK が提供する監視機能と起動処理、停止処理、リカバリ処理についてご説明します。

対象製品
HDLM Recovery Kit (LifeKeeper for Linux)
※本処理概要は LifeKeeper for Linux v9.0.1 に付属するリカバリキットをもとに作成しています。

監視処理
LKCHECKINTERVAL(デフォルト120秒)の間隔で、HDLM ARK の quickCheck が実行され、HDLM ARK の監視デーモンが起動致します。

1) 監視デーモンが 10秒間隔で保護対象のディスクのデバイス情報を取得します。

2) デバイス情報を元に sg_persist を利用しリザーブの取得を確認しています。
  リザーブ確認:sg_persist -k
  リザーブ取得:sg_persist -r

3) 1),2)にて処理がエラー終了した場合、次回チェックにて lkdisktest コマンドを利用してディスク I/O を確認します。
  lkdisktest でもディスク I/O が確認出来ない場合は SCSIERROR の設定にそった障害処理を行います。

上記いずれかにてエラーが 10秒 × リトライ数分返ってきた場合は、次回の 監視間隔(LKCHECKINTERVAL)のタイミングで異常と判定します。
エラーではなく、1)~3)にてディスクから応答がが取れない場合は最大で以下の秒数を待ち、異常と判定します。
  LKCHECKINTERVAL × 2

起動処理
起動時に quickCheck が動作していたら quickCheck を停止致します。

1) 対象ストレージデバイスの reservation key を確認します。
  取得出来ない、もしくは正しくない場合は起動処理が中断されます。

2) reservation key からデバイスのパスIDを取得し、デバイスへリザーブの取得を試みます。
  reserveが取得できない場合は処理がエラー終了いたします。

  リザーブ取得コマンド
  # sg_persist –out –reserve –param-rk=<※>
  ※ HostID とデバイスのパスをもとにした文字列が入ります。

3) デバイスの状態をチェックし、問題が無ければ起動終了となります。
  デバイスの状態に異常がみられる場合は起動処理が SCSIERROR で終了します。

停止処理
1) quickCheck が動作していたら停止させます。

2) 停止対象のデバイス名を取得します。

3) 取得したデバイスを停止させます。

  リザーブ解放コマンド
  # sg_persist -out -clear -param-rk=<※>
  ※ HostID とデバイスのパスをもとにした文字列が入ります。

リカバリ処理
マルチパス(HDLM) Recovery Kit にはリカバリ処理はありません。


改訂履歴

掲載日: 2016年05月20日

return top