クォーラムがシステム動作に与える影響を理解する

SplitSite システム内のクォーラムサーバによって、システムの可用性と復旧動作が変更されます。クォーラムがシステム動作に与える影響を理解するには、その前にクォーラムサーバをもたないシステムの動作を理解しておく必要があります。

前提条件: SplitSite 構成を計画して作成するには、(まだ行っていない場合は) まず「SplitSite 構成を作成する」を読み、その手順に従います。

everRun システムは、1 台以上のゲスト VM に高可用性を提供するよう設計されています。そのため、通常ならアプリケーションのダウンタイムを引き起こすような障害が発生した場合であっても、VM を継続して実行できるようになります。everRun システムは、たとえば 1 つのネットワーク接続やハードディスク、あるいはコンピュータ全体が失われた場合でも、ゲスト VM を引き続き実行することができます。

ただし、さらに致命的な障害が発生した場合 (たとえば可能なネットワークパスすべての故障など)、everRun システムはシステム全体の総合状態を判断しようとします。その後、システムはゲスト VM の整合性を保護するために必要なアクションを実行します。

次の例は、致命的な障害発生時のシステムのプロセスを示すものです。

例 1: クォーラムサーバなしのシステムではスプリットブレーン状態が発生する

SplitSite の例では、everRun システムに node0 と node1 が含まれますが、クォーラムサーバは含まれません。動作は正常で、現在検知されている障害はありません。2 つのノードは正常な (障害のない) 動作のときと同様に、A-Link 接続を介してその状態と可用性をやり取りします。次の図は正常な接続を示すものです。

致命的な障害

フォークリフトを運転する作業員が不注意から壁に衝突し、すべてのネットワーク接続 (ビジネスリンクと A-Link の両方) を切断してしまいました。ただし電源は残っており、システムも実行を継続しています。次の図は障害のある状態を示すものです。

障害処理

2 つのノードは次のように障害を処理します。

node0 — node0 の AX が、A-Link とその他のネットワークパスの両方が失われたことを検知します。node0 AX がそのパートナーの存在を検知できなくなると、node0 AX がアクティブになりゲスト VM を実行します。ゲスト VM 内のアプリケーションは、ネットワーク損失のため、おそらく機能が制限された状態で実行を継続します。
node1 — node1 の AX が、両方の A-Link が失われたことを検知しますが、ibiz0 は引き続き利用可能です。パートナーが ibiz0 内のメッセージに応答しないため、node1 AX がアクティブになります。ゲスト VM 内のアプリケーションは、おそらくシステムの問題を認識しない状態で、実行を継続します。

アプリケーションクライアントまたは外部オブザーバの観点からは、ゲスト VM の両方がアクティブであり、同じ返信アドレスでネットワークメッセージを生成しています。両方のゲスト VM がデータを生成し、それぞれ異なる量の通信エラーを検知します。ゲスト VM の状態は、時間が経つにつれて相違が大きくなります。

復旧と修復

しばらくしてネットワーク接続が復元され、壁の修理が済みネットワークケーブルの配線もやり直しました。

AX ペアの各 AX は、それぞれのパートナーがオンラインに戻ったことを認識し、障害処理規則のある AX ペアが、アクティブな状態を続ける AX を選択します。この選択は予測が不可能であり、スプリットブレーン状態の間にどちらのノードのパフォーマンスがより正確であったかを一切考慮に入れません。

(その時点での) スタンバイノードから生成されたデータはアクティブノードの再同期によって上書きされるため、(その時点での) スタンバイノードにあるデータは永久に失われます。

スプリットブレーン状態の後、システムが再同期を完了するまで数分間かかります。この所要時間はスタンバイノードに送信が必要なディスクアクティビティの量によって決まります。異なるアクティブノードをもつゲスト VM がいくつか実行されている場合、両方向の同期トラフィックが生じることがあります。

注: 状況によっては、everRun システムが致命的な障害の後に取るべき最善の処理を判定できないこともあります。その場合、システムを手動で復旧する必要があります。復旧方法としては、片方のノードを実行し続けながら、everRun 可用性コンソールを使ってもう一方のノードをシャットダウンし、リブートすることを推奨します。この方法では実行中のノードを強制的にプライマリとし、そのノード上の AX がアクティブになります。実行中のノードがプライマリになった後、もう一方のノードの電源を手動でオンにすることができます。既に再同期が進行中の場合には、どちらのノードもシャットダウンしないでください。

例 2: クォーラムサーバのある SplitSite システムではスプリットブレーン状態を回避できる

この SplitSite の例では、everRun システムに例 1 のシステムとまったく同じ接続をもつ node0 と node1 が含まれています。これに加えて、例 2 のシステムにはクォーラムサーバが含まれます。次の図はこれらの接続を示すものです。

致命的な障害

例の不注意な作業員が再びフォークリフトで壁に衝突し、ネットワーク接続をすべて切断してしまいました。ただし電源は残っており、システムも実行を継続しています。次の図は障害のある状態を示すものです。

障害処理

2 つのノードは次のように障害を処理します。

node0 — node0 の AX が、A-Link とその他のネットワークパスの両方が失われたことを検知します。node0 AX はそのパートナーの存在を検知できなくなったため、node0 AX はクォーラムサーバへの通信を試行します。この場合、クォーラムサーバも利用不可になります。したがって、node0 AX はシャットダウンを選択します。このシャットダウンは Windows の正常なシャットダウンではなく強制停止であるため、ゲスト VM 内のアプリケーションが停止されます。
node1 — node1 の AX が、両方の A-Link が失われたことを検知しますが、ibiz0 は引き続き利用可能です。node1 AX がクォーラムサーバへの通信を試行し、サーバが応答するため、node1 AX はアクティブなままになります。ゲスト VM 内のアプリケーションはおそらくシステムの問題を認識していない状態で、実行されます。

注: node1 AX は以前アクティブではなくゲスト VM が HA VM であるため、場合によっては node1 のゲスト VM が node1 のハードドライブからブートする必要があります。その場合、ゲスト VM のブート中、アプリケーションのダウンタイムが一時発生します。(FT VM は実行を継続します。)

アプリケーションクライアントまたは外部オブザーバの観点からは、node1 のゲスト VM はアクティブなままになり、node0 の VM がシャットダウンしている間もデータを生成します。スプリットブレーン状態は存在しません。

復旧と修復

しばらくしてネットワーク接続が復元され、壁の修理が済みネットワークケーブルの配線もやり直しました。

node1 AX でそのパートナーがオンラインに戻ったことが認識されると、node0 AX がスタンバイになります。node0 は以前実行中ではなかったので、node1 から node0 へのデータ同期が開始されます。

スプリットブレーン状態は発生していないので、データ損失はありません。

システムが再同期を行うには数分間かかります。この所要時間はスタンバイノードに送信が必要なディスクアクティビティの量によって決まります。

例 2 (応用編): 致命的な障害時にクォーラムサーバがアクセス不可の場合

クォーラムサーバのある SplitSite システムでは、電源は残っていてシステムが実行を継続している状態であっても、致命的な障害によりすべてのネットワーク接続が切断されてクォーラムサーバがオフラインまたはアクセス不可になる可能性があります。次の図は、このようなシステムでクォーラムサーバがオフラインになった状態を示すものです。

障害処理は例 2 の場合と似ていますが、node1 に重要な違いが 1 つあります。

node1 AX も、両方の A-Link が失われたことを検知しますが、ibiz0 は引き続き利用可能です。node1 AX がクォーラムサーバへの通信を試行しますが、通信が失敗します。AX がゲスト VM を終了します。

この場合、ゲスト VM が node0 と node1 の両方でシャットダウンされ、スプリットブレーンの発生は回避されます。トレードオフは、node0 とクォーラムサーバのどちらかへの接続が復元されるまでゲスト VM が利用不可になる点です。

その場合、運用しない方のノードを特定し、その電源を切ります。次に、運用する方のノードを強制ブートしてら、VM を強制ブートします。VM をシャットダウンしてから起動する方法については、「仮想マシンの運用を管理する」を参照してください。)

例 2 (応用編): 致命的な障害のない時にクォーラムサーバがアクセス不可の場合

場合によっては、致命的な物理的障害がなくてもクォーラムサーバがアクセス不可になる可能性があります。これはたとえば、OS パッチの適用などの定期的なメンテナンスのためにクォーラムコンピュータがリブートされる場合などです。こうした状況では、クォーラムサービスが応答していないことが AX で検知されるため、AX はクォーラムサーバへの接続が復元されるまで同期のトラフィックを中断します。ゲスト VM は、接続が失われた時点でアクティブだったノード上で実行を継続します。ただし、追加の障害が発生する可能性があるため、ゲスト VM はスタンバイノードに移行しません。クォーラムサービスが復元された後、クォーラムサーバへの接続が維持されていれば、AX は同期と通常の障害処理を再開します。

停電から復旧する

停電やシステムシャットダウンの後にシステムを再起動する場合、everRun システムはゲスト VM の起動を行う前に、まずそのパートナーがブートして応答するまで待機します。以前アクティブだった AX がクォーラムサーバにアクセスできる場合には、AX がパートナーノードのブートを待たずにゲスト VM を直ちに起動します。以前スタンバイだった AX が最初にブートした場合、この　AX はパートナーノードを待機します。

システムがパートナーノードまたはクォーラムサーバのいずれかから応答を受け取ると、正常な運用が再開されて VM が起動します。その際、その他のケースと同じ障害処理規則が適用されます。

システムがクォーラムサーバからの応答を受け取らない場合や、システムにクォーラムサーバがない場合、ユーザが手作業でゲスト VM を強制的にブートする必要があります。これは AX または障害処理機能によって下されたすべての判断を上書きします。node0 と node1 でそれぞれ異なるユーザが同じゲスト VM をブートすることは避けてください。そうすると、誤ってスプリットブレーン状態を引き起こす結果となります。

製品サポートとダウンロード everRun サポート everRun ダウンロード電話 (米国内フリーダイヤル): 866-763-1813 電話 (国際通話): 602-852-3094	Stratus について米国事業所 5 Mill and Main Place Suite 500 Maynard, MA 01754-2660 978-461-7000 その他の国々の事業所
製品マニュアル (PDF 形式) everRun ユーザガイド	ヘルプについてこのヘルプは 2020/05/28 の 10:12 に作成されました。

クォーラムがシステム動作に与える影響を理解する

例 1: クォーラム サーバなしのシステムではスプリット ブレーン状態が発生する

致命的な障害

障害処理

復旧と修復

例 2: クォーラム サーバのある SplitSite システムではスプリット ブレーン状態を回避できる

致命的な障害

障害処理

復旧と修復

例 2 (応用編): 致命的な障害時にクォーラム サーバがアクセス不可の場合

例 2 (応用編): 致命的な障害のない時にクォーラム サーバがアクセス不可の場合

停電から復旧する

例 1: クォーラムサーバなしのシステムではスプリットブレーン状態が発生する

例 2: クォーラムサーバのある SplitSite システムではスプリットブレーン状態を回避できる

例 2 (応用編): 致命的な障害時にクォーラムサーバがアクセス不可の場合

例 2 (応用編): 致命的な障害のない時にクォーラムサーバがアクセス不可の場合