[VMware] vSANクラスタに仮想マシンではなくレプリカが表示される

 

2017/12/05 Updated

コミュニティの知り合いから関連がありそうなKBの情報をいただきました。ありがとうございます!

vSAN がアクセス不能になると vSAN データストア上の仮想マシンの名前が変更されることがある

今度同じ事象が起きたら試してみます。

 


 

この間、導入した顧客のvSANクラスタに障害が発生しました。

 

4ホスト構成の小規模でしたが運悪く1時間以内で2ホストが停止しまったようです。(FTT=1にもかかわらず一部仮想マシンが”アクセス不可”状態でした。

障害発生後、ホストは復旧されました。vSANクラスタのヘルス状態やオブジェクトのヘルス状態もすべて正常でしたし、すべての仮想マシンにも正常でした。

数時間後顧客から連絡がありました。一部Linux OSの仮想マシンのレスポンスが障害前より遅くなったことと一部コマンドを実行できないということでした。

 

翌日現地で確認してみました。確かに顧客の言うとおりでした。仮想マシンへのSSH接続も’遅い’と感じるほど時間がかかりましたし、やっと接続できてコマンド(例えばsudoやifconfig、rebootなど)を実行すると”バスエラー”が表示されました。あまりLinuxに詳しくないのでググってみたところ、”バスエラー”は一般的に①リソースが足りない②一部ライブラリが破損していると起きるようでした。仮想マシンのリソースは障害発生前と後で変更してませんので、もしかしたらホスト障害によるHA発動でゲストOSに何らかの影響があったのでは?という結論の雰囲気でした。(ただその結論(?)はどうも腑に落ちない…)

 

幸い(?)なことに対象仮想マシンは数日前に新規作成したもので、まだデータはなく最悪の場合テンプレートから作り直せるとのことでしたので、OSブートから少し確認をすることになり、一先ず仮想マシンを強制終了したところ…

仮想マシンがインベントリから消えました。代わりにFTT=1で生成されたレプリカが表示されていました。

ふむ。HA発動のタイミングでレプリカが登録されたんでしょうか?それとも元の仮想マシンの情報が見つからずレプリカの情報が表示されているんでしょうか?詳しい内容は確認できませんでしたが、レプリカが表示されるのは正常ではありませんので、一旦レプリカをインベントリから削除しました。そのあとは元の仮想マシンを再度インベントリに登録したところ、仮想マシンの起動やレスポンスも良くなり、すべてのコマンドが実行できるようになりました。

 

まあ〜結果的にすべて復旧というこのにはなりましたが、原因が特定できず歯がゆい対応でしたね。

(´・ω・`) 推測ですが、HA発動の影響でレプリカを認識するようになった、レプリカは基本’read-only’のはずのため仮想マシンのOS側にも書き込みが正常にできずコマンドが受け付けられなかったのではないかと… 状況をもう少し早く把握してログを採集しサポートチームにエスカレーションしてないのが残念でした。

 

反省…

 

 

広告

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト /  変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

%s と連携中

WordPress.com ホスティング. テーマ: Baskerville 2 by Anders Noren

ページ先頭へ ↑

%d人のブロガーが「いいね」をつけました。