2025年12月15日 星期一

Nutanix_9 CVM 掛掉怎麼辦?

 


Nutanix 的容錯到底在跩什麼?

先講結論,免得你心臟不夠大顆:

「單一 CVM 掛掉,不會讓 VM 掛掉。」

這不是口號,是 Nutanix 架構的基本操作。


先釐清一個大誤會 😱

CVM 掛掉 ≠ 伺服器掛掉

很多人第一次聽到 CVM(Controller VM)時都會有 PTSD:

「靠北?儲存靠一台 VM?那它掛了不就全滅?」

冷靜。
Nutanix 的 CVM 不是單點,它是「群體智慧」。

每一個 Node 都有一台 CVM,
所有 CVM 組成一個 分散式儲存叢集

所以狀況其實分三種,我們一個一個來。


狀況一:只有 CVM 掛掉(最常見)

發生什麼事?

  • CVM 當機

  • CVM 重開

  • 或你手賤下錯指令

系統反應(重點來了)👇

1️⃣ 其他 Node 的 CVM 立刻接手儲存 I/O
2️⃣ VM 繼續跑,使用的是 其他節點的資料複本
3️⃣ 管理介面跳警告,但不是紅色世界末日那種

👉 使用者通常 完全無感

為什麼?

因為資料本來就不是只放在那一台 CVM。

CVM 掛掉 ≈ 儲存團隊少一個人加班


狀況二:整個 Node 掛掉(含 CVM + VM)

這個比較刺激,但 Nutanix 依然很淡定。

發生什麼事?

  • 主機斷電

  • 主機板壞掉

  • 工程師拔錯電源(真實案例)

系統怎麼救?

① 儲存層:RF 在保命

你如果設定:

  • RF=2 👉 至少兩份資料

  • RF=3 👉 三份資料

Node 掛掉時:

  • 資料 早就存在其他節點

  • I/O 不中斷

② 運算層:HA 自動啟動

  • VM 會在其他 Node 重開

  • AHV / ESXi 都支援

👉 你會看到 VM 重開,但不是資料消失


狀況三:最慘的情況(但還是沒死)

同時掛掉:

  • 一台 Node

  • 再加一台 CVM

只要:

👉 掛掉的數量 < RF 能承受的數量

系統還是活著。

這也是 Nutanix 為什麼很愛跟你說:

「RF 不要亂省。」


Nutanix 到底跩在哪?🤨

1️⃣ 它不是「修好才繼續」,是「邊壞邊跑」

傳統 SAN 世界:

「儲存壞了,大家一起等。」

Nutanix 世界:

「壞的先放旁邊,其他人繼續上班。」


2️⃣ 沒有 Master CVM 這種東西

沒有:

  • 老大

  • 中央大腦

  • 單點裁判

每個 CVM 地位平等
誰活著誰就上場。


3️⃣ 自癒能力(Self-Healing)很囂張

CVM 或 Node 回來後:

  • 自動加入叢集

  • 自動補資料

  • 自動 rebalance

工程師不用半夜爬起來打指令:

👉 Nutanix:

「你睡吧,我自己來。」


那工程師要幹嘛?😅

老實說,Nutanix 容錯強到一個程度後,
工程師的工作變成:

  • 看 Alert

  • 寫報告

  • 跟老闆解釋「為什麼沒事」

最常說的一句話是:

「有警告,但系統正常。」


總結一句話送你

CVM 掛掉,在 Nutanix 世界裡,
只是提醒你:這套系統真的有在做 HA。

它跩的不是嘴巴,
是因為它真的設計成:

  • 你會犯錯

  • 硬體一定會壞

  • 但服務不能停

沒有留言:

張貼留言

Nutanix_14 DR 架構:讓你的資料比你的早餐還安全

  如果你的資料比你的生活還重要,那麼 災難復原(Disaster Recovery, DR) 就不是選項,而是必須。想像一下,你正準備喝下午茶,突然電腦爆炸、資料消失、老闆打電話來問「報告呢?」——這種場景是不是比恐怖片還刺激?不用怕,Nutanix 來救你。今天我們就來聊...