Nutanix 的容錯到底在跩什麼?
先講結論,免得你心臟不夠大顆:
「單一 CVM 掛掉,不會讓 VM 掛掉。」
這不是口號,是 Nutanix 架構的基本操作。
先釐清一個大誤會 😱
CVM 掛掉 ≠ 伺服器掛掉
很多人第一次聽到 CVM(Controller VM)時都會有 PTSD:
「靠北?儲存靠一台 VM?那它掛了不就全滅?」
冷靜。
Nutanix 的 CVM 不是單點,它是「群體智慧」。
每一個 Node 都有一台 CVM,
所有 CVM 組成一個 分散式儲存叢集。
所以狀況其實分三種,我們一個一個來。
狀況一:只有 CVM 掛掉(最常見)
發生什麼事?
-
CVM 當機
-
CVM 重開
-
或你手賤下錯指令
系統反應(重點來了)👇
1️⃣ 其他 Node 的 CVM 立刻接手儲存 I/O
2️⃣ VM 繼續跑,使用的是 其他節點的資料複本
3️⃣ 管理介面跳警告,但不是紅色世界末日那種
👉 使用者通常 完全無感
為什麼?
因為資料本來就不是只放在那一台 CVM。
CVM 掛掉 ≈ 儲存團隊少一個人加班
狀況二:整個 Node 掛掉(含 CVM + VM)
這個比較刺激,但 Nutanix 依然很淡定。
發生什麼事?
-
主機斷電
-
主機板壞掉
-
工程師拔錯電源(真實案例)
系統怎麼救?
① 儲存層:RF 在保命
你如果設定:
-
RF=2 👉 至少兩份資料
-
RF=3 👉 三份資料
Node 掛掉時:
-
資料 早就存在其他節點
-
I/O 不中斷
② 運算層:HA 自動啟動
-
VM 會在其他 Node 重開
-
AHV / ESXi 都支援
👉 你會看到 VM 重開,但不是資料消失
狀況三:最慘的情況(但還是沒死)
同時掛掉:
-
一台 Node
-
再加一台 CVM
只要:
👉 掛掉的數量 < RF 能承受的數量
系統還是活著。
這也是 Nutanix 為什麼很愛跟你說:
「RF 不要亂省。」
Nutanix 到底跩在哪?🤨
1️⃣ 它不是「修好才繼續」,是「邊壞邊跑」
傳統 SAN 世界:
「儲存壞了,大家一起等。」
Nutanix 世界:
「壞的先放旁邊,其他人繼續上班。」
2️⃣ 沒有 Master CVM 這種東西
沒有:
-
老大
-
中央大腦
-
單點裁判
每個 CVM 地位平等,
誰活著誰就上場。
3️⃣ 自癒能力(Self-Healing)很囂張
CVM 或 Node 回來後:
-
自動加入叢集
-
自動補資料
-
自動 rebalance
工程師不用半夜爬起來打指令:
👉 Nutanix:
「你睡吧,我自己來。」
那工程師要幹嘛?😅
老實說,Nutanix 容錯強到一個程度後,
工程師的工作變成:
-
看 Alert
-
寫報告
-
跟老闆解釋「為什麼沒事」
最常說的一句話是:
「有警告,但系統正常。」
總結一句話送你
CVM 掛掉,在 Nutanix 世界裡,
只是提醒你:這套系統真的有在做 HA。
它跩的不是嘴巴,
是因為它真的設計成:
-
你會犯錯
-
硬體一定會壞
-
但服務不能停
沒有留言:
張貼留言