2025年12月14日 星期日

Nutanix_2 網路容錯機制全解析

 



——當虛擬化世界不能斷線,網路就不能只有一條命

在企業導入 Nutanix 之後,大家第一個關心的是效能、第二個是擴充性,第三個幾乎一定是:如果網路掛了怎麼辦?
畢竟再快的 HCI,只要網路一斷,整個叢集就像插頭被拔掉一樣安靜。

好消息是:Nutanix 對「網路容錯」這件事,從設計之初就當成基本功,而不是加分題。


一、先搞懂 Nutanix 網路在忙什麼

在 Nutanix 裡,網路不是只有「VM 上網」這麼單純,實際上至少分成幾條命脈:

  1. Host 管理流量(CVM / Hypervisor 管理)

  2. Storage Replication 流量(CVM 與 CVM 之間)

  3. VM Data 流量

  4. Live Migration / Snapshot / Replication

也就是說:
👉 一條網路掛掉,不只是 VM 不能上網,可能連儲存同步都會受影響。

因此 Nutanix 的容錯邏輯是:

不是讓「網路永遠不會壞」,而是「壞了也不會全倒」。


二、最基礎但最重要:NIC Teaming / Bonding

Nutanix 幾乎是「強迫你做好」網卡容錯。

1️⃣ 每台 Host 建議至少兩張實體網卡

常見配置為:

  • 2 × 10GbE

  • 或 4 × 10GbE(分流量)

2️⃣ Hypervisor 層的 NIC Bond

依 Hypervisor 不同,實作方式略有差異:

  • AHV:Active-Backup / LACP

  • ESXi:vSwitch / vDS NIC Teaming

  • Hyper-V:NIC Teaming

這代表什麼?

只要不是「整張卡全壞」,單一 Port 或線路故障,流量會自動切走。

而且這個切換是:

  • 不需要 VM 重開

  • 不需要人介入

  • 對使用者幾乎無感


三、Switch 層容錯:別讓 Single Point of Failure 混進來

網卡有備援,但交換器只有一台?那還是白搭。

常見 Nutanix 建議架構:

  • 雙 Top-of-Rack Switch

  • Host 的 NIC 分別接到不同 Switch

  • 搭配:

    • LACP(MLAG / VPC / VSX)

    • 或 Active-Backup(不吃 LACP)

這樣做的好處是:

  • Switch A 掛了 → Switch B 繼續撐

  • 升級韌體不用停機

  • 避免「一台 Switch = 整個叢集命門」

一句話總結:

Host 要雙網卡,Switch 也要雙人格。


四、VLAN 與流量分離:容錯不只是活著,還要活得好

很多人忽略一件事:
所有流量都混在同一條 VLAN,等於把雞蛋放同一個籃子。

Nutanix 常見的流量分離方式:

  • Management VLAN

  • Storage / CVM Replication VLAN

  • VM Data VLAN

  • Backup / Replication VLAN(視需求)

這樣的好處有三個:

  1. 避免 VM 爆流量影響儲存同步

  2. 故障排除時更好抓問題

  3. 安全與 QoS 控制更清楚

在 AHV 環境中,這些設定可以直接在:

  • Open vSwitch

  • Prism UI
    完成,不需要外掛一堆複雜元件。


五、AHV 的「靜默容錯」:壞了你可能都不知道

這是很多第一次用 AHV 的人會嚇到的一點:

網路斷了一條,你的 VM 什麼反應都沒有。

原因在於:

  • OVS 會即時偵測 Port 狀態

  • Bonding 立刻切換 Active NIC

  • CVM 間的 Storage Traffic 自動重路由

除非你去看:

  • ovs-vsctl

  • Prism 的 Network Health

否則你只會看到:

「欸?剛剛是不是有人在動線?」


六、跨站與災難復原:網路斷了也不怕資料不見

在進階場景中,Nutanix 的容錯不只停留在單一機房。

Metro / DR 架構搭配:

  • Leap

  • Near-Sync Replication

  • Witness VM

即使發生:

  • Site A 網路中斷

  • 或整個站點失聯

只要仲裁與設定正確:

  • VM 可以在 Site B 啟動

  • 資料一致性仍可維持

這裡的關鍵不是「網路不斷」,
而是 斷了之後,誰有資格接手。


七、常見誤區(踩過的人都懂)

最後分享幾個真實世界最常見的地雷:

❌ 只做 Host 雙網卡,Switch 單台
❌ LACP 沒設定好,結果變成假備援
❌ Storage 流量跟 VM 流量全混
❌ 沒監控 NIC Error / Packet Drop
❌ 測試只靠「理論上沒問題」

Nutanix 的容錯很強,
但前提是:你真的有照它的設計邏輯走。


結語:容錯不是保險,是基本配備

在 Nutanix 的世界裡,
網路容錯不是高階功能、不是選配、不是「有預算再說」。

它比較像安全帶——

平常你感覺不到它的存在,但沒有它,你一定會後悔。

如果你已經有:

  • Palo Alto 防火牆

  • Aruba 交換器

  • AD、NAS、Nutanix 並存的環境

那 Nutanix 的網路容錯,
其實正是把這整套 IT 架構「撐住」的那條骨架。


沒有留言:

張貼留言

Nutanix_14 DR 架構:讓你的資料比你的早餐還安全

  如果你的資料比你的生活還重要,那麼 災難復原(Disaster Recovery, DR) 就不是選項,而是必須。想像一下,你正準備喝下午茶,突然電腦爆炸、資料消失、老闆打電話來問「報告呢?」——這種場景是不是比恐怖片還刺激?不用怕,Nutanix 來救你。今天我們就來聊...