——同樣是網路,有人穩定三年,有人每季演練災難
一張表先看重點(給忙人)
| 項目 | ✅ 最佳實務 | ❌ 常見地雷 |
|---|---|---|
| 網卡 | 雙 NIC、不同 Switch | 雙 NIC 但同 Switch |
| Bond 模式 | Active–Backup | LACP 無 MLAG |
| 流量 | VLAN 分離 | 全部混一條 |
| Storage | 獨立 VLAN | 跟 VM 共用 |
| Switch | 雙 ToR | 單台核心 |
| 監控 | NIC Error + Alert | 出事才看 |
| 測試 | 實際拔線 | 只「相信」設計 |
| 文件 | 有拓樸 / IP 表 | 設定在工程師腦中 |
一、網卡與 Switch:備援不是數量,是「路徑」
✅ 最佳實務
-
每台 Host 至少 2 NIC
-
NIC 分別接到 不同 ToR Switch
-
Switch 電源、風扇雙備援
👉 重點:
路徑一定要分離,不然只是「看起來很多」。
❌ 常見地雷
-
兩張 NIC 插同一台 Switch
-
ToR Switch 單電源
-
Port Channel 接錯 Switch
📌 真實後果:
Switch 掛 → 整個 Cluster 直接躺平。
二、Bond 設定:穩定比理論頻寬重要
✅ 最佳實務(AHV 官方最愛)
-
不吃 Switch 設定
-
故障切換快
-
行為可預期
❌ 常見地雷
-
LACP 但:
-
沒開 MLAG / VSX
-
Switch 設定不一致
-
📌 真實後果:
-
封包黑洞
-
間歇性斷線
-
最難查的那種問題
三、VLAN 設計:不分流,遲早內傷
✅ 最佳實務
-
Management VLAN
-
Storage / CVM VLAN
-
VM Data VLAN
-
Backup / DR VLAN(視需求)
👉 好處:
-
效能穩定
-
問題好查
-
安全性提升
❌ 常見地雷
-
全部丟在 VLAN 1
-
Storage 跟 VM 共用
-
Backup 流量偷跑白天
📌 真實後果:
VM 一跑滿,Storage Latency 直接起飛。
四、Storage Network:AHV 穩定的靈魂
✅ 最佳實務
-
CVM Replication 獨立 VLAN
-
Non-routed
-
只走內部交換
❌ 常見地雷
-
Storage 走 Management VLAN
-
經過 Firewall / Router
-
QoS 沒設定
📌 真實後果:
-
Snapshot 慢
-
Rebalance 卡
-
Prism 無故變慢
五、Prism 與 VM Network:別手滑
✅ 最佳實務
-
VM Network 由 Prism 統一管理
-
VLAN 與實體文件對齊
-
變更有紀錄
❌ 常見地雷
-
手動改 OVS
-
VM NIC 掛錯 Network
-
臨時測試忘了刪
📌 真實後果:
某幾台 VM「只有它連不上」。
六、監控與告警:不是可選,是必須
✅ 最佳實務
-
Prism Alert 開好
-
NIC Error / Drop 監控
-
Switch 納入 LibreNMS / Zabbix
❌ 常見地雷
-
沒告警
-
Error 累積半年沒人看
-
出事才開監控
📌 真實後果:
「它不是突然壞,是你半年都沒發現。」
七、容錯測試:設計不等於真的能用
✅ 最佳實務
-
建置完成後實測:
-
拔網路線
-
關 Switch
-
-
有測試紀錄
❌ 常見地雷
-
「理論上可以」
-
「以前 ESXi 都這樣」
-
從沒真的拔過線
📌 真實後果:
第一次測試 = 真實事故。
八、文件與交接:最容易被低估的風險
✅ 最佳實務
-
網路拓樸圖
-
VLAN / IP 對照表
-
SOP + Checklist
❌ 常見地雷
-
設定只在某個人腦中
-
工程師離職 = 技術消失
-
新人不敢動
📌 真實後果:
系統沒壞,但大家都怕它壞。
九、一句話總結(技術長版)
AHV 網路不是難,是怕你「想太多卻做太少」。
少一點花式設定,多一點穩定與驗證。
沒有留言:
張貼留言