適用:
AHV + OVS + Active–Backup Bond
症狀:VM 斷線、Prism 進不去、Storage Latency 飆高
一、第一時間(30 秒內)
1️⃣ Prism 還進得去嗎?
-
⬜ 能 → 看 Alert
-
⬜ 不能 → 直接 SSH 上 Host
2️⃣ Cluster 還活著嗎?
重點看:
-
CVM 是否都
UP -
是否有 Host
DOWN
二、實體網路快速確認(最常出事)
3️⃣ NIC 還活著嗎?
看:
-
UP/DOWN -
有沒有 NIC 不見
4️⃣ Bond 狀態(第一優先)
你要看到:
-
Active slave:正常
-
Backup slave:存在
-
❌ 若只有一條 → 立刻查線 / Switch
三、OVS / VLAN 排查
5️⃣ OVS Port 是否存在
確認:
-
br0 存在
-
vlan10 / vlan20 / vlan30 是否都在
-
沒有奇怪的殘留 Port
6️⃣ VLAN Interface 狀態
看:
-
IP 是否還在
-
Interface 是否
UP
四、Storage / CVM 網路(最怕這段)
7️⃣ Storage Network 設定
檢查:
-
IP / Netmask 正確
-
沒跑回 Management VLAN
8️⃣ CVM 之間能互通嗎?
❌ Ping 不到:
-
高機率是 VLAN / Switch 問題
五、VM 層問題排查
9️⃣ VM 掛哪個 Network?
檢查:
-
NIC 是否掛對 VLAN
-
沒被誤刪 / 改網路
🔟 VM NIC 是否 UP
六、即時封包檢查(進階)
1️⃣1️⃣ 看封包有沒有進來
或指定 VLAN:
👉 沒封包 ≈ 上游 Switch
七、常見「症狀 → 指令」對照
❌ Prism 很慢
❌ VM 全斷
❌ Storage Latency 飆高
❌ Live Migration 失敗
八、Switch 端快速確認(你走過去前)
請網管幫忙看:
-
⬜ Host Port 是否
UP -
⬜ VLAN 是否允許
-
⬜ CRC / Error 有無暴增
-
⬜ 是否誤設 LACP
九、最後手段(緊急止血)
重啟 OVS(⚠️ 會短斷)
重啟 Network
⚠️ 只在非營業時段或災難狀況
十、排查順序口訣(背起來)
Bond → VLAN → Storage → VM → Switch
只要照這順序,99% 的 AHV 網路問題都能定位。
沒有留言:
張貼留言