2025年12月14日 星期日

Nutanix_5 AHV「出事時」網路排查指令清單

 


適用:
AHV + OVS + Active–Backup Bond
症狀:VM 斷線、Prism 進不去、Storage Latency 飆高


一、第一時間(30 秒內)

1️⃣ Prism 還進得去嗎?

  • ⬜ 能 → 看 Alert

  • ⬜ 不能 → 直接 SSH 上 Host

ssh nutanix@<AHV_HOST_IP>


2️⃣ Cluster 還活著嗎?

cluster status

重點看:

  • CVM 是否都 UP

  • 是否有 Host DOWN


二、實體網路快速確認(最常出事)

3️⃣ NIC 還活著嗎?

ip link show | egrep "eth|enp"

看:

  • UP / DOWN

  • 有沒有 NIC 不見

4️⃣ Bond 狀態(第一優先

ovs-appctl bond/show bond0

你要看到:

  • Active slave:正常

  • Backup slave:存在

  • ❌ 若只有一條 → 立刻查線 / Switch


三、OVS / VLAN 排查

5️⃣ OVS Port 是否存在

ovs-vsctl show

確認:

  • br0 存在

  • vlan10 / vlan20 / vlan30 是否都在

  • 沒有奇怪的殘留 Port


6️⃣ VLAN Interface 狀態

ip addr show vlan10 ip addr show vlan20

看:

  • IP 是否還在

  • Interface 是否 UP


四、Storage / CVM 網路(最怕這段)

7️⃣ Storage Network 設定

ncli cluster get-storage-network

檢查:

  • IP / Netmask 正確

  • 沒跑回 Management VLAN


8️⃣ CVM 之間能互通嗎?

allssh ping <其他CVM_Storage_IP>

❌ Ping 不到:

  • 高機率是 VLAN / Switch 問題


五、VM 層問題排查

9️⃣ VM 掛哪個 Network?

acli vm.get <VM_NAME>

檢查:

  • NIC 是否掛對 VLAN

  • 沒被誤刪 / 改網路


🔟 VM NIC 是否 UP

virsh domiflist <VM_NAME>


六、即時封包檢查(進階)

1️⃣1️⃣ 看封包有沒有進來

tcpdump -i bond0 -n

或指定 VLAN:

tcpdump -i vlan20 -n

👉 沒封包 ≈ 上游 Switch


七、常見「症狀 → 指令」對照

❌ Prism 很慢

ovs-appctl bond/show bond0 ncli cluster get-storage-network


❌ VM 全斷

ovs-vsctl show ip link show


❌ Storage Latency 飆高

allssh iostat allssh ping <CVM_IP>


❌ Live Migration 失敗

ovs-vsctl show ip addr


八、Switch 端快速確認(你走過去前)

請網管幫忙看:

  • ⬜ Host Port 是否 UP

  • ⬜ VLAN 是否允許

  • ⬜ CRC / Error 有無暴增

  • ⬜ 是否誤設 LACP


九、最後手段(緊急止血)

重啟 OVS(⚠️ 會短斷)

systemctl restart openvswitch

重啟 Network

ifdown bond0 && ifup bond0

⚠️ 只在非營業時段或災難狀況


十、排查順序口訣(背起來)

Bond → VLAN → Storage → VM → Switch

只要照這順序,99% 的 AHV 網路問題都能定位

沒有留言:

張貼留言

Nutanix_14 DR 架構:讓你的資料比你的早餐還安全

  如果你的資料比你的生活還重要,那麼 災難復原(Disaster Recovery, DR) 就不是選項,而是必須。想像一下,你正準備喝下午茶,突然電腦爆炸、資料消失、老闆打電話來問「報告呢?」——這種場景是不是比恐怖片還刺激?不用怕,Nutanix 來救你。今天我們就來聊...