2025年12月16日 星期二

Nutainix_17 工程師一想到就會胃痛、但老闆覺得「不就拉條線嗎?」—— DR 的網路自動化與切換(Networking in DR)。

 

一、為什麼 DR 最容易死在「網路」?

在 DR 世界裡,有一句流傳已久的黑色幽默:

「系統還活著,但網路沒接上。」

伺服器?好好的。
Storage?同步完成。
VM?開得比員工還早。

結果使用者一連線——
404 Not Found,人生已迷路。

原因很簡單:
DR 不只是一個「把 VM 開起來」的問題,
而是一個**「網路能不能瞬間假裝什麼事都沒發生」的魔術秀**。


二、DR 網路切換,到底在切什麼?

很多老闆以為 DR 網路切換是這樣的流程:

  1. 災難發生

  2. 工程師按一個按鈕

  3. 世界恢復和平

但實際上,網路層要處理的事情包含:

  • IP 要不要換?

  • VLAN / VXLAN 要不要對?

  • Gateway 是不是同一個?

  • DNS 要不要改?

  • Firewall 規則還在嗎?

  • Load Balancer 還記得我是誰嗎?

簡單翻譯就是:

「你以為在搬家,其實是在幫整個社區換身分證。」


三、最傳統的 DR 網路:人工切換地獄

讓我們回顧一下史前時代 DR 網路切換流程

  • 工程師 A 改路由

  • 工程師 B 改 Firewall

  • 工程師 C 改 DNS

  • 工程師 D 在群組裡問:「現在是誰改錯了?」

這種 DR 的特色是:

  • RTO = 工程師喝完第三杯咖啡後

  • RPO = 視前一天睡眠品質而定

  • 成功率 = 50%(另一半是「奇怪,昨天明明可以」)

而最可怕的不是失敗,
半年沒演練,一切靠記憶力硬撐


四、IP 不換派 vs IP 一定要換派

在 DR 網路設計中,有一個宗教戰爭級的問題:

派系一:IP 不換派(L2 延伸派)

口號是:

「IP 不變,世界和平。」

做法是透過:

  • L2 Extension

  • VXLAN

  • EVPN

  • 各種讓網路工程師頭髮變少的技術

好處:

  • 應用程式完全不用改

  • DNS 不用動

  • 老闆覺得你很厲害

壞處:

  • 網路架構複雜到像迷宮

  • 延遲、風暴、廣播封包可能一起來

  • 出問題時,Debug 像在找平行宇宙入口


派系二:IP 會換派(L3 切換派)

口號則是:

「IP 可以換,但人生不能卡住。」

做法是:

  • DR Site 使用不同子網

  • 切換時改 Routing / DNS / LB

  • 讓系統「接受現實」

好處:

  • 架構清楚

  • 問題好找

  • 網路工程師晚上睡得著

壞處:

  • 切換邏輯一定要自動化

  • 沒寫好腳本會直接翻車


五、沒有自動化的 DR 網路,叫「祈禱模式」

如果你的 DR 網路切換流程是:

  • 開 Word

  • 翻 SOP

  • 一條一條手動下指令

  • 心中默念「拜託不要打錯」

那你用的不是 DR,
你用的是:

「工程師信仰系統(Engineer-as-a-Service)」

真正成熟的 DR 網路,一定要做到:

  • 一鍵切換

  • 可回復

  • 可重複演練

  • 不靠某個人腦袋裡的神秘知識


六、網路自動化,工程師的救贖

DR 網路自動化通常會包含:

1️⃣ Routing 自動切換

  • BGP / 靜態路由自動調整

  • Primary Site 掛了,路由自動指向 DR

2️⃣ DNS 自動更新

  • TTL 調低

  • Failover 時自動指到新 IP

3️⃣ Firewall / Security Policy 同步

  • 規則跟著 VM 走

  • 不會出現「系統起來了但被自己擋住」

4️⃣ Load Balancer 重指向

  • 健康檢查失敗即切換

  • 使用者無感,工程師感動

做到這一步,DR 才算是:

「工程設計,而不是勇氣測試。」


七、DR 演練,最容易露餡的就是網路

很多公司 DR 演練流程是:

  • VM 起來 ✔

  • 資料正常 ✔

  • 使用者連不上 ❌

然後會出現經典對話:

老闆:「不是說 DR OK?」
工程師:「系統 OK,網路還在想人生。」

其實 DR 演練真正的價值就在這裡——
讓網路問題在白天爆炸,而不是半夜。


八、雲端 DR:網路切換的另一個修羅場

到了多雲或混合雲環境,網路切換難度再升級:

  • On-Prem → Cloud

  • Cloud → Cloud

  • 不同雲的 VPC / VNet 邏輯完全不同

這時候你會發現:

「網路不是線,而是政治。」

好的 DR 網路自動化,會把差異包起來,
讓切換流程一致、可預期、可測試


九、真正成熟的 DR 網路長怎樣?

如果你的 DR 網路做到以下幾件事,
恭喜你,已經站在金字塔頂端:

  • 切換流程可以在白天執行

  • 不需要全公司陪你熬夜

  • 演練完不需要寫一篇悔過書

  • 新人照 SOP 也能完成切換

這代表你的 DR 網路不是靠英雄,
而是靠設計與自動化


十、結語:DR 網路不是炫技,是保命

最後送你一句 DR 工程師界的真理:

「災難發生時,你唯一來不及補的,就是網路設計。」

DR 的網路自動化與切換,
不是為了展現你多會下指令,
而是為了在最糟的時刻,
讓系統看起來像什麼事都沒發生。

而當某天真的按下那個切換按鈕時,
世界依然運轉、使用者毫無感覺、
你只需要淡淡地說一句:

「放心,網路我早就想好了。」

這,才是 DR 網路工程師最浪漫的時刻。

沒有留言:

張貼留言

Nutanix_18 災難恢復演練(DR Drill)

  那些年,我們假裝世界末日已經來了 在 IT 世界裡,有一種活動,大家表面上說很重要,但心裡都默默希望它永遠不要真的派上用場——它的名字叫做 災難恢復(Disaster Recovery, DR) 。 而 DR Drill(災難恢復演練) ,就是那種「假裝公司已經炸掉一次...