2025年12月16日 星期二

Nutanix_15 如果災難發生時你在喝咖啡,Prism Central 幫你把事情做好了! 用幽默方式介紹如何用 Prism Central 統一管理 DR 計畫(Recovery Plans)

 


一、災難復原這件事,通常都在「沒時間」的時候發生

在 IT 世界裡,有一個殘酷的真理:
系統掛掉的時候,永遠不是你最有空的時候。

可能是:

  • 老闆正在簡報

  • 財務正在結帳

  • 客戶正在刷卡

  • 而你正在想「今天午餐要吃什麼」

這時候你腦袋裡不該再出現:
-「這台 VM 要先開還是後開?」
-「資料庫跟 App 的順序我上次寫在哪?」
-「DNS 要不要手動改?」

這些問題,都不該在災難當下才想起來。

而 Prism Central 的 Recovery Plans,存在的意義只有一個:
👉 讓你在災難來時,不用靠記憶力救公司。


二、Prism Central 是什麼?

(給還沒被 Nutanix 洗腦的朋友)

簡單說一句話:

Prism Central = 多個 Nutanix 叢集的「總司令部」

如果 Prism Element 是每一個叢集的「地方首長」,
那 Prism Central 就是:

  • 統一監控

  • 統一管理

  • 統一設定

  • 統一把事情變簡單

DR 計畫(Recovery Plans),正是 Prism Central 最適合「居高臨下」指揮的工作之一。


三、DR 計畫不是備份,是「復活順序表」

很多人一聽到 DR 就說:「啊我有備份啊。」

但事實是:

  • 備份 ≠ 可以馬上用

  • 備份 ≠ 服務會自己站起來

  • 備份 ≠ 老闆會原諒你

真正的 DR 計畫,包含的是:

  1. 哪些 VM 要復原

  2. 先誰、後誰

  3. 等多久

  4. 網路要不要改

  5. IP 要不要換

  6. 失敗時怎麼回頭

這些東西,如果靠人工操作:

  • 正常時很複雜

  • 緊急時會直接變災難二次傷害

Prism Central 的 Recovery Plans,
就是把這些「人類容易出錯的流程」,
變成「按一次就好」。


四、在 Prism Central 建立 Recovery Plan,其實沒那麼可怕

放心,這不是那種「要寫 30 頁 SOP 才能開始」的東西。

基本流程其實很直白:

1️⃣ 選來源與目標叢集

你會先告訴系統:

  • 主要叢集(Production)

  • DR 叢集(災難時要接手的地方)

就像你先跟大家說:

「如果我不在公司,就找副手。」


2️⃣ 選 VM(不用一台一台手挑)

你可以用:

  • VM 群組

  • 保護群組(Protection Domain)

  • 標籤(Tag)

來選 VM。

這代表什麼?
👉 你不用再用滑鼠點到手抖。

只要 VM 分類有做好,
DR 計畫就會顯得你是一個「早就想好的人」。


3️⃣ 設定啟動順序(這一步超重要)

這裡是 Recovery Plan 的靈魂。

你可以告訴 Prism Central:

  • 第 1 階段:資料庫先起來

  • 第 2 階段:應用伺服器

  • 第 3 階段:Web / API

  • 每一階段中間要不要等 30 秒或 2 分鐘

這等於是你在系統裡說:

「拜託,先讓資料庫醒來,
不然 App 起來只會更痛苦。」

而且這個順序:

  • 平常不用背

  • 災難時不用想

  • 半夜也不用靠直覺操作


五、網路與 IP:最容易讓人崩潰的地方

災難復原時,最常聽到的一句話是:

「VM 起來了,但連不到。」

Recovery Plans 可以幫你處理:

  • 網路對應(Network Mapping)

  • IP 是否保持或改變

  • 是否在 DR 站點使用不同 VLAN

這代表什麼?
👉 你不用在災難時邊 Google 邊改設定。

Prism Central 已經幫你把:
「原本在哪個網路」
「到 DR 要去哪個網路」
先對好。


六、Test Mode:DR 最大的良心發現

很多公司 DR 計畫的真實狀態是:

「我們有寫,但從來沒跑過。」

這在 IT 世界裡,
跟「我有買滅火器,但不知道會不會噴」是同一件事。

Prism Central 的 Recovery Plans 有 Test Mode,可以:

  • 不影響正式環境

  • 在隔離網路中測試

  • 完整跑一次復原流程

這讓你可以在:

  • 老闆不在

  • 系統沒掛

  • 心情還算穩定

的時候,
確認 「真的能復原」


七、Runbook 自動化:你不是一個人在救災

Recovery Plan 還可以搭配:

  • 前置 Script

  • 後置 Script

  • API 或自動化流程

例如:

  • 復原前先停某些服務

  • 復原後自動檢查狀態

  • 或通知某個系統「我回來了」

這時候你會發現:
👉 你不是在救災,是在指揮救災。


八、統一管理的真正價值:不是技術,是安心

當你用 Prism Central 統一管理 DR 計畫,你得到的其實不是「功能」,而是三件事:

  1. 你知道發生事時該按哪一個鍵

  2. 你不用靠記憶力或英雄主義

  3. 你可以很冷靜地說:我們有計畫

在 IT 世界裡,
真正專業的人,
不是「會在災難時很忙」,
而是「讓災難時不用那麼忙」。


九、結語:

最好的 DR,是你希望永遠用不到,但隨時準備好

Prism Central 的 Recovery Plans,
不是讓你炫技,
也不是讓你寫更多文件。

它的存在目的只有一個:

在最糟的時刻,
讓你看起來像早就預料到這一天。

而這,
才是 DR 的最高境界。

沒有留言:

張貼留言

Nutanix_18 災難恢復演練(DR Drill)

  那些年,我們假裝世界末日已經來了 在 IT 世界裡,有一種活動,大家表面上說很重要,但心裡都默默希望它永遠不要真的派上用場——它的名字叫做 災難恢復(Disaster Recovery, DR) 。 而 DR Drill(災難恢復演練) ,就是那種「假裝公司已經炸掉一次...