企業活用 VMware SRM 災難回復方案 大量自動化功能大幅縮短還原和受影響時間
在以往普遍認知中,總認為 IT災難離我們很遠,但隨各行各業日常已收集、儲存和使用大量業務相關數據,不少企業的 IT 負責人已發現,企業數據中心內的系統穩定性亦影響企業能否持續營運 (即 Business Continuity) ,一旦系統崩潰或出現數據丟失等問題,企業可能因業務癱瘓造成不可估量的損失,因此保證業務的持續性和數據高可靠性和可用性,已成為企業 IT 負責人必須考慮的問題,究竟選擇災備方案時有甚麼需要留意的地方?以下就由 Nexus Solutions Limited 的系統顧問易民傑 (Andy Yik) 和資深業務經理李懷恩 (Ryan Lee) 為大家分享他們的看法。
兩個選購災難回復方案必知指標
Andy 表示企業選擇災難回復方案時,需考慮所選用的方案會否對原有業務系統帶來影響,例如部署時所需的金錢和人力資源成本。當中人力資源成本包括部署、日常維護和管理時會否增加 IT 人員工作量,甚至影響正常業務運作。災難發生時業務會由生產中心切換到備份中心,因此選擇災難回復方案時須考慮是否提供定時自動數據同步和查核對比功能,以檢驗兩個中心的數據是否一致,即生產中心任何業務處理過程的改變,都完整複製到備份中心,另外由於災難回復方案主要為生產中心發生災難時,可在規定時間切換到備份中心。因此系統恢復時間大幅減少,避免數據丟失之餘並快速向用戶提供服務。

Andy 和 Ryan 不約而同認為企業選擇災難回復方案時必須考慮 RTO 和 RPO 這兩大因素,RTO (Recovery Time Object) 是指災難發生後,從 IT 系統宕機導致業務停頓到系統恢復至各部門業務正常營運的時間就是 RTO,它是反映業務恢復及時性的指標,數值越小代表系統的數據恢復力越強。而 RPO (Recovery Point Objective) 是指從系統和應用數據能恢復至可支持各部門業務運作,系統及生產數據應恢復到怎樣的更新程度,它是反映恢復數據完整性的指標。在同步數據複製方式下,RPO 等於數據傳輸延遲時間,在異步數據複製下,RPO 為異步傳輸數據排隊時間,發生災難後啟動災難回復系統完成數據恢復,RPO 就是新恢復業務系統的數據損失量。
傳統災難回復方案還原時間長
Ryan 表示企業部署傳統災難回復方案時,需為備份中心選購跟生產中心相同的硬件配置,避免因硬件兼容等問題延長回復時間和降低系統回復成功率。由於備份中心轉用虛擬伺服器方案後,成本只是實體伺服器方案的 40%,因此近年不少企業為節省備份中心部署成本均轉用虛擬伺服器方案,但市面上大部份災難回復方案並未針對虛擬伺服器而設,令 IT 人員仍要花大量時間手動進行 IP Address、保安和一系列自訂設定,才可完成整個災難回復工作。Andy 表示以往「倒帶」的傳統災難回復方案,最少需要 5 小時甚至 1-2 日才完成整個災難回復過程,如涉及跨境的話回復時間會更長。他透露曾有中資保險公司客戶模擬測試整個災備回復過程,因該災備中心和生產中心分別位於內地和香港,結果花了差不多 1 天時間才將備份檔案運回內地,再花 2 天進行「倒帶」和回復相關應用程式等工作,不但所用的人力物力非常多,而且所需復原時間(即 RPO)相當長,加上 RTO 亦非常高。
VMware 自動化方案大幅簡短災難回復時間
近年企業為降低成本、提高效率和靈活性均轉用虛擬化伺服器,Gartner報告指出今年伺服器工作負荷會達到 71% 虛擬化程度,有見及此專注虛擬化市場的 VMware,亦為企業推出災備回復方案 – VMware Site Recovery Manager (以下簡稱 SRM)。Andy 表示 VMware SRM 跟其他災備回復相比,它不但有大量針對虛擬化伺服器災備中心的設計,更提供大量自動化工具助客戶在災難回復時快速完成相應設定,例如最新 6.1 版本所整合的 VMware NSX,協助 IT 人員快速將生產中心伺服器的防火牆等保安設定快速又自動化地在災備中心生效,而它的延伸網域功能令 IT 人員不需再重設災備中心伺服器的 IP Address,令企業可使用更少資源下大幅降低 RTO 和 RPO。他表示使用 VMware SRM 方案後企業只會損失災難後 15 分鐘至 1 小時的業務數據,災備中心只需 1 小時即可變成生產中心投入業務運作。

Andy 透露之前一位中資保險公司客戶,由傳統災難回復方案轉用 Nexus Solutions 提供的 VMware SRM 後,Nexus Solutions 先將客戶的數據庫及其應用程式轉移到虛擬系統上,即時提供雙機 (HA) 保護,再透過 VMware SRM 的 Preseeding 功能將生產中心和災備中心數據進行對比,將檔案中的不同之處 (即 Delta 備份) 透過網絡 (數據專線) 將資料由香港生產中心傳送到上海災備中心。這種螞蟻搬家方式令災難回復模擬測試由以往耗時 2-3 日大幅縮短至 1 小時,而客戶亦可透過 VMware SRM 的測試功能,在零停機的情況下進行災備測試,為企業節省大量有關的人力物力。除此之外,Nexus Solutions 亦曾為使用 VMware SRM 客戶進行災難回復,6TB 的 DB2 數據受惠於 VMware 的 Preseeding 功能下,網絡只需 12 小時就完成對比所有數據和還原所有資料,大大降低客戶的 RTO 和 RPO。
Nexus Solutions 擁有大量災難回復方案經驗
Nexus Solutions 作為 VMware 多年的合作伙伴,為客戶提供一站式網絡虛擬化的解決方案,不少員工亦成功考取 VMware Server Virtualization 和 Management Operation 範疇的証書,他們的專業資格助不同行業和各地客戶,透過 VMware SRM 進行災難回復方案部署,為客戶提供一個較低成本、低 RTO 和 RPO 的災難回復方案。