OpenShift on Cloud de Confiance by S3NS 的災難復原

災難復原 (DR) 是維持應用程式持續運作的必要措施,這些應用程式部署在Cloud de Confiance的 OpenShift Container Platform 上。本文將概略說明 OpenShift on Cloud de Confiance的 DR 架構選項,協助貴機構在發生災難時,盡量縮短停機時間並快速復原。

本文件適用於系統管理員、雲端架構師和應用程式開發人員,他們負責維護在Cloud de Confiance上部署的 OpenShift Container Platform 應用程式可用性和復原能力。

本文是系列文章之一,著重於應用程式層級的策略,確保工作負載在發生故障時仍維持高可用性,並能快速復原。本系列文件包括:

災難復原規劃

規劃災難復原是雲端執行正式環境工作負載的重要環節。雖然 OpenShift 和 Cloud de Confiance 提供強大的基礎架構層級備援功能,但您也必須設計及設定應用程式,以便從災難性故障中快速復原。

有效的 DR 規劃需要採取分層做法。首先,請為應用程式和系統定義明確的復原時間目標 (RTO) 和復原點目標 (RPO),以便快速重新部署。

最後,您的密鑰和憑證也必須可供復原,並受到安全管理。考量所有這些因素後,您就能建立 DR 狀態,在不同區域快速建立新的 OpenShift 叢集,或容錯移轉至非使用中的次要叢集。在發生故障前,這個次要叢集會保持離線狀態,故障發生時,系統會啟動並連線,接管作業,盡量減少停機時間。

災難復原架構

您可以使用不同的部署架構選項,在 Cloud de Confiance上透過 OpenShift 進行災難復原。這些選項在成本、複雜度和可用性方面各有不同。下表概略說明這些架構:

架構 說明 用途 優點 缺點
主動/被動 一個叢集處於啟用狀態,負責處理所有流量,另一個叢集則處於被動狀態,隨時準備接管。資料會複製到被動叢集。 適用於 RTO 和 RPO 需求適中的應用程式。 實作較簡單,待命叢集的費用較低。 由於容錯移轉時間較長,且資料同步作業可能延遲,因此 RTO 較高。
有效/無效 與主動-被動類似,但非作用中叢集不會使用,直到發生 DR 事件為止。系統會定期備份資料。 適合成本敏感型環境,允許較高的 RTO 和 RPO。 閒置時營運成本較低,適合用於未主動執行的次要系統 (冷災難復原) 的災難復原。 由於啟動和同步時間較長,RTO 較高,但資料可能過時。
主動-主動 兩個叢集都會處於啟用狀態,透過負載平衡處理流量,並在不同區域之間複製資料。 需要最短停機時間和高可用性的重要應用程式。 最低 RTO 和 RPO,持續可用。 複雜度和成本最高,需要穩固的網路和資料同步。

後續步驟