區(qū)域級全棧容災丨航天壹進制數(shù)據(jù)中心容災解決方案及實踐
數(shù)字時代,數(shù)據(jù)即資產(chǎn),然而近年來關(guān)于數(shù)據(jù)中心災難事件層出不窮。2022年,谷歌和甲骨文公司位于倫敦的云數(shù)據(jù)中心出現(xiàn)故障,導致部分網(wǎng)站癱瘓;2021年,歐洲云計算巨頭OVH位于法國斯特拉斯堡的機房發(fā)生嚴重火災,其中一個數(shù)據(jù)中心被完全燒毀;2020年8月,澳洲電信Telstra位于英國倫敦的托管數(shù)據(jù)中心由于UPS故障引起火災……
隨著我國“東數(shù)西算”工程的啟動,數(shù)據(jù)中心作為數(shù)字化轉(zhuǎn)型發(fā)展的關(guān)鍵基礎(chǔ)設(shè)施,被提到了重要的地位。此前,國家層面就提出要高度重視數(shù)字經(jīng)濟高質(zhì)量發(fā)展,推動建設(shè)全國一體化的國家大數(shù)據(jù)中心協(xié)同創(chuàng)新體系,加快新型基礎(chǔ)設(shè)施建設(shè)布局。
與此同時,各類組織把應(yīng)用、數(shù)據(jù)、系統(tǒng)集中處理,數(shù)據(jù)中心作為托管各種業(yè)務(wù)系統(tǒng)所需的服務(wù)器、存儲、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施資源,其數(shù)據(jù)安全面臨的風險越來越高。災難性的突發(fā)事件發(fā)生時如何保障核心業(yè)務(wù)7x24小時不間斷運行,成為業(yè)務(wù)安全的首要問題。加上傳統(tǒng)數(shù)據(jù)中心運維集中、服務(wù)多樣,不僅具有新型的工作負載,還面臨著資源利用率低、切換業(yè)務(wù)時間長、切換數(shù)據(jù)易丟失、缺少演練等的挑戰(zhàn),其業(yè)務(wù)連續(xù)性與災備保護建設(shè)需要重新定義。
基于此,航天壹進制建立統(tǒng)一架構(gòu)、覆蓋不同用戶和不同災備訴求的軟性災備能力中心,并推出數(shù)據(jù)中心級容災解決方案,在真正發(fā)生災難時確保數(shù)據(jù)不丟失、業(yè)務(wù)不停機。
數(shù)據(jù)中心容災解決方案
區(qū)域級全棧容災的能力展現(xiàn)
數(shù)據(jù)中心災難事件通常包含運行故障事件、緊急突發(fā)事件、重大災難事件,為了應(yīng)對不同程度的災難事件,增強組織韌性,航天壹進制經(jīng)過前期災備需求分析,對災備指標分級、業(yè)務(wù)分類,通過全面的災備建設(shè)規(guī)劃,采用多層級容災技術(shù)提供覆蓋多場景的容災方案,廣泛滿足各類組織容災需求。
方案優(yōu)勢:
·專業(yè)災備建設(shè)規(guī)劃:通過對用戶數(shù)據(jù)中心業(yè)務(wù)進行現(xiàn)狀調(diào)研、RA、BIA分析,得出信息系統(tǒng)RTO、RPO,綜合業(yè)務(wù)關(guān)注的多要素進行業(yè)務(wù)分類,根據(jù)災備指標分級、業(yè)務(wù)分類,結(jié)合“成本風險平衡原則”,進行災備策略規(guī)劃,對不同類別系統(tǒng)選擇合理的災備技術(shù)開展容災建設(shè)。
·多場景容災:廣泛覆蓋本地應(yīng)急、同城雙活、異地主備和兩地三中心等。為預防數(shù)據(jù)中心內(nèi)部緊急突發(fā)事件,比如運行故障、勒索病毒等,通過在本地構(gòu)建應(yīng)急容災區(qū)域,實現(xiàn)應(yīng)用和數(shù)據(jù)庫的分鐘級接管;為預防區(qū)域級災難,通過在同城或異地構(gòu)建跨區(qū)域災備中心,從數(shù)據(jù)層和應(yīng)用層分別采用多種容災技術(shù)路線,實現(xiàn)面向關(guān)鍵應(yīng)用與數(shù)據(jù)庫的“準雙活“容災,當區(qū)域級災難發(fā)生時,通過災備切換平臺實現(xiàn)快速容災切換。
·多層級容災:提供面向不同級別災難事件的多層級容災能力,通過應(yīng)急容災技術(shù)實現(xiàn)業(yè)務(wù)的快速接管,解決數(shù)據(jù)中心內(nèi)部緊急突發(fā)事件導致的業(yè)務(wù)中斷;通過網(wǎng)絡(luò)、應(yīng)用負載均衡、數(shù)據(jù)庫復制、文件復制、存儲復制等技術(shù)實現(xiàn)跨區(qū)域數(shù)據(jù)中心容災,解決區(qū)域級災難事件導致的業(yè)務(wù)中斷。
·全流程災備切換:業(yè)務(wù)系統(tǒng)涉及應(yīng)用、中間件、數(shù)據(jù)庫、網(wǎng)絡(luò)等眾多對象,用戶根據(jù)每個業(yè)務(wù)流以及實際切換需求通過災備管理平臺進行可視化自由編排。通過切換編排功能,以所見即所得的模式讓災備流程的配置更為自由高效。當災難事件發(fā)生時,通過災備管理平臺實現(xiàn)快速容災切換,滿足RTO指標要求。
·預案管理和容災演練:通過災備管理平臺進行場景預案構(gòu)建、管理和更新,同時為了驗證預案的有效性,采用災備管理平臺開展日常容災演練,將容災演練進行平臺化管控,整個切換過程自動化完成,極大減少了人為干預,最大程度保障切換成功率,降低RTO。
典型行業(yè)案例
保障企業(yè)安全可靠運營的落地實踐
01 國內(nèi)某政府機關(guān)
隨著各類業(yè)務(wù)的快速發(fā)展和業(yè)務(wù)體量的增長,使得機關(guān)總署及各地分支信息系統(tǒng)服務(wù)器架構(gòu)變得非常復雜。國內(nèi)某政府機關(guān)預建立南北雙中心,實現(xiàn)數(shù)據(jù)大集中和統(tǒng)一管控,并通過負載均衡實現(xiàn)南方區(qū)域訪問南數(shù)據(jù)中心,北方區(qū)域訪問北數(shù)據(jù)中心。航天壹進制為該客戶南北數(shù)據(jù)中心OA應(yīng)用提供本地實時保護和應(yīng)急接管建設(shè),對核心數(shù)據(jù)庫提供數(shù)據(jù)備份與快速掛載建設(shè),對文件數(shù)據(jù)、人大金倉、達夢、高斯等國產(chǎn)化數(shù)據(jù)庫以及華為云提供備份與應(yīng)急恢復建設(shè)等,提高南北數(shù)據(jù)中心各系統(tǒng)安全防護等級與能力,避免災難或重大事故的發(fā)生。
02 國內(nèi)某大型集團公司
隨著央企集團正在進行數(shù)字化轉(zhuǎn)型,應(yīng)用和數(shù)據(jù)安全以及業(yè)務(wù)連續(xù)性需要得到保障,國內(nèi)某大型集團公司亟待解決業(yè)務(wù)系統(tǒng)遷移的效率和風險問題,完成無縫系統(tǒng)數(shù)據(jù)遷移;且系統(tǒng)平臺獨立運行,未將下屬企業(yè)集中管控。航天壹進制為該客戶的本地兩數(shù)據(jù)中心采用一般數(shù)據(jù)定時備份,核心數(shù)據(jù)實時備份,核心應(yīng)用應(yīng)急接管和應(yīng)急演練策略;異地數(shù)據(jù)中心采用數(shù)據(jù)級同步復制保護策略,分區(qū)域、分等級、分策略、分目標進行集中安全防護,保障數(shù)據(jù)安全不丟失,業(yè)務(wù)連續(xù)不間斷,也極大地降低災備運維難度和運維成本。
結(jié)語:航天壹進制數(shù)據(jù)中心容災解決方案的制定和實施對于保障企業(yè)的業(yè)務(wù)連續(xù)性和數(shù)據(jù)安全至關(guān)重要。通過全面的風險評估和需求分析,選擇適合的容災策略和建設(shè)容災設(shè)施,定期進行容災測試和演練,并健全數(shù)據(jù)保護安全措施,優(yōu)化安全運行機制,可以有效減少數(shù)據(jù)中心故障的影響并保障企業(yè)的正常運營,提升安全保障能力的同時,為企業(yè)管理、科研生產(chǎn)等相關(guān)業(yè)務(wù)的穩(wěn)定運營提供強有力的技術(shù)保障。