認識數據中心兩個關鍵指標RTO和RPO

認識數據中心兩個關鍵指標RTO和RPO

2016/03/02 來源:計算機世界

用 來描述和評價數據中心有很多專有參數和指標,通過這些數據可以反映出數據中心的各種運行狀態,其中有兩個關鍵指標必須有所了解: RTO和RPO。RTO和RPO是數據中心災難恢複方面的重要參考指標。現在的數據中心對業務的連續性有苛刻要求,但是故障不可避免,一旦發生了故障就需 要啟動備份機制,確保業務的連續性,所以現在數據中心都有較為完善的容災機制,RTO和RPO可以很好地反映出數據中心容災性能如何。這兩個參數是數據中 心在運維過程中,一定要重點關注的指標。這個指標的好與差,是基於數據中心現有的各種綜合運行情況評估得出的真實結果,反映當前數據中心在災難恢複方面的 修復能力。下面讓我們來詳細認識一下這兩個參數的真面目。

RTO

RTO(Recovery Time Objective,復原時間目標)是數據中心可容許服務中斷的時間長度。比如說服務發生後半天內便需要恢復,RTO數值就是十二小時。RTO具體時間長 短只是從故障發生後,從數據中心系統宕機導致應用停頓之刻開始,到數據中心系統恢復至可以支持各部門運作之時,此兩點之間的時間段。RTO是反映數據中心 業務恢復的及時性指標,表示業務從中斷到恢復正常所需的時間,RTO數值越小,代表容災系統的數據恢復能力越強,數據中心可以部署很多容災系統,來獲取最 小的RTO,但這意味著投入大量資金。提升RTO的常用技術有:磁帶恢復、人工遷移、應用系統遠程切換,這幾種技術的RTO的表現如表1所示:

部署不同的容災技術將獲得不同的RTO值,從業務連續性角度考慮,肯定希望RTO數值越小越好,尤其是很多網際網路數據中心,中斷幾分鐘都會損失數百萬的 成交量,這些數據中心往往不惜一切代價要確保數據中心不中斷運行。應用系統的自動切換涉及到數據中心網絡、伺服器、存儲等多方面的技術,不管數據中心任何 一個位置出現了故障,這些部分都會啟動軟體系統進行切換,可以是設備之間的切換,也可能是集群之間的切換,還可能是異地數據中心切換,通過應用系統自動切 換將業務轉移到其它正常的系統中,然後再對故障設備進行排查。將故障原因找到並排除後,再將業務切回到原有系統中,應用系統切換做得好,這個過程不會引起 業務的二次中斷,讓業務無感知切換。

RPO

RPO(Recovery Point Objective,復原點目標)是指數據中心能容忍的最大數據丟失量,是指當業務恢復後,恢復得來的數據所對應時間點,RPO取決於數據中心數據恢復到 怎樣的更新程度,這種更新程度可以是上一周的備份數據,也可以是昨天的數據,這和數據備份的頻率有關,為了改進RPO,必然要增加數據備份的頻率才行。 RPO是反映數據中心恢複數據完整性的指標。在同步數據複製方式下,RPO等於數據傳輸時延的時間,在異步數據複製方式下,RPO基本為異步傳輸數據排隊 的時間。提升RPO的常用技術有:磁帶備份、定期數據複製、異步數據複製、同步數據複製等,這幾種技術的RPO的表現如表2所示:

RPO指標考驗著數據中心數據複製能力,這並不意味單純增加數據複製的頻率即可,因為應用的尖峰時段無法進行備份操作,而且備份數據本身所花費的時 間也會過長,數據複製頻率增加到一定程度反而會降低RPO時長。現在出現鏡像技術和快照技術可以有效地改進RPO,往往可以將RPO縮小到秒級。

RTO和RPO指標並不是孤立的,而是從不同角度來反映數據中心的容災能力。我們用下面的圖1說明下RTO和RPO兩個指標在數據中心故障處理過程中的關係:

從圖1不難看出,RPO指標來自於故障發生前,而RTO指標來自故障發生後,兩者的數值越小,就能有效縮短業務正常到業務過渡期的時間間隔,單一地提升 RTO或RPO指標也可以縮減業務故障到過渡期的時間,具體從哪個指標上來改善,就要結合數據中心的實際情況分析,提升那個指標代價最小,效果更明顯。當 然完美的方案當然是RTO和RPO都為零,這表示當故障發生後,系統立即回復,而且完全沒有數據丟失,要達到這樣的目標系統設計是及其複雜的,而且造價也 是非常昂貴的,也不一定有這個必要。

RTO和RPO指標對於數據中心非常關鍵和重要,RTO主要考驗數據中心發生故障時,業務切換到容災系統或者備份系統的能力,RPO主要考驗數據中心數據 備份能力,尤其是當數據中心發生故障時,仍要具備一定的數據備份能力。但數據中心也不能過分地追求RTO和RPO,因為RTO和RPO越小,意味著投資將 越大。而總體投入成本越高,投資回報率將越低,從經濟角度考慮,最好的容災解決方案不一定是效益最好的容災方案,容災方案的總體投入和投資回報也是必須要 考慮的設計指標,最佳的解決方案必須是在RTO、RPO、運維及價錢多方面,都能夠達到平衡。所以要理性看待RTO和RPO,一方面我們努力設計一些新的 容災技術,另一方面還要簡化容災技術的複雜度和造價,不要一再去追求RTO和RPO指標,有時數據中心有些缺陷,也是一種缺陷美。過度追求RTO和RPO 指標,甚至做到兩者都是零,反而讓數據中心更加臃腫,運維難度大,耗費資金過多,數據中心要避免陷入單純追求提升兩個指標的怪圈,結合數據中心實際情況, 因地制宜地適當提升兩個指標,才是正道。(via 企業網D1Net,作者:harbor )

發表留言