CGFT大數據中,冗余數據的保存是很重要的知識點。對于熟練的掌握程度,對于考試起著至關重要的作用。

作為一個分布式文件系統,為了保 證系統的容錯性和可用性,HDFS采用了多副本方式對數據進行冗余存儲。

通常一個數據塊的多個副本會被分不到不同的數據接單上,如下圖所示,數據塊1被分別存放到數據節點A和C上,數據塊2被存放在數據節點A和B上。

CGFT大數據

這種多副本方式具有以下幾個優點:

1、加快數據傳輸速度

當多個客戶端需要同時訪問同一個文件時,可以讓多個客戶端分別從不同的數據塊副本中讀取數據,這就大大加快了數據傳輸速度。


特許全球金融科技師CGFT一級


2、容易檢查數據錯誤

HDFS的數據節點之間通過網絡傳輸數據,采用多個副本可以很容易餓判斷數據傳輸是否出錯。

3、保 證數據的可靠性

即使某個數據節點出現故障失效,也不會造成數據丟失。