在CGFT中大數據課程中,HBase是重要知識點。下文是對HBase的介紹,一起了解一下!
HBase是一個高可靠、高性能、面向列、可伸縮的分布式數據庫,是谷歌bigtable的開源實現。主要用來存儲非結構化和半結構化的松散數據。
HBase的目標是處理很龐大的表,可以通過水平擴展的方式,利用廉價計算機集群處理由超過10億行數據和數百萬列元素組成的數據表。
下圖主要描述了Hadoop生態系統中HBase與其他部分的關系。HBase利用Hadoop MapReduce來處理HBase中的海量數據,實現高性能計算。
利用zookeeper作為協同服務,實現穩定服務和失敗恢復,利用HDFS作為高可靠的底層存儲,利用廉價集群提供海量數據存儲能力。當然,HBase也可以直接使用本地文件系統而不用HDFS作為底層數據存儲方式。
不過,為了提高數據可靠性和系統的健壯性,發揮HBase處理大數據量等功能,一般都使用HDFS作為HBase的底層數據存儲方式。此外,為了方便在HBase上進行數據梳理,sqoop為HBase提供了高效、便捷地RDBMS數據導入功能,pig和hive為HBase提供了高層語言支持。
HBase是bigtable的開源實現,下圖主要給出了HBase和bigtable的底層技術對應關系!

聲明:本文章為學習相關信息展示文章,非課程及服務內容文章,產品及服務詳情可咨詢網站客服微信。
文章轉載須注明來源,文章素材來源于網絡,若侵權請與我們聯系,我們將及時處理。


