學習CGFT課程,首先就是需要考生對CGFT相關知識點的掌握。今天,融躍小編為廣大考生分享一下什么是流計算和圖計算。
流計算:
流數據也是大數據分析中的重要數據類型,流數據(或數據流)是指在時間分布和數量上無限的一系列動態數據集合體,數據的價值隨著時間的流逝而降低,因此,必須采用實時計算的方式給出秒級響應。
流計算可以實時處理來自不同數據源的、連續到達的流數據,經過實時分析處理,給出有價值的分析結果。目前業內已涌現出許多的流計算框架與平臺。
di一類是商業級的流計算平臺,包括IBM InfoSphereStreams和IBMStreamBase等,第二類是開源流計算框架,包括Twitter Storm、Yahoo! S4 ( Simple Scalable Streaming System )等,第三類是公司為支持自身業務開發的流汁算框架,如Facebook使用Puma和HBase相結合來處理實時數據,百度開發了通用實時流數據計算系統DStream,淘寶開發了通用流數據實時計算系統-----銀河流數據處理平臺。
圖計算:
在大數據時代,許多大數據都是以大規模圖或網絡的形式呈現,如社交網絡、傳染病傳播途
徑、交通琪故對路網的影響等,此外,許多非圖結構的大數據,也常常會被轉換為圖模型后再進行處理分析。
MapReduce作為單輸人、兩階段、粗粒度數據并行的分布式計算框架,在表達多迭代、稀疏結構和細粒度數據時,往往顯得力不從心,不適合用來解決大規模圖計算問題。因此,針對大型圖的計算,需要采用圖計算模式,目前已經出現了不少相關圖計算產品。
Pregel是一種基丁BSP ( Bulk Synchronous Parallel)模型實現的并行圖處理系統。為了解決大型圖的分布式計算問題,Pregd搭建了一套可擴展的、有容錯機制的平臺,該平臺提供了一套靈活的API,可以描述各種各樣的圖計算。
Pregel主要用于圖遍歷、短路徑、PageRank計算等。其他代表性的圖計算產品還包括Facebook針對Pregel的開源實現Giraph、Spark下的GraphX、圖數據處理系統PowerGraph等。


