CGFT中,大數據對思維方式的轉變主要有3種,具體有什么,往下看!

1、全樣而非抽樣

過去,由于數據存儲和處理能力的限制,在科學分析屮,通常采用柚樣的方法,即從全集數

據中柚取一部分樣本數據,通過對樣本數據的分析,來推斷全集數據的總體特征。通常,樣本數據規模要比全集數據小很多,因此,可以在可控的代價內實現數據分析的目的。

現在我們已經迎來大數據時代,大數據技術的核心就是海量數據的存儲和處理,分布式文件系統和分布式數據庫技術,提供了理論上近乎無限的數據存儲能力,分布式并行編程框架MapReduce提供了強大的海毋數據并行處理能力。因此,有了大數據技術的支持,科學分析完全可以直接針對全集數據而不是抽樣數據,并且可以在短時間內迅速得到分析結果,速度之快,超乎我們的想象。

特許全球金融科技師CGFT一級

2. 效率而非精 確

過去,我們在科學分析中采用抽樣分析方法,就必須追求分析方法的精 確性,因為,抽樣分析只是針對部分樣本的分析,其分析結果被成用到全集數據以后,誤差會被放大,這就意味著抽樣分析的微小誤差,被放大到全集數據以后,可能會變成一個很大的誤差。因此,為了保 證誤差被放大到全集數據時仍然處于可以接受的范圍,就必要確保抽樣分析結果的精 確性。正是由于這個原因,傳統的數據分析方法往往更加注重提髙算法的精 確性,其次才是提髙算法效率。

現在,大數據時代采用全樣分析而不是抽樣分析,全樣分析結果就不存在誤差被放大的問題,因此,追求高精 確性已經不是其首要目標;相反,大數據時代具有“秒級響應”的特征,要求在幾秒內就迅速給出針對海量數據的實時分析結果,否則就會喪失數據的價值,因此,數據分析的效率成為關注的核心。

3. 相關而非因果

過去,數據分析的目的,一方面是解釋事物背后的發展機理,比如,一個大型超市在某個地區的連鎖店在某個時期內凈利潤下降很多,這就需要IT部門對相關銷售數據進行詳細分析找出發生問題的原因;另一方面是用于預測未來可能發生的事件,比如,通過實時分析微博數據,當發現人們對霧霾的討論明顯增加時,就可以建議銷售部門增加口罩的進貨量,人們關注霧霾的一個直接結果足,大家會想到購買一個口罩來保護自己的身體健康。不管是哪個目的,其實都反映了一種“因果關系”。

但是,在大數據時代,因果關系不再那么重要,人們轉而追求“相關性” 而非“因果性”。比如,我們去淘寶網購物時,當我們購買了一個汽車防盜鎖以后,淘寶網還會自動提示你,與你購買相同物品的其他客戶還購買了汽車坐墊,也就是說,淘寶網只會告訴你“購買汽車防盜鎖”和“購買汽車坐墊”之間存在相關性,但是,并不會告訴你為什么其他客戶購買了汽車防盜鎖以后還會購買汽車坐墊。