現(xiàn)在每個人都說大數(shù)據(jù),但是它是概念的意義大于實質(zhì)的意義。我們每個人覺得它像石油,金礦一樣寶貴。但即便他是石油,如果沒有用于汽車,沒有用于飛機,其實它就是沒有價值的。
盡管中國的大數(shù)據(jù)產(chǎn)業(yè)還處于發(fā)展的初級階段,具有廣闊的市場發(fā)展前景。但我們發(fā)現(xiàn),并不是我們完成數(shù)據(jù)分析了,就完全可以被用戶所接受。必須得是一個優(yōu)秀的產(chǎn)品,才能夠去變成商品產(chǎn)生價值。在這個過程里面,數(shù)據(jù)可視化的意義就會凸顯出來。也就是說,我們是通過數(shù)據(jù)分析加上數(shù)據(jù)的可視化,才能夠去真正地讓用戶了解到大數(shù)據(jù),不再是很生硬的看不懂的東西,而是說真正的能夠去使用,去用于他自己的公司產(chǎn)品的預判預測和企業(yè)決策。我們覺得這個數(shù)據(jù)可視化的意義基本上就在這里。事實上,海云的價值點就在這里。
“我們一直在倡導大數(shù)據(jù)+的概念。就是說讓大數(shù)據(jù)去成為產(chǎn)品,去落地,去幫助用戶更加科學地運用數(shù)據(jù),F(xiàn)在政府在倡導的互聯(lián)網(wǎng)+的概念,跟我們這個也有相同之處。互聯(lián)網(wǎng)+也是說互聯(lián)網(wǎng)這個概念要落地,要去結(jié)合傳統(tǒng)行業(yè),對傳統(tǒng)行業(yè)進行產(chǎn)業(yè)的升級換代進行整體的提升,互聯(lián)網(wǎng)化的改造。大數(shù)據(jù)+也是一樣,我們希望大數(shù)據(jù)這個飄在天上的概念,去真正落到實際當中去,讓各行各業(yè)的用戶能夠利用大數(shù)據(jù)產(chǎn)生價值。” "大數(shù)據(jù)"是一個體量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對其內(nèi)容進行抓取、管理和處理。 "大數(shù)據(jù)"首先是指數(shù)據(jù)體量(volumes)?大,指代大型數(shù)據(jù)集,一般在10TB?規(guī)模左右,但在實際應用中,很多企業(yè)用戶把多個數(shù)據(jù)集放在一起,已經(jīng)形成了PB級的數(shù)據(jù)量;其次是指數(shù)據(jù)類別(variety)大,數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富,已沖破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。接著是數(shù)據(jù)處理速度(Velocity)快,在數(shù)據(jù)量非常龐大的情況下,也能夠做到數(shù)據(jù)的實時處理。最后一個特點是指數(shù)據(jù)真實性(Veracity)高,隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應用數(shù)據(jù)等新數(shù)據(jù)源的興趣,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實性及安全性。 SAS企業(yè)挖掘系統(tǒng)(SAS/Enterprise Miner)廣泛應用于解決欺詐偵測、雇員流動、客戶獲取與維持、網(wǎng)絡銷售、市場細分、風險分析、親和性分析、客戶滿意度、破產(chǎn)預測和投資組合分析等多樣化問題。根據(jù)大數(shù)據(jù)時代的企業(yè)挖掘的特征,SAS INSTITUTE提出了數(shù)據(jù)挖掘的SEMMA方法論——在SAS/EM環(huán)境中,數(shù)據(jù)挖掘過程被劃分為Sample、Explore、Modify、Model、Assess這五個階段,簡記為SEMMA: 1.Sample 抽取一些代表性的樣本數(shù)據(jù)集(通常為訓練集、驗證集和測試集)。樣本容量的選擇標準為:包含足夠的重要信息,同時也要便于分析操作。該步驟涉及的處理工具為:數(shù)據(jù)導入、合并、粘貼、過濾以及統(tǒng)計抽樣方法。 2.Explore 通過考察關聯(lián)性、趨勢性以及異常值的方式來探索數(shù)據(jù),增進對于數(shù)據(jù)的認識。該步驟涉及的工具為:統(tǒng)計報告、視圖探索、變量選擇以及變量聚類等方法。 3.Modify 以模型選擇為目標,通過創(chuàng)建、選擇以及轉(zhuǎn)換變量的方式來修改數(shù)據(jù)集。該步驟涉及工具為:變量轉(zhuǎn)換、缺失處理、重新編碼以及數(shù)據(jù)分箱等。 4.Model 為了獲得可靠的預測結(jié)果,我們需要借助于分析工具來訓練統(tǒng)計模型或者機器學習模型。該步驟涉及技術為:線性及邏輯回歸、決策樹、神經(jīng)網(wǎng)絡、偏最小二乘法、LARS及LASSO、K近鄰法以及其他用戶(包括非SAS用戶)的模型算法。 5.Assess 評估數(shù)據(jù)挖掘結(jié)果的有效性和可靠性。涉及技術為:比較模型及計算新的擬合統(tǒng)計量、臨界分析、決策支持、報告生成、評分代碼管理等。數(shù)據(jù)挖掘者可能不會使用全部SEMMA分析步驟。然而,在獲得滿意結(jié)果之前,可能需要多次重復其中部分或者全部步驟。 "大數(shù)據(jù)"的概念遠不止大量的數(shù)據(jù)(TB)和處理大量數(shù)據(jù)的技術,或者所謂的"4個V"之類的簡單概念,而是涵蓋了人們在大規(guī)模數(shù)據(jù)的基礎上可以做的事情,而這些事情在小規(guī)模數(shù)據(jù)的基礎上是無法實現(xiàn)的。換句話說,大數(shù)據(jù)讓我們以一種前所未有的方式,通過對海量數(shù)據(jù)進行分析,獲得有巨大價值的產(chǎn)品和服務,或深刻的洞見,最終形成變革之力.
|