現(xiàn)在每個(gè)人都說大數(shù)據(jù),但是它是概念的意義大于實(shí)質(zhì)的意義。我們每個(gè)人覺得它像石油,金礦一樣寶貴。但即便他是石油,如果沒有用于汽車,沒有用于飛機(jī),其實(shí)它就是沒有價(jià)值的。
盡管中國的大數(shù)據(jù)產(chǎn)業(yè)還處于發(fā)展的初級階段,具有廣闊的市場發(fā)展前景。但我們發(fā)現(xiàn),并不是我們完成數(shù)據(jù)分析了,就完全可以被用戶所接受。必須得是一個(gè)優(yōu)秀的產(chǎn)品,才能夠去變成商品產(chǎn)生價(jià)值。在這個(gè)過程里面,數(shù)據(jù)可視化的意義就會凸顯出來。也就是說,我們是通過數(shù)據(jù)分析加上數(shù)據(jù)的可視化,才能夠去真正地讓用戶了解到大數(shù)據(jù),不再是很生硬的看不懂的東西,而是說真正的能夠去使用,去用于他自己的公司產(chǎn)品的預(yù)判預(yù)測和企業(yè)決策。我們覺得這個(gè)數(shù)據(jù)可視化的意義基本上就在這里。事實(shí)上,海云的價(jià)值點(diǎn)就在這里。
“我們一直在倡導(dǎo)大數(shù)據(jù)+的概念。就是說讓大數(shù)據(jù)去成為產(chǎn)品,去落地,去幫助用戶更加科學(xué)地運(yùn)用數(shù)據(jù)。現(xiàn)在政府在倡導(dǎo)的互聯(lián)網(wǎng)+的概念,跟我們這個(gè)也有相同之處;ヂ(lián)網(wǎng)+也是說互聯(lián)網(wǎng)這個(gè)概念要落地,要去結(jié)合傳統(tǒng)行業(yè),對傳統(tǒng)行業(yè)進(jìn)行產(chǎn)業(yè)的升級換代進(jìn)行整體的提升,互聯(lián)網(wǎng)化的改造。大數(shù)據(jù)+也是一樣,我們希望大數(shù)據(jù)這個(gè)飄在天上的概念,去真正落到實(shí)際當(dāng)中去,讓各行各業(yè)的用戶能夠利用大數(shù)據(jù)產(chǎn)生價(jià)值! "大數(shù)據(jù)"是一個(gè)體量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對其內(nèi)容進(jìn)行抓取、管理和處理。 "大數(shù)據(jù)"首先是指數(shù)據(jù)體量(volumes)?大,指代大型數(shù)據(jù)集,一般在10TB?規(guī)模左右,但在實(shí)際應(yīng)用中,很多企業(yè)用戶把多個(gè)數(shù)據(jù)集放在一起,已經(jīng)形成了PB級的數(shù)據(jù)量;其次是指數(shù)據(jù)類別(variety)大,數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富,已沖破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。接著是數(shù)據(jù)處理速度(Velocity)快,在數(shù)據(jù)量非常龐大的情況下,也能夠做到數(shù)據(jù)的實(shí)時(shí)處理。最后一個(gè)特點(diǎn)是指數(shù)據(jù)真實(shí)性(Veracity)高,隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興趣,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實(shí)性及安全性。 SAS企業(yè)挖掘系統(tǒng)(SAS/Enterprise Miner)廣泛應(yīng)用于解決欺詐偵測、雇員流動、客戶獲取與維持、網(wǎng)絡(luò)銷售、市場細(xì)分、風(fēng)險(xiǎn)分析、親和性分析、客戶滿意度、破產(chǎn)預(yù)測和投資組合分析等多樣化問題。根據(jù)大數(shù)據(jù)時(shí)代的企業(yè)挖掘的特征,SAS INSTITUTE提出了數(shù)據(jù)挖掘的SEMMA方法論——在SAS/EM環(huán)境中,數(shù)據(jù)挖掘過程被劃分為Sample、Explore、Modify、Model、Assess這五個(gè)階段,簡記為SEMMA: 1.Sample 抽取一些代表性的樣本數(shù)據(jù)集(通常為訓(xùn)練集、驗(yàn)證集和測試集)。樣本容量的選擇標(biāo)準(zhǔn)為:包含足夠的重要信息,同時(shí)也要便于分析操作。該步驟涉及的處理工具為:數(shù)據(jù)導(dǎo)入、合并、粘貼、過濾以及統(tǒng)計(jì)抽樣方法。 2.Explore 通過考察關(guān)聯(lián)性、趨勢性以及異常值的方式來探索數(shù)據(jù),增進(jìn)對于數(shù)據(jù)的認(rèn)識。該步驟涉及的工具為:統(tǒng)計(jì)報(bào)告、視圖探索、變量選擇以及變量聚類等方法。 3.Modify 以模型選擇為目標(biāo),通過創(chuàng)建、選擇以及轉(zhuǎn)換變量的方式來修改數(shù)據(jù)集。該步驟涉及工具為:變量轉(zhuǎn)換、缺失處理、重新編碼以及數(shù)據(jù)分箱等。 4.Model 為了獲得可靠的預(yù)測結(jié)果,我們需要借助于分析工具來訓(xùn)練統(tǒng)計(jì)模型或者機(jī)器學(xué)習(xí)模型。該步驟涉及技術(shù)為:線性及邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、偏最小二乘法、LARS及LASSO、K近鄰法以及其他用戶(包括非SAS用戶)的模型算法。 5.Assess 評估數(shù)據(jù)挖掘結(jié)果的有效性和可靠性。涉及技術(shù)為:比較模型及計(jì)算新的擬合統(tǒng)計(jì)量、臨界分析、決策支持、報(bào)告生成、評分代碼管理等。數(shù)據(jù)挖掘者可能不會使用全部SEMMA分析步驟。然而,在獲得滿意結(jié)果之前,可能需要多次重復(fù)其中部分或者全部步驟。 "大數(shù)據(jù)"的概念遠(yuǎn)不止大量的數(shù)據(jù)(TB)和處理大量數(shù)據(jù)的技術(shù),或者所謂的"4個(gè)V"之類的簡單概念,而是涵蓋了人們在大規(guī)模數(shù)據(jù)的基礎(chǔ)上可以做的事情,而這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無法實(shí)現(xiàn)的。換句話說,大數(shù)據(jù)讓我們以一種前所未有的方式,通過對海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價(jià)值的產(chǎn)品和服務(wù),或深刻的洞見,最終形成變革之力.
|