現(xiàn)在每個(gè)人都說(shuō)大數(shù)據(jù),但是它是概念的意義大于實(shí)質(zhì)的意義。我們每個(gè)人覺(jué)得它像石油,金礦一樣寶貴。但即便他是石油,如果沒(méi)有用于汽車,沒(méi)有用于飛機(jī),其實(shí)它就是沒(méi)有價(jià)值的。
盡管中國(guó)的大數(shù)據(jù)產(chǎn)業(yè)還處于發(fā)展的初級(jí)階段,具有廣闊的市場(chǎng)發(fā)展前景。但我們發(fā)現(xiàn),并不是我們完成數(shù)據(jù)分析了,就完全可以被用戶所接受。必須得是一個(gè)優(yōu)秀的產(chǎn)品,才能夠去變成商品產(chǎn)生價(jià)值。在這個(gè)過(guò)程里面,數(shù)據(jù)可視化的意義就會(huì)凸顯出來(lái)。也就是說(shuō),我們是通過(guò)數(shù)據(jù)分析加上數(shù)據(jù)的可視化,才能夠去真正地讓用戶了解到大數(shù)據(jù),不再是很生硬的看不懂的東西,而是說(shuō)真正的能夠去使用,去用于他自己的公司產(chǎn)品的預(yù)判預(yù)測(cè)和企業(yè)決策。我們覺(jué)得這個(gè)數(shù)據(jù)可視化的意義基本上就在這里。事實(shí)上,海云的價(jià)值點(diǎn)就在這里。
“我們一直在倡導(dǎo)大數(shù)據(jù)+的概念。就是說(shuō)讓大數(shù)據(jù)去成為產(chǎn)品,去落地,去幫助用戶更加科學(xué)地運(yùn)用數(shù)據(jù),F(xiàn)在政府在倡導(dǎo)的互聯(lián)網(wǎng)+的概念,跟我們這個(gè)也有相同之處;ヂ(lián)網(wǎng)+也是說(shuō)互聯(lián)網(wǎng)這個(gè)概念要落地,要去結(jié)合傳統(tǒng)行業(yè),對(duì)傳統(tǒng)行業(yè)進(jìn)行產(chǎn)業(yè)的升級(jí)換代進(jìn)行整體的提升,互聯(lián)網(wǎng)化的改造。大數(shù)據(jù)+也是一樣,我們希望大數(shù)據(jù)這個(gè)飄在天上的概念,去真正落到實(shí)際當(dāng)中去,讓各行各業(yè)的用戶能夠利用大數(shù)據(jù)產(chǎn)生價(jià)值! "大數(shù)據(jù)"是一個(gè)體量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無(wú)法用傳統(tǒng)數(shù)據(jù)庫(kù)工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理。 "大數(shù)據(jù)"首先是指數(shù)據(jù)體量(volumes)?大,指代大型數(shù)據(jù)集,一般在10TB?規(guī)模左右,但在實(shí)際應(yīng)用中,很多企業(yè)用戶把多個(gè)數(shù)據(jù)集放在一起,已經(jīng)形成了PB級(jí)的數(shù)據(jù)量;其次是指數(shù)據(jù)類別(variety)大,數(shù)據(jù)來(lái)自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富,已沖破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。接著是數(shù)據(jù)處理速度(Velocity)快,在數(shù)據(jù)量非常龐大的情況下,也能夠做到數(shù)據(jù)的實(shí)時(shí)處理。最后一個(gè)特點(diǎn)是指數(shù)據(jù)真實(shí)性(Veracity)高,隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興趣,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實(shí)性及安全性。 SAS企業(yè)挖掘系統(tǒng)(SAS/Enterprise Miner)廣泛應(yīng)用于解決欺詐偵測(cè)、雇員流動(dòng)、客戶獲取與維持、網(wǎng)絡(luò)銷售、市場(chǎng)細(xì)分、風(fēng)險(xiǎn)分析、親和性分析、客戶滿意度、破產(chǎn)預(yù)測(cè)和投資組合分析等多樣化問(wèn)題。根據(jù)大數(shù)據(jù)時(shí)代的企業(yè)挖掘的特征,SAS INSTITUTE提出了數(shù)據(jù)挖掘的SEMMA方法論——在SAS/EM環(huán)境中,數(shù)據(jù)挖掘過(guò)程被劃分為Sample、Explore、Modify、Model、Assess這五個(gè)階段,簡(jiǎn)記為SEMMA: 1.Sample 抽取一些代表性的樣本數(shù)據(jù)集(通常為訓(xùn)練集、驗(yàn)證集和測(cè)試集)。樣本容量的選擇標(biāo)準(zhǔn)為:包含足夠的重要信息,同時(shí)也要便于分析操作。該步驟涉及的處理工具為:數(shù)據(jù)導(dǎo)入、合并、粘貼、過(guò)濾以及統(tǒng)計(jì)抽樣方法。 2.Explore 通過(guò)考察關(guān)聯(lián)性、趨勢(shì)性以及異常值的方式來(lái)探索數(shù)據(jù),增進(jìn)對(duì)于數(shù)據(jù)的認(rèn)識(shí)。該步驟涉及的工具為:統(tǒng)計(jì)報(bào)告、視圖探索、變量選擇以及變量聚類等方法。 3.Modify 以模型選擇為目標(biāo),通過(guò)創(chuàng)建、選擇以及轉(zhuǎn)換變量的方式來(lái)修改數(shù)據(jù)集。該步驟涉及工具為:變量轉(zhuǎn)換、缺失處理、重新編碼以及數(shù)據(jù)分箱等。 4.Model 為了獲得可靠的預(yù)測(cè)結(jié)果,我們需要借助于分析工具來(lái)訓(xùn)練統(tǒng)計(jì)模型或者機(jī)器學(xué)習(xí)模型。該步驟涉及技術(shù)為:線性及邏輯回歸、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、偏最小二乘法、LARS及LASSO、K近鄰法以及其他用戶(包括非SAS用戶)的模型算法。 5.Assess 評(píng)估數(shù)據(jù)挖掘結(jié)果的有效性和可靠性。涉及技術(shù)為:比較模型及計(jì)算新的擬合統(tǒng)計(jì)量、臨界分析、決策支持、報(bào)告生成、評(píng)分代碼管理等。數(shù)據(jù)挖掘者可能不會(huì)使用全部SEMMA分析步驟。然而,在獲得滿意結(jié)果之前,可能需要多次重復(fù)其中部分或者全部步驟。 "大數(shù)據(jù)"的概念遠(yuǎn)不止大量的數(shù)據(jù)(TB)和處理大量數(shù)據(jù)的技術(shù),或者所謂的"4個(gè)V"之類的簡(jiǎn)單概念,而是涵蓋了人們?cè)诖笠?guī)模數(shù)據(jù)的基礎(chǔ)上可以做的事情,而這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無(wú)法實(shí)現(xiàn)的。換句話說(shuō),大數(shù)據(jù)讓我們以一種前所未有的方式,通過(guò)對(duì)海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價(jià)值的產(chǎn)品和服務(wù),或深刻的洞見(jiàn),最終形成變革之力.
【正-文-結(jié)-束】
大數(shù)據(jù)時(shí)代對(duì)企業(yè)經(jīng)營(yíng)決策的影響分析偉創(chuàng)軟件 -> 在互聯(lián)網(wǎng)時(shí)代獲得數(shù)據(jù)的方式多樣,獲得的數(shù)據(jù)形態(tài)豐富,有很多數(shù)據(jù)只是能夠單純的判斷出結(jié)果而無(wú)法判斷出處和因果。而傳統(tǒng)觀念是要獲知事情的因果,也就是說(shuō)不僅僅要知其然,而且還要知其所以然。而大數(shù)據(jù)時(shí)代的背景下這一點(diǎn)是非常難以做到的,所以獲得的參考數(shù)據(jù)在形態(tài)上和數(shù)量上雖然獲得了大規(guī)模提升,而對(duì)于數(shù)據(jù)做出合理的審核和判斷也是未來(lái)決策者的難題。..
|