隨著數(shù)據(jù)庫產(chǎn)業(yè)的膨大,人們對數(shù)據(jù)庫已經(jīng)不太滿足了,于是把databases說成大數(shù)據(jù),這便遇到了兩個(gè)不可回避的挑戰(zhàn),第一個(gè)挑戰(zhàn)是由于關(guān)系代數(shù)的形式化約束過于苛刻,無法表示現(xiàn)實(shí)數(shù)據(jù);第二個(gè)挑戰(zhàn)是隨著數(shù)據(jù)量的增大,關(guān)系代數(shù)運(yùn)算性能急劇下降。在這個(gè)時(shí)候,我們的存儲技術(shù)得到了迅猛發(fā)展,人類進(jìn)入了搜索時(shí)代。搜索因?yàn)榇鎯Ρ阋肆耍鎯Φ乃俣却蟾琶?個(gè)月翻一番,所以存儲帶動了技術(shù)的腳步,這種搜索時(shí)代經(jīng)過了20多年的發(fā)展,帶領(lǐng)我們進(jìn)入了一個(gè)半結(jié)構(gòu)化數(shù)據(jù)挖掘時(shí)代。
網(wǎng)絡(luò)化的大數(shù)據(jù)挖掘 隨著互聯(lián)網(wǎng)帶寬6個(gè)月翻一番的速度,人類進(jìn)入了交互時(shí)代,交互帶動著計(jì)算和存儲的發(fā)展。
移動互聯(lián)網(wǎng)時(shí)代的大數(shù)據(jù)挖掘主要是網(wǎng)絡(luò)化環(huán)境下的非結(jié)構(gòu)化數(shù)據(jù)挖掘,這些數(shù)據(jù)形態(tài)反映的是鮮活的、碎片化的、異構(gòu)的、有情感的原生態(tài)數(shù)據(jù)。
非結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)是,它常常是低價(jià)值、強(qiáng)噪聲、異構(gòu)、冗余冰冷的數(shù)據(jù),有很多數(shù)據(jù)放在存儲器里就沒再用過。數(shù)據(jù)的形式化約束越來越寬松,越來越接近互聯(lián)網(wǎng)文化、窗口文化和社區(qū)文化。
關(guān)注的對象也發(fā)生很大改變,挖掘關(guān)注的首先是小眾,只有滿足小眾挖掘需求,才談得上滿足更多小眾組成的大眾的需求,因此一個(gè)重要思想就是由下而上勝過由上而下的頂層設(shè)計(jì),強(qiáng)調(diào)挖掘數(shù)據(jù)的真實(shí)性、及時(shí)性,要發(fā)現(xiàn)關(guān)聯(lián)、發(fā)現(xiàn)異常、發(fā)現(xiàn)趨勢,總之要發(fā)現(xiàn)價(jià)值。 如果云計(jì)算支撐大數(shù)據(jù)挖掘要發(fā)現(xiàn)價(jià)值,那么我們認(rèn)為云計(jì)算本來就是基于互聯(lián)網(wǎng)的大眾參與計(jì)算模式,其計(jì)算資源是動態(tài)的,可收縮的,被虛擬化的,而且以服務(wù)的方式提供。 產(chǎn)生擺脫了傳統(tǒng)的配置帶來的系統(tǒng)升級,更加簡潔、靈活多樣、個(gè)性化,手機(jī)、游戲機(jī)、數(shù)碼相機(jī)、電視機(jī)差別細(xì)微,出現(xiàn)了更多icloud產(chǎn)品,界面人性化、個(gè)性化,都可成為大數(shù)據(jù)挖掘的終端。
挖掘員支撐各種各樣的大數(shù)據(jù)應(yīng)用,如果我們有數(shù)據(jù)收集中心、存儲中心、計(jì)算中心、服務(wù)中心,一定要有數(shù)據(jù)挖掘中心,這樣一來,就可以實(shí)現(xiàn)支撐大數(shù)據(jù)的及時(shí)應(yīng)用和價(jià)值的及時(shí)發(fā)現(xiàn)。
大數(shù)據(jù)標(biāo)志一個(gè)新時(shí)代的到來,這個(gè)時(shí)代的特征不只是追求豐富的物質(zhì)資源,也不只是無所不在的互聯(lián)網(wǎng)帶來方便的多樣化的信息服務(wù),同時(shí)還包含區(qū)別于物質(zhì)的數(shù)據(jù)資源的價(jià)值挖掘和價(jià)值轉(zhuǎn)換,虛擬世界的信息價(jià)值挖掘?qū)е赂泳_的控制物理世界的物質(zhì)和能量,以及由大數(shù)據(jù)挖掘帶來的精神和文化方面的嶄新現(xiàn)象。 ..
|