從數(shù)據(jù)分析與處理層面看,粒計(jì)算通過將復(fù)雜數(shù)據(jù)進(jìn)行信息;,用信息粒代替樣本作為計(jì)算的基本單元,可大大提高計(jì)算效率。粒計(jì)算主要包括數(shù)據(jù)粒化、多粒度模式發(fā)現(xiàn)與融合、多粒度/跨粒度推理等核心研究?jī)?nèi)容。大數(shù)據(jù)的表現(xiàn)性態(tài)、大數(shù)據(jù)挖掘面臨的挑戰(zhàn)、基于大數(shù)據(jù)的復(fù)雜問題建模與粒計(jì)算框架的契合之處主要表現(xiàn)在以下3個(gè)方面。
1、大數(shù)據(jù)經(jīng)常具有多層次/多粒度特性
1990年,我國(guó)著名科學(xué)家錢學(xué)森先生在其論文《一個(gè)科學(xué)新領(lǐng)域|| 開放的復(fù)雜巨系統(tǒng)及其方法》 中就指出: \只有一個(gè)層次或沒有層次結(jié)構(gòu)的事物稱為簡(jiǎn)單的系統(tǒng), 而子系統(tǒng)種類很多且有層次結(jié)構(gòu),它們之間關(guān)聯(lián)關(guān)系又很復(fù)雜的系統(tǒng)稱為復(fù)雜巨系統(tǒng)。任何一個(gè)復(fù)雜系統(tǒng)都是一個(gè)具有層次結(jié)構(gòu)的系統(tǒng)"。Friedman 等在Science上發(fā)表的論文認(rèn)為在諸如復(fù)雜細(xì)胞網(wǎng)絡(luò)、蛋白質(zhì)互作用網(wǎng)絡(luò)等生物大數(shù)據(jù)中都廣泛存在著多層次、多尺度特性。Clauset 等在Nature上發(fā)表的論文也指出,在復(fù)雜社會(huì)網(wǎng)絡(luò)中也存在天然的層次結(jié)構(gòu)。Ahn等則專門研究了大數(shù)據(jù)的多尺度復(fù)雜性。著名社會(huì)網(wǎng)絡(luò)科學(xué)家Watts 在其提出的小世界網(wǎng)絡(luò)研究中,也指出網(wǎng)絡(luò)中嵌套的諸多社區(qū)內(nèi)部也滿足小世界網(wǎng)絡(luò)的要求。大數(shù)據(jù)往往來自于對(duì)復(fù)雜的自然/人工巨系統(tǒng)的觀測(cè)記錄,或者由人類社會(huì)系統(tǒng)借助網(wǎng)絡(luò)自主產(chǎn)生。這就意味著,反映復(fù)雜巨系統(tǒng)形態(tài)及運(yùn)動(dòng)規(guī)律的大數(shù)據(jù)必然隱含著由這些系統(tǒng)所決定的局部與整體關(guān)系,以及復(fù)雜的層次結(jié)構(gòu),即數(shù)據(jù)的多粒度/多層次特性。
2、挖掘任務(wù)通常呈現(xiàn)多層次/多粒度特性
數(shù)據(jù)挖掘總是面向?qū)嶋H應(yīng)用的,即使面對(duì)同一個(gè)數(shù)據(jù)集,用戶需求的多層次/多粒度特性也決定了挖掘任務(wù)的多層次/多粒度特性。比如,在金融大數(shù)據(jù)領(lǐng)域,決策任務(wù)可能是面向國(guó)家層面、區(qū)域?qū)用,或者是地方層面的,甚至是面向某個(gè)銀行的;也可能是面向不同種類的存款、貸款,或理財(cái)產(chǎn)品。這就使得挖掘任務(wù)可能同時(shí)面向不同層面、不同方面。挖掘任務(wù)的多層次/多粒度特性必然要求數(shù)據(jù)挖掘工具不僅能夠從不同視角探索大數(shù)據(jù)不同層面隱含的模式,而且還能夠進(jìn)行復(fù)雜有效的融合、自動(dòng)的跳轉(zhuǎn),以及便捷的定制。
3、大數(shù)據(jù)挖掘要求算法具有高效近似求解性
在2012年出版的大數(shù)據(jù)著作《大數(shù)據(jù)時(shí)代: 生活、工作與思維的大變革》 中指出:大數(shù)據(jù)意味著所有數(shù)據(jù)。大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。因此,大數(shù)據(jù)挖掘首先要解決\大數(shù)據(jù)能算的問題",這就要求對(duì)大數(shù)據(jù)進(jìn)行合理的分解,即大數(shù)據(jù)集的;,然后采用并行處理策略, MapReduce 正是基于這種策略在大數(shù)據(jù)管理方面的實(shí)踐結(jié)果。
基于大數(shù)據(jù)的復(fù)雜問題建模往往具有極其復(fù)雜的結(jié)構(gòu),這就要求大數(shù)據(jù)挖掘算法能夠按照任務(wù)的要求自動(dòng)地或人機(jī)交互地從大數(shù)據(jù)中抽取與組織出具有多層次/多局部特征的結(jié)構(gòu),并能在這種復(fù)雜結(jié)構(gòu)上進(jìn)行推理,以達(dá)到挖掘的預(yù)期目標(biāo)。
大數(shù)據(jù)挖掘算法的高效近似求解特性,主要來自于用戶對(duì)挖掘過程、挖掘結(jié)果的時(shí)效性要求,大數(shù)據(jù)的巨量增長(zhǎng)性對(duì)在線挖掘技術(shù)提出了嚴(yán)峻挑戰(zhàn)。與傳統(tǒng)的小數(shù)據(jù)集上的挖掘與學(xué)習(xí)不同,大數(shù)據(jù)的混雜性、不確定性,以及高噪聲對(duì)\獨(dú)立同分布假設(shè)" 的破壞使得追求問題的最優(yōu)/精確解變得幾乎不可能,迫使我們轉(zhuǎn)向?qū)ふ覇栴}的滿意近似解。另一方面,滿意近似解在很多環(huán)境下已能很好地滿足實(shí)際應(yīng)用的需要,無需一味追求問題的最優(yōu)/精確解。
綜上分析可知,從隱含于大數(shù)據(jù)中的結(jié)構(gòu)特征,大數(shù)據(jù)挖掘任務(wù)的類型特征,到大數(shù)據(jù)挖掘算法的性能特征,綜合這些角度,大數(shù)據(jù)挖掘的計(jì)算框架與粒計(jì)算所蘊(yùn)含的計(jì)算范式具有高度契合性。鑒于這一認(rèn)識(shí),可以推測(cè): 粒計(jì)算將為大數(shù)據(jù)挖掘提供一條極具前途的嶄新途徑。 ..
|