1、從“基于預(yù)設(shè)的結(jié)構(gòu)化數(shù)據(jù)庫”到“無需預(yù)設(shè)的非關(guān)系型數(shù)據(jù)庫” 小數(shù)據(jù)時(shí)代,我們對(duì)于數(shù)據(jù)的存儲(chǔ)與檢索一直依賴于分類法和索引法,分類和索引是一種清晰獲取數(shù)據(jù)的機(jī)制設(shè)計(jì),這種機(jī)制是以預(yù)設(shè)場(chǎng)域?yàn)榍疤岬摹_@種結(jié)構(gòu)化數(shù)據(jù)庫的預(yù)設(shè)場(chǎng)域能夠卓越地展示數(shù)據(jù)的整齊排列與準(zhǔn)確存儲(chǔ),毫無疑問,這與追求數(shù)據(jù)的精確性目標(biāo)是完全一致的,在數(shù)據(jù)稀缺與問題清晰的年代,這種基于預(yù)設(shè)的結(jié)構(gòu)化數(shù)據(jù)庫能夠有效的回答人們的問題,并且這種數(shù)據(jù)庫在不同的時(shí)間能夠提供一致的結(jié)果。
面對(duì)大數(shù)據(jù),由于數(shù)據(jù)的海量、混雜等特征會(huì)使預(yù)設(shè)的數(shù)據(jù)庫系統(tǒng)崩潰。其實(shí),數(shù)據(jù)的紛繁雜亂才真正呈現(xiàn)出世界的復(fù)雜性和不確定性特征,想要獲得大數(shù)據(jù)的價(jià)值,承認(rèn)混亂而不是對(duì)抗或避免混亂才是一種可行的路徑。為此,伴隨著大數(shù)據(jù)的涌現(xiàn),出現(xiàn)了非關(guān)系型數(shù)據(jù)庫,它不需要預(yù)先設(shè)定記錄結(jié)構(gòu),而且允許處理各種各樣形形色色參差不齊的數(shù)據(jù)。因?yàn)榘萘私Y(jié)構(gòu)的多樣性,這些無需預(yù)設(shè)的非關(guān)系型數(shù)據(jù)庫設(shè)計(jì)能夠處理和存儲(chǔ)更多的數(shù)據(jù),成為大數(shù)據(jù)時(shí)代的重要應(yīng)對(duì)手段。
2、從“隨機(jī)樣本”到“全量數(shù)據(jù)” 統(tǒng)計(jì)學(xué)家通過分析發(fā)現(xiàn),采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大。這個(gè)發(fā)現(xiàn)對(duì)于小數(shù)據(jù)時(shí)代無疑是非常鼓舞人心的,隨機(jī)采樣獲得了巨大的成功,并成為現(xiàn)代社會(huì)測(cè)量領(lǐng)域的核心思想。隨機(jī)樣本的基礎(chǔ)是采樣的絕對(duì)隨機(jī)性,然而,如此嚴(yán)格意義的隨機(jī)實(shí)現(xiàn)起來是非常困難的,一旦采樣過程存在任何偏見,分析結(jié)果將相去甚遠(yuǎn),況且隨機(jī)樣本帶給我們的只能是事先預(yù)設(shè)問題的答案。這種缺乏延展性的結(jié)果,無疑會(huì)使我們錯(cuò)失更多的問題域。
3、大數(shù)據(jù)時(shí)代,數(shù)據(jù)的收集問題不再成為我們的困擾,采集全量的數(shù)據(jù)成為現(xiàn)實(shí)。全量數(shù)據(jù)帶給我們視角上的宏觀與高遠(yuǎn),這將使我們可以站在更高的層級(jí)全貌看待問題,看見曾經(jīng)被淹沒的數(shù)據(jù)價(jià)值,發(fā)現(xiàn)藏匿在整體中有趣的細(xì)節(jié)。因?yàn)閾碛腥炕驇缀跞康臄?shù)據(jù),就能使我們獲得從不同的角度更細(xì)致更全面的觀察研究數(shù)據(jù)的可能性,從而使得大數(shù)據(jù)的分析過程成為驚喜的發(fā)現(xiàn)過程和問題域的拓展過程。
4、從“數(shù)據(jù)的精確性和結(jié)果的準(zhǔn)確性”到“數(shù)據(jù)的混雜性和結(jié)果的容錯(cuò)性” 小數(shù)據(jù)時(shí)代,由于可獲得的數(shù)據(jù)量比較小,為此我們必須盡量準(zhǔn)確的記錄下所獲得的所有數(shù)據(jù),從而引發(fā)了測(cè)量工具的優(yōu)化工作;由于數(shù)據(jù)處理手段的限制,能被我們利用的數(shù)據(jù)基本限于能適用于傳統(tǒng)數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù);由于采用的是隨機(jī)采樣,因此采樣過程的精確度被放在重要的地位。顯然,這種對(duì)精確性的執(zhí)著是信息缺乏時(shí)代和模擬時(shí)代的產(chǎn)物。
大數(shù)據(jù)時(shí)代,海量數(shù)據(jù)的涌現(xiàn)一定會(huì)增加數(shù)據(jù)的混亂性且造成結(jié)果的不準(zhǔn)確性,如果仍然執(zhí)迷的依循準(zhǔn)確性,那么我們將無法應(yīng)對(duì)這個(gè)新的時(shí)代。與數(shù)據(jù)的混雜性可能帶來的結(jié)果錯(cuò)誤性的增加相比,由數(shù)據(jù)量的擴(kuò)張帶給我們的新洞察、新趨勢(shì)和新價(jià)值更有意義,因?yàn)榇髷?shù)據(jù)通常都用概率說話,何況大數(shù)據(jù)的處理之前是可以對(duì)之進(jìn)行數(shù)據(jù)清洗從而減少部分的錯(cuò)誤數(shù)據(jù)。
所以,與致力于避免錯(cuò)誤相比,對(duì)錯(cuò)誤的包容將會(huì)帶給我們更多信息。其實(shí),允許數(shù)據(jù)的混雜性和容許結(jié)果的不精確性才是我們擁抱大數(shù)據(jù)的正確態(tài)度,只有讓步和接受甚至欣賞不精確性,才能看到大數(shù)據(jù)帶給我們的美好前景,未來我們應(yīng)當(dāng)習(xí)慣這種思維。 ..
|