“大數(shù)據(jù)”來襲時(shí),傳統(tǒng)的數(shù)據(jù)存儲(chǔ)方式已不能滿足要求,需要開展分布式存儲(chǔ)的研究,大數(shù)據(jù)分布式存儲(chǔ)主要考慮以下幾個(gè)問題: 1)存儲(chǔ)資源管理方法 為了解決集群存儲(chǔ)環(huán)境下的存儲(chǔ)資源管理問題,采用存儲(chǔ)資源映射方法通過在物理存儲(chǔ)資源和虛擬存儲(chǔ)資源請求之間建立合理的映射關(guān)系,來進(jìn)行有效的存儲(chǔ)資源管理。國內(nèi)外相關(guān)研究提出合理的集群存儲(chǔ)資源映射方法,將虛擬存儲(chǔ)資源請求均勻地分配到節(jié)點(diǎn)上,然后進(jìn)行節(jié)點(diǎn)內(nèi)部設(shè)備級別的資源映射。 2)支持多用戶的資源使用和存儲(chǔ)環(huán)境隔離機(jī)制 當(dāng)用戶數(shù)量增多,有限的存儲(chǔ)資源已經(jīng)不能滿足用戶對該類資源的需求時(shí),用戶與資源的矛盾就會(huì)突顯出來。解決這種矛盾的最有效辦法就是采取有效資源共享機(jī)制,將有限數(shù)量的資源按需動(dòng)態(tài)共享給多個(gè)用戶使用。此外,在存儲(chǔ)資源共享的同時(shí),從用戶角度看每個(gè)應(yīng)用系統(tǒng)是獨(dú)立的,不依賴于其他應(yīng)用系統(tǒng)運(yùn)行而運(yùn)行,也不受其他應(yīng)用系統(tǒng)和資源的運(yùn)行結(jié)果影響,因此需要存儲(chǔ)環(huán)境隔離技術(shù)來屏蔽各個(gè)應(yīng)用系統(tǒng)對存儲(chǔ)資源運(yùn)行的互相影響。 研究表明,利用存儲(chǔ)虛擬化技術(shù)來整合不同廠商的存儲(chǔ)系統(tǒng)。通過隔離主機(jī)層與物理存儲(chǔ)資源,存儲(chǔ)虛擬化技術(shù)可以將來自于不同存儲(chǔ)設(shè)備(即使是不同廠商的設(shè)備)的存儲(chǔ)容量匯集到一個(gè)共享的邏輯資源池中,這樣存儲(chǔ)的管理就更容易了。任何單體存儲(chǔ)陣列所創(chuàng)建的物理卷的容量都是有限制的,而多個(gè)異構(gòu)的存儲(chǔ)系統(tǒng)聯(lián)合在一起就可以創(chuàng)建出一個(gè)更大的邏輯卷。 3)基于Hadoop的大數(shù)據(jù)存儲(chǔ)機(jī)制 大數(shù)據(jù)的各類描述方式的多樣性,存在著結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)需要進(jìn)行處理。對于結(jié)構(gòu)化數(shù)據(jù),雖然現(xiàn)在出現(xiàn)了各種各樣的數(shù)據(jù)庫類型,但通常的處理方式仍是采用關(guān)系型數(shù)據(jù)知識(shí)庫進(jìn)行處理;對于半結(jié)構(gòu)化和非結(jié)構(gòu)化的知識(shí),Hadoop框架提供了很好的解決方案。 Hadoop分布式文件系統(tǒng)HDFS是建立在大型集群上可靠存儲(chǔ)大數(shù)據(jù)的文件系統(tǒng),是分布式計(jì)算的存儲(chǔ)基石;贖FDS的Hive和HBase能夠很好地支持大數(shù)據(jù)的存儲(chǔ)。具體來說,使用Hive可以通過類SQL語句快速實(shí)現(xiàn)MapReduce統(tǒng)計(jì),十分適合數(shù)據(jù)倉庫的統(tǒng)計(jì)分析。HBase是分布式的基于列存儲(chǔ)的非關(guān)系型數(shù)據(jù)庫,它的查詢效率很高,主要用于查詢和展示結(jié)果;Hive是分布式的關(guān)系型數(shù)據(jù)倉庫,主要用來并行處理大量數(shù)據(jù)。將Hive與HBase進(jìn)行整合,共同用于大數(shù)據(jù)的處理,可以減少開發(fā)過程,提高開發(fā)效率。使用HBase存儲(chǔ)大數(shù)據(jù),使用Hive提供的SQL查詢語言,可以十分方便地實(shí)現(xiàn)大數(shù)據(jù)的存儲(chǔ)和分析。
|