“大數(shù)據(jù)”來襲時,傳統(tǒng)的數(shù)據(jù)存儲方式已不能滿足要求,需要開展分布式存儲的研究,大數(shù)據(jù)分布式存儲主要考慮以下幾個問題: 1)存儲資源管理方法 為了解決集群存儲環(huán)境下的存儲資源管理問題,采用存儲資源映射方法通過在物理存儲資源和虛擬存儲資源請求之間建立合理的映射關(guān)系,來進(jìn)行有效的存儲資源管理。國內(nèi)外相關(guān)研究提出合理的集群存儲資源映射方法,將虛擬存儲資源請求均勻地分配到節(jié)點上,然后進(jìn)行節(jié)點內(nèi)部設(shè)備級別的資源映射。 2)支持多用戶的資源使用和存儲環(huán)境隔離機制 當(dāng)用戶數(shù)量增多,有限的存儲資源已經(jīng)不能滿足用戶對該類資源的需求時,用戶與資源的矛盾就會突顯出來。解決這種矛盾的最有效辦法就是采取有效資源共享機制,將有限數(shù)量的資源按需動態(tài)共享給多個用戶使用。此外,在存儲資源共享的同時,從用戶角度看每個應(yīng)用系統(tǒng)是獨立的,不依賴于其他應(yīng)用系統(tǒng)運行而運行,也不受其他應(yīng)用系統(tǒng)和資源的運行結(jié)果影響,因此需要存儲環(huán)境隔離技術(shù)來屏蔽各個應(yīng)用系統(tǒng)對存儲資源運行的互相影響。 研究表明,利用存儲虛擬化技術(shù)來整合不同廠商的存儲系統(tǒng)。通過隔離主機層與物理存儲資源,存儲虛擬化技術(shù)可以將來自于不同存儲設(shè)備(即使是不同廠商的設(shè)備)的存儲容量匯集到一個共享的邏輯資源池中,這樣存儲的管理就更容易了。任何單體存儲陣列所創(chuàng)建的物理卷的容量都是有限制的,而多個異構(gòu)的存儲系統(tǒng)聯(lián)合在一起就可以創(chuàng)建出一個更大的邏輯卷。 3)基于Hadoop的大數(shù)據(jù)存儲機制 大數(shù)據(jù)的各類描述方式的多樣性,存在著結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)需要進(jìn)行處理。對于結(jié)構(gòu)化數(shù)據(jù),雖然現(xiàn)在出現(xiàn)了各種各樣的數(shù)據(jù)庫類型,但通常的處理方式仍是采用關(guān)系型數(shù)據(jù)知識庫進(jìn)行處理;對于半結(jié)構(gòu)化和非結(jié)構(gòu)化的知識,Hadoop框架提供了很好的解決方案。 Hadoop分布式文件系統(tǒng)HDFS是建立在大型集群上可靠存儲大數(shù)據(jù)的文件系統(tǒng),是分布式計算的存儲基石。基于HFDS的Hive和HBase能夠很好地支持大數(shù)據(jù)的存儲。具體來說,使用Hive可以通過類SQL語句快速實現(xiàn)MapReduce統(tǒng)計,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。HBase是分布式的基于列存儲的非關(guān)系型數(shù)據(jù)庫,它的查詢效率很高,主要用于查詢和展示結(jié)果;Hive是分布式的關(guān)系型數(shù)據(jù)倉庫,主要用來并行處理大量數(shù)據(jù)。將Hive與HBase進(jìn)行整合,共同用于大數(shù)據(jù)的處理,可以減少開發(fā)過程,提高開發(fā)效率。使用HBase存儲大數(shù)據(jù),使用Hive提供的SQL查詢語言,可以十分方便地實現(xiàn)大數(shù)據(jù)的存儲和分析。
|