數(shù)據(jù)倉庫的定義
目前對于數(shù)據(jù)倉庫還沒有統(tǒng)一的定義,被稱為數(shù)據(jù)倉庫之父的BillInmon在其著作《(Building the Data Warehouse))一書中給出的定義被廣泛接受:數(shù)據(jù)倉庫(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non.Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。
可以從兩個(gè)層面對數(shù)據(jù)倉庫的概念進(jìn)行理解,首先數(shù)據(jù)倉庫是面向分析處理的,主要用來支持決策制定;再者數(shù)據(jù)倉庫包含歷史數(shù)據(jù),是對多個(gè)異構(gòu)的數(shù)據(jù)源數(shù)據(jù)按照主題的集成,它的數(shù)據(jù)相對固定,不會(huì)經(jīng)常改動(dòng)。
數(shù)據(jù)倉庫的特點(diǎn)
面向主題、集成、相對穩(wěn)定、反映歷史變化是對數(shù)據(jù)倉庫的定義,也是對數(shù)據(jù)倉庫特點(diǎn)的描述,下面分別解釋它們的含義。
(1)面向主題的:數(shù)據(jù)倉庫的數(shù)據(jù)都是按照一定的業(yè)務(wù)主題進(jìn)行組織的,面向主題體現(xiàn)在數(shù)據(jù)倉庫的建設(shè)中,而且還包含在業(yè)務(wù)數(shù)據(jù)分析和存儲(chǔ)上。
。2)集成的:數(shù)據(jù)倉庫中的數(shù)據(jù)來自各個(gè)不同的分散數(shù)據(jù)庫中,它并不是對源數(shù)據(jù)庫數(shù)據(jù)的簡單拷貝,而是按照劃分好的主題和數(shù)據(jù)分析要求,經(jīng)過數(shù)據(jù)抽取、清理、匯總和整理等步驟,消除源數(shù)據(jù)中的錯(cuò)誤和不一致數(shù)據(jù),保證數(shù)據(jù)倉庫中數(shù)據(jù)的正確性和可用性,所以它是整合集成的。
。3)相對穩(wěn)定的:數(shù)據(jù)倉庫的穩(wěn)定性體現(xiàn)在它的非易失性上,由于數(shù)據(jù)倉庫是面向分析的,其中的數(shù)據(jù)是從業(yè)務(wù)數(shù)據(jù)中加載過來的歷史數(shù)據(jù),所進(jìn)行的主要操作是查詢和分析,供決策分析使用,所以其修改和刪除操作很少,只需要定期的增量加載,所以具有相對穩(wěn)定特征。
。4)反映歷史變化:數(shù)據(jù)倉庫必須能夠不斷地捕捉業(yè)務(wù)系統(tǒng)中的變化數(shù)據(jù),記錄企業(yè)生產(chǎn)過程的各個(gè)階段的信息,以滿足決策分析的需要,所以必須實(shí)時(shí)地把新變化的業(yè)務(wù)數(shù)據(jù)追加到數(shù)據(jù)倉庫中去,通過數(shù)據(jù)隨時(shí)問變化的研究和分析,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。
可見數(shù)據(jù)倉庫與業(yè)務(wù)數(shù)據(jù)庫的不同之處體現(xiàn)在:數(shù)據(jù)庫是面向事務(wù)的設(shè)計(jì),數(shù)倉庫是面向主題設(shè)計(jì)的;數(shù)據(jù)庫一般存儲(chǔ)在線交易數(shù)據(jù),數(shù)據(jù)倉庫存儲(chǔ)的一般是歷史數(shù)據(jù); 數(shù)據(jù)庫設(shè)計(jì)是盡量避免冗余,一般采用符合范式的規(guī)則來設(shè)計(jì),數(shù)據(jù)倉庫在設(shè)計(jì)是有意引入冗余,采用反范式的方式來設(shè)計(jì); 數(shù)據(jù)庫是為捕獲數(shù)據(jù)而設(shè)計(jì),數(shù)據(jù)倉庫是為分析數(shù)據(jù)而設(shè)計(jì),它的兩個(gè)基本的元素是維表和事實(shí)表。 ..
|