數(shù)據(jù)倉庫的定義
目前對于數(shù)據(jù)倉庫還沒有統(tǒng)一的定義,被稱為數(shù)據(jù)倉庫之父的BillInmon在其著作《(Building the Data Warehouse))一書中給出的定義被廣泛接受:數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non.Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。
可以從兩個層面對數(shù)據(jù)倉庫的概念進行理解,首先數(shù)據(jù)倉庫是面向分析處理的,主要用來支持決策制定;再者數(shù)據(jù)倉庫包含歷史數(shù)據(jù),是對多個異構(gòu)的數(shù)據(jù)源數(shù)據(jù)按照主題的集成,它的數(shù)據(jù)相對固定,不會經(jīng)常改動。
數(shù)據(jù)倉庫的特點
面向主題、集成、相對穩(wěn)定、反映歷史變化是對數(shù)據(jù)倉庫的定義,也是對數(shù)據(jù)倉庫特點的描述,下面分別解釋它們的含義。
。1)面向主題的:數(shù)據(jù)倉庫的數(shù)據(jù)都是按照一定的業(yè)務主題進行組織的,面向主題體現(xiàn)在數(shù)據(jù)倉庫的建設中,而且還包含在業(yè)務數(shù)據(jù)分析和存儲上。
。2)集成的:數(shù)據(jù)倉庫中的數(shù)據(jù)來自各個不同的分散數(shù)據(jù)庫中,它并不是對源數(shù)據(jù)庫數(shù)據(jù)的簡單拷貝,而是按照劃分好的主題和數(shù)據(jù)分析要求,經(jīng)過數(shù)據(jù)抽取、清理、匯總和整理等步驟,消除源數(shù)據(jù)中的錯誤和不一致數(shù)據(jù),保證數(shù)據(jù)倉庫中數(shù)據(jù)的正確性和可用性,所以它是整合集成的。
。3)相對穩(wěn)定的:數(shù)據(jù)倉庫的穩(wěn)定性體現(xiàn)在它的非易失性上,由于數(shù)據(jù)倉庫是面向分析的,其中的數(shù)據(jù)是從業(yè)務數(shù)據(jù)中加載過來的歷史數(shù)據(jù),所進行的主要操作是查詢和分析,供決策分析使用,所以其修改和刪除操作很少,只需要定期的增量加載,所以具有相對穩(wěn)定特征。
。4)反映歷史變化:數(shù)據(jù)倉庫必須能夠不斷地捕捉業(yè)務系統(tǒng)中的變化數(shù)據(jù),記錄企業(yè)生產(chǎn)過程的各個階段的信息,以滿足決策分析的需要,所以必須實時地把新變化的業(yè)務數(shù)據(jù)追加到數(shù)據(jù)倉庫中去,通過數(shù)據(jù)隨時問變化的研究和分析,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預測。
可見數(shù)據(jù)倉庫與業(yè)務數(shù)據(jù)庫的不同之處體現(xiàn)在:數(shù)據(jù)庫是面向事務的設計,數(shù)倉庫是面向主題設計的;數(shù)據(jù)庫一般存儲在線交易數(shù)據(jù),數(shù)據(jù)倉庫存儲的一般是歷史數(shù)據(jù); 數(shù)據(jù)庫設計是盡量避免冗余,一般采用符合范式的規(guī)則來設計,數(shù)據(jù)倉庫在設計是有意引入冗余,采用反范式的方式來設計; 數(shù)據(jù)庫是為捕獲數(shù)據(jù)而設計,數(shù)據(jù)倉庫是為分析數(shù)據(jù)而設計,它的兩個基本的元素是維表和事實表。
|