數(shù)據(jù)挖掘(Data Mining),又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識。 并非所有的信息發(fā)現(xiàn)任務都被視為數(shù)據(jù)挖掘。例如,使用數(shù)據(jù)庫管理系統(tǒng)查找個別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領域的任務。雖然這些任務是重要的,可能涉及使用復雜的算法和數(shù)據(jù)結構,但是它們主要依賴傳統(tǒng)的計算機科學技術和數(shù)據(jù)的明顯特征來創(chuàng)建索引結構,從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術也已用來增強信息檢索系統(tǒng)的能力。
數(shù)據(jù)挖掘的主要功能 數(shù)據(jù)挖掘綜合了各個學科技術,有很多的功能,當前的主要功能如下: 1、數(shù)據(jù)總結:繼承于數(shù)據(jù)分析中的統(tǒng)計分析。數(shù)據(jù)總結目的是對數(shù)據(jù)進行濃縮,給出它的緊湊描述。傳統(tǒng)統(tǒng)計方法如求和值、平均值、方差值等都是有效方法。另外還可以用直方圖、餅狀圖等圖形方式表示這些值。廣義上講,多維分析也可以歸入這一類。 2、分類:目的是構造一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。要構造分類器,需要有一個訓練樣本數(shù)據(jù)集作為輸入。訓練集由一組數(shù)據(jù)庫記錄或元組構成,每個元組是一個由有關字段(又稱屬性或特征)值組成的特征向量,此外,訓練樣本還有一個類別標記。一個具體樣本的形式可表示為:(v1,v2,…,vn;c),其中vi表示字段值,c表示類別。 例如:銀行部門根據(jù)以前的數(shù)據(jù)將客戶分成了不同的類別,現(xiàn)在就可以根據(jù)這些來區(qū)分新申請貸款的客戶,以采取相應的貸款方案。 3、聚類:是把整個數(shù)據(jù)庫分成不同的群組。它的目的是使群與群之間差別很明顯,而同一個群之間的數(shù)據(jù)盡量相似。這種方法通常用于客戶細分。在開始細分之前不知道要把用戶分成幾類,因此通過聚類分析可以找出客戶特性相似的群體,如客戶消費特性相似或年齡特性相似等。在此基礎上可以制定一些針對不同客戶群體的營銷方案。 例如:將申請人分為高度風險申請者,中度風險申請者,低度風險申請者。 4、關聯(lián)分析:是尋找數(shù)據(jù)庫中值的相關性。兩種常用的技術是關聯(lián)規(guī)則和序列模式。關聯(lián)規(guī)則是尋找在同一個事件中出現(xiàn)的不同項的相關性;序列模式與此類似,尋找的是事件之間時間上的相關性,例如:今天銀行利率的調(diào)整,明天股市的變化。 5、預測:把握分析對象發(fā)展的規(guī)律,對未來的趨勢做出預見。例如:對未來經(jīng)濟發(fā)展的判斷。 6、偏差的檢測:對分析對象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。例如:在銀行的100萬筆交易中有500例的欺詐行為,銀行為了穩(wěn)健經(jīng)營,就要發(fā)現(xiàn)這500例的內(nèi)在因素,減小以后經(jīng)營的風險。 以上數(shù)據(jù)挖掘的各項功能不是獨立存在的,它們在數(shù)據(jù)挖掘中互相聯(lián)系,發(fā)揮作用。
..
|