數(shù)據(jù)挖掘(Data Mining),又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識。 并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如,使用數(shù)據(jù)庫管理系統(tǒng)查找個別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領(lǐng)域的任務(wù)。雖然這些任務(wù)是重要的,可能涉及使用復(fù)雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計算機(jī)科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術(shù)也已用來增強(qiáng)信息檢索系統(tǒng)的能力。
數(shù)據(jù)挖掘的主要功能 數(shù)據(jù)挖掘綜合了各個學(xué)科技術(shù),有很多的功能,當(dāng)前的主要功能如下: 1、數(shù)據(jù)總結(jié):繼承于數(shù)據(jù)分析中的統(tǒng)計分析。數(shù)據(jù)總結(jié)目的是對數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。傳統(tǒng)統(tǒng)計方法如求和值、平均值、方差值等都是有效方法。另外還可以用直方圖、餅狀圖等圖形方式表示這些值。廣義上講,多維分析也可以歸入這一類。 2、分類:目的是構(gòu)造一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。要構(gòu)造分類器,需要有一個訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫記錄或元組構(gòu)成,每個元組是一個由有關(guān)字段(又稱屬性或特征)值組成的特征向量,此外,訓(xùn)練樣本還有一個類別標(biāo)記。一個具體樣本的形式可表示為:(v1,v2,…,vn;c),其中vi表示字段值,c表示類別。 例如:銀行部門根據(jù)以前的數(shù)據(jù)將客戶分成了不同的類別,現(xiàn)在就可以根據(jù)這些來區(qū)分新申請貸款的客戶,以采取相應(yīng)的貸款方案。 3、聚類:是把整個數(shù)據(jù)庫分成不同的群組。它的目的是使群與群之間差別很明顯,而同一個群之間的數(shù)據(jù)盡量相似。這種方法通常用于客戶細(xì)分。在開始細(xì)分之前不知道要把用戶分成幾類,因此通過聚類分析可以找出客戶特性相似的群體,如客戶消費(fèi)特性相似或年齡特性相似等。在此基礎(chǔ)上可以制定一些針對不同客戶群體的營銷方案。 例如:將申請人分為高度風(fēng)險申請者,中度風(fēng)險申請者,低度風(fēng)險申請者。 4、關(guān)聯(lián)分析:是尋找數(shù)據(jù)庫中值的相關(guān)性。兩種常用的技術(shù)是關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是尋找在同一個事件中出現(xiàn)的不同項的相關(guān)性;序列模式與此類似,尋找的是事件之間時間上的相關(guān)性,例如:今天銀行利率的調(diào)整,明天股市的變化。 5、預(yù)測:把握分析對象發(fā)展的規(guī)律,對未來的趨勢做出預(yù)見。例如:對未來經(jīng)濟(jì)發(fā)展的判斷。 6、偏差的檢測:對分析對象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。例如:在銀行的100萬筆交易中有500例的欺詐行為,銀行為了穩(wěn)健經(jīng)營,就要發(fā)現(xiàn)這500例的內(nèi)在因素,減小以后經(jīng)營的風(fēng)險。 以上數(shù)據(jù)挖掘的各項功能不是獨(dú)立存在的,它們在數(shù)據(jù)挖掘中互相聯(lián)系,發(fā)揮作用。
..
|