|
數(shù)據(jù)挖掘簡單介紹 |
作者:佚名 來源:網(wǎng)絡(luò) |
豐富而靈活的數(shù)據(jù)挖掘結(jié)果可視化技術(shù)使抽象的信息以簡明的形式呈現(xiàn)出來,加深用戶對數(shù)據(jù)含義的理解,更好地了解數(shù)據(jù)之間的相互關(guān)系和發(fā)展趨勢。然而當前數(shù)據(jù)可視化工具的種類、質(zhì)量和靈活性較大的影響數(shù)據(jù)挖掘系統(tǒng)的使用、解釋能力和吸引力。 為此,本系統(tǒng)使用分布式大數(shù)據(jù)處理技術(shù)進行數(shù)據(jù)的存儲和計算,構(gòu)建一個數(shù)據(jù)挖掘可視化平臺,以多種挖掘算法的實現(xiàn)對原始數(shù)據(jù)集進行挖掘,從而發(fā)現(xiàn)數(shù)據(jù)中有用的信息。 數(shù)據(jù)挖掘的幾個研究熱點主要包括數(shù)據(jù)流挖掘、文本挖掘、Web挖掘、及生物信息數(shù)據(jù)挖掘四個方面。 (1)數(shù)據(jù)流挖掘 通信領(lǐng)域中的電話記錄數(shù)據(jù)流、Web上的用戶點擊數(shù)據(jù)流、網(wǎng)絡(luò)監(jiān)測中的數(shù)據(jù)包流、各 類傳感器網(wǎng)絡(luò)中的檢測數(shù)據(jù)流、金融領(lǐng)域的證 券數(shù)據(jù)流、衛(wèi)星傳回的圖像數(shù)據(jù)流以及零售業(yè) 務(wù)中的交易數(shù)據(jù)流等形成了一種與傳統(tǒng)數(shù)據(jù) 庫中靜態(tài)數(shù)據(jù)不同的數(shù)據(jù)形態(tài)——數(shù)據(jù)流。 數(shù)據(jù)流實時、連續(xù)、有序、快速到達的特 點以及在線分析的應用需求,對流數(shù)據(jù)挖掘算 法提出了諸多挑戰(zhàn),其中最主要的挑戰(zhàn)是使用 小的存儲空間和少的運行時間快速地進行必 要的處理,傳統(tǒng)的處理方法難以滿足這種要求。 (2)文本挖掘 文本挖掘是近幾年來數(shù)據(jù)挖掘領(lǐng)域的一 個新興分支,文本挖掘也稱為文本數(shù)據(jù)庫中的 知識發(fā)現(xiàn),是從大量文本的集合或語料庫中抽 取事先未知的、可理解的、有潛在實用價值的 模式和知識。 目前,國外的文本挖掘研究已經(jīng)從實驗性 階段進入到實用化階段,著名的文本挖掘工具 有:IBM的文本智能挖掘機、Autonomy公司的 Concept Agents、TelTech公司的TelTech等。但 是,國內(nèi)正式引入文本挖掘的概念并開展針對 中文的文本挖掘研究是從近幾年才開始的。 (3)Web挖掘 Web挖掘定義為:從Web文檔、Web活 動中抽取感興趣的、潛在的有用模式和隱藏信 息。 Web挖掘的研究主要有3種,即Web結(jié) 構(gòu)研究、Web使用研究和Web內(nèi)容研究。 Web挖掘廣泛應用于搜索引擎、網(wǎng)站設(shè)計 和電子商務(wù)等領(lǐng)域。面向Web的數(shù)據(jù)挖掘比面 向數(shù)據(jù)庫和數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復雜得多, 這是由于互聯(lián)網(wǎng)上異構(gòu)數(shù)據(jù)源環(huán)境、數(shù)據(jù)結(jié)構(gòu) 的復雜性、動態(tài)變化的應用環(huán)境等特性所決定 的。 (4)生物信息數(shù)據(jù)挖掘 人類基因組計劃的啟動和實施使得核酸、 蛋白質(zhì)數(shù)據(jù)迅速增長,這些海量的數(shù)據(jù)需要被 合理的存儲、組織和索引,信息科學被引入這一領(lǐng)域就形成了“生物信息學”。生物信息學是定義為生命科學與數(shù)學、計算機科學和信息科學等交匯融合所形成的一門交叉學科。它應用先進的數(shù)據(jù)管理技術(shù)、數(shù)學分析模型和計算機軟件對各種生物信息進行提取、儲存、處理和分析,旨在掌握復雜生命現(xiàn)象的形成模式與演化規(guī)律。顯然,數(shù)據(jù)挖掘在生物信息中具有重要的作用,生物信息數(shù)據(jù)挖掘通過利用數(shù)據(jù)挖掘技術(shù)和方法來發(fā)現(xiàn)對分子生物學有價值的知識。數(shù)據(jù)挖掘與生物信息學有很好的結(jié)合點,其在生物信息學領(lǐng)域的應用潛力日益受到人們的重視。 隨著越來越多的業(yè)務(wù)需求被不斷開拓,數(shù)據(jù)挖掘已成功應用于社會生活的方方面面,目前在很多領(lǐng)域如商業(yè)、醫(yī)學、科學研究等均有不少成功的應用案例。為了提高系統(tǒng)的決策支持能力,像ERP、SCM、HR等一些應用系統(tǒng)也逐漸與數(shù)據(jù)挖掘集成起來。多種理論與方法的合理整合是大多數(shù)研究者采用的有效技術(shù)。 以下是未來比較重要的數(shù)據(jù)挖掘發(fā)展趨勢: 1.數(shù)據(jù)挖掘技術(shù)與特定商業(yè)邏輯的平滑集成問題; 2.數(shù)據(jù)挖掘技術(shù)與特定數(shù)據(jù)存儲類型的適應問題; 3.大型數(shù)據(jù)的選擇與預處理問題; 4.數(shù)據(jù)挖掘系統(tǒng)的構(gòu)架與交互式挖掘技術(shù); 5.數(shù)據(jù)挖掘語言與系統(tǒng)的可視化問題; 6.數(shù)據(jù)挖掘理論與算法研究; 7.與數(shù)據(jù)庫數(shù)據(jù)倉庫系統(tǒng)集成; 8.與語言模型系統(tǒng)集成; 9.挖掘各種復雜類型的數(shù)據(jù); 10.支持移動環(huán)境;..
|
|