|
數據挖掘簡單介紹 |
作者:佚名 來源:網絡 |
豐富而靈活的數據挖掘結果可視化技術使抽象的信息以簡明的形式呈現出來,加深用戶對數據含義的理解,更好地了解數據之間的相互關系和發(fā)展趨勢。然而當前數據可視化工具的種類、質量和靈活性較大的影響數據挖掘系統(tǒng)的使用、解釋能力和吸引力。 為此,本系統(tǒng)使用分布式大數據處理技術進行數據的存儲和計算,構建一個數據挖掘可視化平臺,以多種挖掘算法的實現對原始數據集進行挖掘,從而發(fā)現數據中有用的信息。 數據挖掘的幾個研究熱點主要包括數據流挖掘、文本挖掘、Web挖掘、及生物信息數據挖掘四個方面。 (1)數據流挖掘 通信領域中的電話記錄數據流、Web上的用戶點擊數據流、網絡監(jiān)測中的數據包流、各 類傳感器網絡中的檢測數據流、金融領域的證 券數據流、衛(wèi)星傳回的圖像數據流以及零售業(yè) 務中的交易數據流等形成了一種與傳統(tǒng)數據 庫中靜態(tài)數據不同的數據形態(tài)——數據流。 數據流實時、連續(xù)、有序、快速到達的特 點以及在線分析的應用需求,對流數據挖掘算 法提出了諸多挑戰(zhàn),其中最主要的挑戰(zhàn)是使用 小的存儲空間和少的運行時間快速地進行必 要的處理,傳統(tǒng)的處理方法難以滿足這種要求。 (2)文本挖掘 文本挖掘是近幾年來數據挖掘領域的一 個新興分支,文本挖掘也稱為文本數據庫中的 知識發(fā)現,是從大量文本的集合或語料庫中抽 取事先未知的、可理解的、有潛在實用價值的 模式和知識。 目前,國外的文本挖掘研究已經從實驗性 階段進入到實用化階段,著名的文本挖掘工具 有:IBM的文本智能挖掘機、Autonomy公司的 Concept Agents、TelTech公司的TelTech等。但 是,國內正式引入文本挖掘的概念并開展針對 中文的文本挖掘研究是從近幾年才開始的。 (3)Web挖掘 Web挖掘定義為:從Web文檔、Web活 動中抽取感興趣的、潛在的有用模式和隱藏信 息。 Web挖掘的研究主要有3種,即Web結 構研究、Web使用研究和Web內容研究。 Web挖掘廣泛應用于搜索引擎、網站設計 和電子商務等領域。面向Web的數據挖掘比面 向數據庫和數據倉庫的數據挖掘要復雜得多, 這是由于互聯網上異構數據源環(huán)境、數據結構 的復雜性、動態(tài)變化的應用環(huán)境等特性所決定 的。 (4)生物信息數據挖掘 人類基因組計劃的啟動和實施使得核酸、 蛋白質數據迅速增長,這些海量的數據需要被 合理的存儲、組織和索引,信息科學被引入這一領域就形成了“生物信息學”。生物信息學是定義為生命科學與數學、計算機科學和信息科學等交匯融合所形成的一門交叉學科。它應用先進的數據管理技術、數學分析模型和計算機軟件對各種生物信息進行提取、儲存、處理和分析,旨在掌握復雜生命現象的形成模式與演化規(guī)律。顯然,數據挖掘在生物信息中具有重要的作用,生物信息數據挖掘通過利用數據挖掘技術和方法來發(fā)現對分子生物學有價值的知識。數據挖掘與生物信息學有很好的結合點,其在生物信息學領域的應用潛力日益受到人們的重視。 隨著越來越多的業(yè)務需求被不斷開拓,數據挖掘已成功應用于社會生活的方方面面,目前在很多領域如商業(yè)、醫(yī)學、科學研究等均有不少成功的應用案例。為了提高系統(tǒng)的決策支持能力,像ERP、SCM、HR等一些應用系統(tǒng)也逐漸與數據挖掘集成起來。多種理論與方法的合理整合是大多數研究者采用的有效技術。 以下是未來比較重要的數據挖掘發(fā)展趨勢: 1.數據挖掘技術與特定商業(yè)邏輯的平滑集成問題; 2.數據挖掘技術與特定數據存儲類型的適應問題; 3.大型數據的選擇與預處理問題; 4.數據挖掘系統(tǒng)的構架與交互式挖掘技術; 5.數據挖掘語言與系統(tǒng)的可視化問題; 6.數據挖掘理論與算法研究; 7.與數據庫數據倉庫系統(tǒng)集成; 8.與語言模型系統(tǒng)集成; 9.挖掘各種復雜類型的數據; 10.支持移動環(huán)境;..
|
|