中小企業(yè)辦公自動(dòng)化系統(tǒng) |
|
|
|
數(shù)據(jù)挖掘簡(jiǎn)單介紹 |
作者:佚名 來源:網(wǎng)絡(luò) |
導(dǎo)讀:辦公自動(dòng)化系統(tǒng) ,數(shù)據(jù)挖掘簡(jiǎn)單介紹:了解數(shù)據(jù)之間的相互關(guān)系和發(fā)展趨勢(shì)。然而當(dāng)前數(shù)據(jù)可視化工具的種類、質(zhì)量和靈活性較大的影響數(shù)據(jù)挖掘系統(tǒng)的使用、解釋能力和吸引力。 為此,本系統(tǒng)使用分布式大數(shù)據(jù)處理技術(shù)進(jìn)行數(shù)據(jù)的存儲(chǔ)和計(jì)算,構(gòu)建一個(gè)數(shù)據(jù)挖掘可視化平臺(tái),以多種挖掘算法的實(shí)現(xiàn)對(duì)原始數(shù)據(jù)集進(jìn)行挖掘,從而發(fā)現(xiàn)數(shù)據(jù)中有用的信息。數(shù)據(jù)挖掘的幾個(gè)研究熱 |
關(guān)鍵詞:
協(xié)同辦公
ERP軟件
檔案
客戶管理
知識(shí)管理
項(xiàng)目管理
合同管理
|
豐富而靈活的數(shù)據(jù)挖掘結(jié)果可視化技術(shù)使抽象的信息以簡(jiǎn)明的形式呈現(xiàn)出來,加深用戶對(duì)數(shù)據(jù)含義的理解,更好地了解數(shù)據(jù)之間的相互關(guān)系和發(fā)展趨勢(shì)。然而當(dāng)前數(shù)據(jù)可視化工具的種類、質(zhì)量和靈活性較大的影響數(shù)據(jù)挖掘系統(tǒng)的使用、解釋能力和吸引力。 為此,本系統(tǒng)使用分布式大數(shù)據(jù)處理技術(shù)進(jìn)行數(shù)據(jù)的存儲(chǔ)和計(jì)算,構(gòu)建一個(gè)數(shù)據(jù)挖掘可視化平臺(tái),以多種挖掘算法的實(shí)現(xiàn)對(duì)原始數(shù)據(jù)集進(jìn)行挖掘,從而發(fā)現(xiàn)數(shù)據(jù)中有用的信息。 數(shù)據(jù)挖掘的幾個(gè)研究熱點(diǎn)主要包括數(shù)據(jù)流挖掘、文本挖掘、Web挖掘、及生物信息數(shù)據(jù)挖掘四個(gè)方面。 (1)數(shù)據(jù)流挖掘 通信領(lǐng)域中的電話記錄數(shù)據(jù)流、Web上的用戶點(diǎn)擊數(shù)據(jù)流、網(wǎng)絡(luò)監(jiān)測(cè)中的數(shù)據(jù)包流、各 類傳感器網(wǎng)絡(luò)中的檢測(cè)數(shù)據(jù)流、金融領(lǐng)域的證 券數(shù)據(jù)流、衛(wèi)星傳回的圖像數(shù)據(jù)流以及零售業(yè) 務(wù)中的交易數(shù)據(jù)流等形成了一種與傳統(tǒng)數(shù)據(jù) 庫中靜態(tài)數(shù)據(jù)不同的數(shù)據(jù)形態(tài)——數(shù)據(jù)流。 數(shù)據(jù)流實(shí)時(shí)、連續(xù)、有序、快速到達(dá)的特 點(diǎn)以及在線分析的應(yīng)用需求,對(duì)流數(shù)據(jù)挖掘算 法提出了諸多挑戰(zhàn),其中最主要的挑戰(zhàn)是使用 小的存儲(chǔ)空間和少的運(yùn)行時(shí)間快速地進(jìn)行必 要的處理,傳統(tǒng)的處理方法難以滿足這種要求。 (2)文本挖掘 文本挖掘是近幾年來數(shù)據(jù)挖掘領(lǐng)域的一 個(gè)新興分支,文本挖掘也稱為文本數(shù)據(jù)庫中的 知識(shí)發(fā)現(xiàn),是從大量文本的集合或語料庫中抽 取事先未知的、可理解的、有潛在實(shí)用價(jià)值的 模式和知識(shí)。 目前,國外的文本挖掘研究已經(jīng)從實(shí)驗(yàn)性 階段進(jìn)入到實(shí)用化階段,著名的文本挖掘工具 有:IBM的文本智能挖掘機(jī)、Autonomy公司的 Concept Agents、TelTech公司的TelTech等。但 是,國內(nèi)正式引入文本挖掘的概念并開展針對(duì) 中文的文本挖掘研究是從近幾年才開始的。 (3)Web挖掘 Web挖掘定義為:從Web文檔、Web活 動(dòng)中抽取感興趣的、潛在的有用模式和隱藏信 息。 Web挖掘的研究主要有3種,即Web結(jié) 構(gòu)研究、Web使用研究和Web內(nèi)容研究。 Web挖掘廣泛應(yīng)用于搜索引擎、網(wǎng)站設(shè)計(jì) 和電子商務(wù)等領(lǐng)域。面向Web的數(shù)據(jù)挖掘比面 向數(shù)據(jù)庫和數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復(fù)雜得多, 這是由于互聯(lián)網(wǎng)上異構(gòu)數(shù)據(jù)源環(huán)境、數(shù)據(jù)結(jié)構(gòu) 的復(fù)雜性、動(dòng)態(tài)變化的應(yīng)用環(huán)境等特性所決定 的。 (4)生物信息數(shù)據(jù)挖掘 人類基因組計(jì)劃的啟動(dòng)和實(shí)施使得核酸、 蛋白質(zhì)數(shù)據(jù)迅速增長(zhǎng),這些海量的數(shù)據(jù)需要被 合理的存儲(chǔ)、組織和索引,信息科學(xué)被引入這一領(lǐng)域就形成了“生物信息學(xué)”。生物信息學(xué)是定義為生命科學(xué)與數(shù)學(xué)、計(jì)算機(jī)科學(xué)和信息科學(xué)等交匯融合所形成的一門交叉學(xué)科。它應(yīng)用先進(jìn)的數(shù)據(jù)管理技術(shù)、數(shù)學(xué)分析模型和計(jì)算機(jī)軟件對(duì)各種生物信息進(jìn)行提取、儲(chǔ)存、處理和分析,旨在掌握復(fù)雜生命現(xiàn)象的形成模式與演化規(guī)律。顯然,數(shù)據(jù)挖掘在生物信息中具有重要的作用,生物信息數(shù)據(jù)挖掘通過利用數(shù)據(jù)挖掘技術(shù)和方法來發(fā)現(xiàn)對(duì)分子生物學(xué)有價(jià)值的知識(shí)。數(shù)據(jù)挖掘與生物信息學(xué)有很好的結(jié)合點(diǎn),其在生物信息學(xué)領(lǐng)域的應(yīng)用潛力日益受到人們的重視。 隨著越來越多的業(yè)務(wù)需求被不斷開拓,數(shù)據(jù)挖掘已成功應(yīng)用于社會(huì)生活的方方面面,目前在很多領(lǐng)域如商業(yè)、醫(yī)學(xué)、科學(xué)研究等均有不少成功的應(yīng)用案例。為了提高系統(tǒng)的決策支持能力,像ERP、SCM、HR等一些應(yīng)用系統(tǒng)也逐漸與數(shù)據(jù)挖掘集成起來。多種理論與方法的合理整合是大多數(shù)研究者采用的有效技術(shù)。 以下是未來比較重要的數(shù)據(jù)挖掘發(fā)展趨勢(shì): 1.數(shù)據(jù)挖掘技術(shù)與特定商業(yè)邏輯的平滑集成問題; 2.數(shù)據(jù)挖掘技術(shù)與特定數(shù)據(jù)存儲(chǔ)類型的適應(yīng)問題; 3.大型數(shù)據(jù)的選擇與預(yù)處理問題; 4.數(shù)據(jù)挖掘系統(tǒng)的構(gòu)架與交互式挖掘技術(shù); 5.數(shù)據(jù)挖掘語言與系統(tǒng)的可視化問題; 6.數(shù)據(jù)挖掘理論與算法研究; 7.與數(shù)據(jù)庫數(shù)據(jù)倉庫系統(tǒng)集成; 8.與語言模型系統(tǒng)集成; 9.挖掘各種復(fù)雜類型的數(shù)據(jù); 10.支持移動(dòng)環(huán)境;..
|
|