數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的,以及最終可理解的知識(shí)的非平凡過(guò)程。這個(gè)定義包括幾層含義:數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問(wèn)題。數(shù)據(jù)挖掘,簡(jiǎn)單地可理解為通過(guò)對(duì)環(huán)境數(shù)據(jù)的操作,從數(shù)據(jù)中發(fā)現(xiàn)有用的知識(shí)。
它是一門涉及面很廣的交叉學(xué)科,包括機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計(jì)、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、模式識(shí)別、粗糙集、模糊數(shù)學(xué)等相關(guān)技術(shù)。就具體應(yīng)用而言,數(shù)據(jù)挖掘是一個(gè)利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過(guò)程,這些模型和關(guān)系可以用來(lái)做出預(yù)測(cè)。 從商業(yè)角度上看,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報(bào)表、聯(lián)機(jī)應(yīng)用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒(méi)有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先前未知,有效和可實(shí)用三個(gè)特征。先前未知的信息是指該信息是預(yù)先未曾預(yù)料到的,既數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺(jué)發(fā)現(xiàn)的信息或知識(shí),甚至是違背直覺(jué)的信息或知識(shí),挖掘出的信息越是出乎意料,就可能越有價(jià)值。
數(shù)據(jù)挖掘技術(shù)雖是一項(xiàng)新興的數(shù)據(jù)處理技術(shù),但其發(fā)展速度十分迅猛,至今已經(jīng)形成了決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)學(xué)習(xí)、聚類分析、關(guān)聯(lián)規(guī)則等多項(xiàng)數(shù)據(jù)挖掘技術(shù),極大的滿足了用戶的需求。
數(shù)據(jù)挖掘技術(shù)是一個(gè)年輕而充滿希望的研究領(lǐng)域, 商業(yè)利益的強(qiáng)大驅(qū)動(dòng)力將會(huì)不停地促進(jìn)它的發(fā)展, 每年都有新的數(shù)據(jù)挖掘方法和模型問(wèn)世,人們對(duì)它的研究正日益廣泛和深入。
數(shù)據(jù)挖掘技術(shù)從一開(kāi)始就是面向應(yīng)用的。它不僅是面向特定數(shù)據(jù)庫(kù)的簡(jiǎn)單檢索查詢調(diào)用, 而且要對(duì)這些數(shù)據(jù)進(jìn)行微觀及宏觀的統(tǒng)計(jì)、 分析、 綜合和推理, 以指導(dǎo)實(shí)際問(wèn)題的求解, 試圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián), 甚至利用已有的數(shù)據(jù)對(duì)未來(lái)的活動(dòng)進(jìn)行預(yù)測(cè)。數(shù)據(jù)挖掘技術(shù)的研究取得了一定的成果, 但是數(shù)據(jù)挖掘技術(shù)研究仍然面臨著許多問(wèn)題和挑戰(zhàn), 還存在許多問(wèn)題等待我們?nèi)ヌ剿骱脱芯俊?/P>
..
|