數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的知識的非平凡過程。這個定義包括幾層含義:數(shù)據(jù)源必須是真實的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運用;并不要求發(fā)現(xiàn)放之四海皆準的知識,僅支持特定的發(fā)現(xiàn)問題。數(shù)據(jù)挖掘,簡單地可理解為通過對環(huán)境數(shù)據(jù)的操作,從數(shù)據(jù)中發(fā)現(xiàn)有用的知識。
它是一門涉及面很廣的交叉學科,包括機器學習、數(shù)理統(tǒng)計、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫、模式識別、粗糙集、模糊數(shù)學等相關(guān)技術(shù)。就具體應用而言,數(shù)據(jù)挖掘是一個利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過程,這些模型和關(guān)系可以用來做出預測。 從商業(yè)角度上看,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報表、聯(lián)機應用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘所得到的信息應具有先前未知,有效和可實用三個特征。先前未知的信息是指該信息是預先未曾預料到的,既數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。
數(shù)據(jù)挖掘技術(shù)雖是一項新興的數(shù)據(jù)處理技術(shù),但其發(fā)展速度十分迅猛,至今已經(jīng)形成了決策樹、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計學習、聚類分析、關(guān)聯(lián)規(guī)則等多項數(shù)據(jù)挖掘技術(shù),極大的滿足了用戶的需求。
數(shù)據(jù)挖掘技術(shù)是一個年輕而充滿希望的研究領(lǐng)域, 商業(yè)利益的強大驅(qū)動力將會不停地促進它的發(fā)展, 每年都有新的數(shù)據(jù)挖掘方法和模型問世,人們對它的研究正日益廣泛和深入。
數(shù)據(jù)挖掘技術(shù)從一開始就是面向應用的。它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用, 而且要對這些數(shù)據(jù)進行微觀及宏觀的統(tǒng)計、 分析、 綜合和推理, 以指導實際問題的求解, 試圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián), 甚至利用已有的數(shù)據(jù)對未來的活動進行預測。數(shù)據(jù)挖掘技術(shù)的研究取得了一定的成果, 但是數(shù)據(jù)挖掘技術(shù)研究仍然面臨著許多問題和挑戰(zhàn), 還存在許多問題等待我們?nèi)ヌ剿骱脱芯俊?/P>
..
|