近十多年來,數(shù)據(jù)挖掘在全世界信息產(chǎn)業(yè)界受到了極大的關(guān)注,并飛速發(fā)展,究其原因,在于全球信息技術(shù)的迅速發(fā)展和互聯(lián)網(wǎng)的快速普及造成了數(shù)據(jù)過量和信息爆炸,人們迫切需要有這樣一種技術(shù)可以幫助他們從浩如煙海的信息中找出他們真正需要的、有價(jià)值的那一部分信息和知識(shí)。而數(shù)據(jù)挖掘正是解決以上問題的有效手段。 關(guān)于數(shù)據(jù)挖掘,最簡單明確的表述是從海量、混雜的數(shù)據(jù)里挖掘或者提取有用模式或知識(shí)的一個(gè)過程。
數(shù)據(jù)挖掘可以說是一門跨多個(gè)學(xué)科和知識(shí)領(lǐng)域的新興課題,它將人們應(yīng)用數(shù)據(jù)的方式從原本簡單的查詢提升至在數(shù)據(jù)里挖掘與發(fā)現(xiàn)知識(shí)以對(duì)決策行為提供支持。而為了能滿足人們從數(shù)據(jù)里發(fā)現(xiàn)知識(shí)的需求,來自不同領(lǐng)域,如數(shù)據(jù)庫領(lǐng)域、模式識(shí)別領(lǐng)域、機(jī)器學(xué)習(xí)領(lǐng)域、人工智能領(lǐng)域、統(tǒng)計(jì)學(xué)領(lǐng)域、可視化領(lǐng)域和并行計(jì)算領(lǐng)域等的諸多優(yōu)秀的研究者和技術(shù)專家都致力于研究這個(gè)新興的課題—數(shù)據(jù)挖掘,不斷研究和創(chuàng)造出優(yōu)秀的研究成果,也使得數(shù)據(jù)挖掘成為了新的技術(shù)熱點(diǎn)。 數(shù)據(jù)挖掘技術(shù)的發(fā)展與數(shù)據(jù)庫技術(shù)的發(fā)展密切相關(guān),可以從各種數(shù)據(jù)源,如關(guān)系數(shù)據(jù)庫、空間數(shù)據(jù)庫、數(shù)據(jù)倉庫、時(shí)態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、事務(wù)數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、異構(gòu)數(shù)據(jù)庫以及Internet等中挖掘信息。
目前,數(shù)據(jù)挖掘技術(shù)廣泛應(yīng)用在很多行業(yè),如金融業(yè)、通信業(yè)、交通業(yè)、大型零售業(yè)及保險(xiǎn)業(yè)等商業(yè)領(lǐng)域,從而可以解決以下商業(yè)問題: (1)市場(chǎng)分析及行為問題,如營銷背景分析、客戶群體劃分和交叉銷售等;
(2)客戶行為分析及功能分析問題,如客戶信用分析、客戶流失性分析、欺詐行為發(fā)現(xiàn)和故障診斷等等。數(shù)據(jù)挖掘技術(shù)和算法的研究價(jià)值不僅僅在于學(xué)術(shù)領(lǐng)域,更多的在于實(shí)際的商業(yè)應(yīng)用。
近年來,人們希望有新的技術(shù)和工具對(duì)大量數(shù)據(jù)進(jìn)行強(qiáng)有力的分析,從中提取出有價(jià)值的信息,為決策者提供必要的支持。由此,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。許多企業(yè)實(shí)施了ERP系統(tǒng),完成了企業(yè)業(yè)務(wù)管理的功能,并形成了準(zhǔn)確、及時(shí)、完整的基礎(chǔ)數(shù)據(jù)。然而,決策中最重要問題是如何獲取更高層次的知識(shí),來把握企業(yè)整體運(yùn)作和決定企業(yè)未來的戰(zhàn)略發(fā)展,這就需要可靠的決策支持系統(tǒng),而數(shù)據(jù)挖掘技術(shù)就成為實(shí)現(xiàn)決策支持系統(tǒng)的最佳途徑。
..
|