近十多年來,數(shù)據(jù)挖掘在全世界信息產(chǎn)業(yè)界受到了極大的關注,并飛速發(fā)展,究其原因,在于全球信息技術的迅速發(fā)展和互聯(lián)網(wǎng)的快速普及造成了數(shù)據(jù)過量和信息爆炸,人們迫切需要有這樣一種技術可以幫助他們從浩如煙海的信息中找出他們真正需要的、有價值的那一部分信息和知識。而數(shù)據(jù)挖掘正是解決以上問題的有效手段。 關于數(shù)據(jù)挖掘,最簡單明確的表述是從海量、混雜的數(shù)據(jù)里挖掘或者提取有用模式或知識的一個過程。
數(shù)據(jù)挖掘可以說是一門跨多個學科和知識領域的新興課題,它將人們應用數(shù)據(jù)的方式從原本簡單的查詢提升至在數(shù)據(jù)里挖掘與發(fā)現(xiàn)知識以對決策行為提供支持。而為了能滿足人們從數(shù)據(jù)里發(fā)現(xiàn)知識的需求,來自不同領域,如數(shù)據(jù)庫領域、模式識別領域、機器學習領域、人工智能領域、統(tǒng)計學領域、可視化領域和并行計算領域等的諸多優(yōu)秀的研究者和技術專家都致力于研究這個新興的課題—數(shù)據(jù)挖掘,不斷研究和創(chuàng)造出優(yōu)秀的研究成果,也使得數(shù)據(jù)挖掘成為了新的技術熱點。 數(shù)據(jù)挖掘技術的發(fā)展與數(shù)據(jù)庫技術的發(fā)展密切相關,可以從各種數(shù)據(jù)源,如關系數(shù)據(jù)庫、空間數(shù)據(jù)庫、數(shù)據(jù)倉庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、事務數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、異構數(shù)據(jù)庫以及Internet等中挖掘信息。
目前,數(shù)據(jù)挖掘技術廣泛應用在很多行業(yè),如金融業(yè)、通信業(yè)、交通業(yè)、大型零售業(yè)及保險業(yè)等商業(yè)領域,從而可以解決以下商業(yè)問題: (1)市場分析及行為問題,如營銷背景分析、客戶群體劃分和交叉銷售等;
(2)客戶行為分析及功能分析問題,如客戶信用分析、客戶流失性分析、欺詐行為發(fā)現(xiàn)和故障診斷等等。數(shù)據(jù)挖掘技術和算法的研究價值不僅僅在于學術領域,更多的在于實際的商業(yè)應用。
近年來,人們希望有新的技術和工具對大量數(shù)據(jù)進行強有力的分析,從中提取出有價值的信息,為決策者提供必要的支持。由此,數(shù)據(jù)挖掘技術應運而生。許多企業(yè)實施了ERP系統(tǒng),完成了企業(yè)業(yè)務管理的功能,并形成了準確、及時、完整的基礎數(shù)據(jù)。然而,決策中最重要問題是如何獲取更高層次的知識,來把握企業(yè)整體運作和決定企業(yè)未來的戰(zhàn)略發(fā)展,這就需要可靠的決策支持系統(tǒng),而數(shù)據(jù)挖掘技術就成為實現(xiàn)決策支持系統(tǒng)的最佳途徑。
..
|