一、數(shù)據(jù)挖掘的內在局限性 對數(shù)據(jù)挖掘技術期望過高,是數(shù)據(jù)挖掘應用過程中經(jīng)常出現(xiàn)的一個問題。企業(yè)管理人員或者業(yè)務人員抱著美好的愿望,希望數(shù)據(jù)挖掘像“魔杖”一樣解決面臨的棘手問題,但是如果要求的結果與已有的數(shù)據(jù)沒有關聯(lián)(或者相關性太小),數(shù)據(jù)挖掘是無能為力的。一個典型的情況是,企業(yè)可能會要求挖掘出客戶流失的原因。
二、把數(shù)據(jù)挖掘當作一個IT項目來做 IT專業(yè)出身的管理者,容易把數(shù)據(jù)挖掘理解成一種管理工具,因此傾向于把數(shù)據(jù)挖掘建成類似一種MIS的東西,希望有一個界面,登錄進去后,點幾個按鈕,神奇的預測結果就展現(xiàn)出來。這種僵硬的做法有可能窒息數(shù)據(jù)挖掘的強大威力。有些企業(yè)把客戶細分模型固化下來,使其對每個月的全體客戶用同一模型評分,這樣做的目的僅僅是為了保證市場部既定的營銷策略能夠持續(xù)地實施下去。這些企業(yè)顯然沒有想到應該根據(jù)市場的變化及時靈活地改變營銷策略,或者目前還做不到這樣,或者是不太愿意求變,否則他們一定會要求數(shù)據(jù)挖掘工程師每月生產出數(shù)十、上百種客戶細分結果,然后像鯊魚嗜血一般地從中尋找商機的。企業(yè)本身嚴重缺乏專門的數(shù)據(jù)分析人員,為了省事而要求把數(shù)據(jù)挖掘做成管理系統(tǒng)一樣的東西,也是其中的原因之一。 三、技術采用的偏頗 對數(shù)據(jù)挖掘算法技術理解的不全面,也可能導致企業(yè)只愿意選擇那些結果外觀容易理解的技術,使得數(shù)據(jù)挖掘的功能得不到充分發(fā)揮。
四、對數(shù)據(jù)挖掘結果的懷疑 一些企業(yè)管理人員,包括一些計算機專業(yè)人士,還表現(xiàn)出對于數(shù)據(jù)挖掘結果的應用缺乏信心。這顯然是因為他們沒有注意到數(shù)據(jù)挖掘模型在應用之前有一個檢驗的工序,模型將在歷史數(shù)據(jù)基礎上進行多次精度檢驗,當然也可以對最新的業(yè)務數(shù)據(jù)進行預測并且稍后檢驗預測的正確性。模型經(jīng)過這樣的檢驗后,應該能夠打消應用前的擔心。還有另一個極端,即對數(shù)據(jù)挖掘模型的預測能力期望過高,甚至預先指定應該達到某一指標,就像強令醫(yī)生必須把手術室里的病人治好一樣,殊不知挖掘模型的精度受多種因素影響,精度提高都是有一定限度的,勉力為之無異于搞“大躍進”。如果從投資回報(ROI)角度來看問題,則能夠比較合理地測算一項數(shù)據(jù)挖掘工作的實施是否合算,而不需要把目光局限于模型的某一絕對精度上。
五、數(shù)據(jù)挖掘工具的局限 大家都知道,數(shù)據(jù)挖掘的60-80%工作量花在數(shù)據(jù)準備階段。其實在建模過程也是需要大量的手工勞動的。目前的數(shù)據(jù)挖掘軟件工具中,各算法采用默認的參數(shù)設置并不總是最合理的,不能得到最佳的預測模型的,因此對于每個業(yè)務新問題,都要重新探索數(shù)據(jù)的相關性,進行算法參數(shù)的重新調整和配置,以得到優(yōu)化的模型。這也正是當前數(shù)據(jù)挖掘工程師的價值所在,他們能夠根據(jù)原理和以往經(jīng)驗做出決定,迅速判斷應該如何對模型調優(yōu)。但是,由于現(xiàn)實問題太復雜,已有的原理并不能始終指導模型的調優(yōu)方向,更多的時候還是依賴大量的數(shù)據(jù)試驗摸索前進,因此建模的過程也是漫長痛苦的,F(xiàn)有的很多數(shù)據(jù)挖掘工具并不支持復雜調優(yōu)過程的自動化。
未來展望: 性能:在過去10多年里,計算機硬件性能的巨幅提升和數(shù)據(jù)庫技術的飛速發(fā)展,使得企業(yè)級大數(shù)據(jù)量的計算成為現(xiàn)實,未來若干年里可能仍然如此,但是數(shù)據(jù)挖掘涉及的數(shù)據(jù)量會更大。 工具:挖掘工具將越來越強大,匯合的算法越來越多,預測類算法將吸納頗具新意的算法(支持向量機、粗糙集、云模型、遺傳算法等),并將實現(xiàn)算法的自動選擇和參數(shù)自動調優(yōu)。遺傳編程(GP)、歸納邏輯編程(ILP)類算法的巨大潛力將得到充分發(fā)揮。 ..
|