一、數(shù)據(jù)挖掘的內(nèi)在局限性 對數(shù)據(jù)挖掘技術(shù)期望過高,是數(shù)據(jù)挖掘應(yīng)用過程中經(jīng)常出現(xiàn)的一個問題。企業(yè)管理人員或者業(yè)務(wù)人員抱著美好的愿望,希望數(shù)據(jù)挖掘像“魔杖”一樣解決面臨的棘手問題,但是如果要求的結(jié)果與已有的數(shù)據(jù)沒有關(guān)聯(lián)(或者相關(guān)性太。,數(shù)據(jù)挖掘是無能為力的。一個典型的情況是,企業(yè)可能會要求挖掘出客戶流失的原因。
二、把數(shù)據(jù)挖掘當(dāng)作一個IT項目來做 IT專業(yè)出身的管理者,容易把數(shù)據(jù)挖掘理解成一種管理工具,因此傾向于把數(shù)據(jù)挖掘建成類似一種MIS的東西,希望有一個界面,登錄進去后,點幾個按鈕,神奇的預(yù)測結(jié)果就展現(xiàn)出來。這種僵硬的做法有可能窒息數(shù)據(jù)挖掘的強大威力。有些企業(yè)把客戶細分模型固化下來,使其對每個月的全體客戶用同一模型評分,這樣做的目的僅僅是為了保證市場部既定的營銷策略能夠持續(xù)地實施下去。這些企業(yè)顯然沒有想到應(yīng)該根據(jù)市場的變化及時靈活地改變營銷策略,或者目前還做不到這樣,或者是不太愿意求變,否則他們一定會要求數(shù)據(jù)挖掘工程師每月生產(chǎn)出數(shù)十、上百種客戶細分結(jié)果,然后像鯊魚嗜血一般地從中尋找商機的。企業(yè)本身嚴(yán)重缺乏專門的數(shù)據(jù)分析人員,為了省事而要求把數(shù)據(jù)挖掘做成管理系統(tǒng)一樣的東西,也是其中的原因之一。 三、技術(shù)采用的偏頗 對數(shù)據(jù)挖掘算法技術(shù)理解的不全面,也可能導(dǎo)致企業(yè)只愿意選擇那些結(jié)果外觀容易理解的技術(shù),使得數(shù)據(jù)挖掘的功能得不到充分發(fā)揮。
四、對數(shù)據(jù)挖掘結(jié)果的懷疑 一些企業(yè)管理人員,包括一些計算機專業(yè)人士,還表現(xiàn)出對于數(shù)據(jù)挖掘結(jié)果的應(yīng)用缺乏信心。這顯然是因為他們沒有注意到數(shù)據(jù)挖掘模型在應(yīng)用之前有一個檢驗的工序,模型將在歷史數(shù)據(jù)基礎(chǔ)上進行多次精度檢驗,當(dāng)然也可以對最新的業(yè)務(wù)數(shù)據(jù)進行預(yù)測并且稍后檢驗預(yù)測的正確性。模型經(jīng)過這樣的檢驗后,應(yīng)該能夠打消應(yīng)用前的擔(dān)心。還有另一個極端,即對數(shù)據(jù)挖掘模型的預(yù)測能力期望過高,甚至預(yù)先指定應(yīng)該達到某一指標(biāo),就像強令醫(yī)生必須把手術(shù)室里的病人治好一樣,殊不知挖掘模型的精度受多種因素影響,精度提高都是有一定限度的,勉力為之無異于搞“大躍進”。如果從投資回報(ROI)角度來看問題,則能夠比較合理地測算一項數(shù)據(jù)挖掘工作的實施是否合算,而不需要把目光局限于模型的某一絕對精度上。
五、數(shù)據(jù)挖掘工具的局限 大家都知道,數(shù)據(jù)挖掘的60-80%工作量花在數(shù)據(jù)準(zhǔn)備階段。其實在建模過程也是需要大量的手工勞動的。目前的數(shù)據(jù)挖掘軟件工具中,各算法采用默認的參數(shù)設(shè)置并不總是最合理的,不能得到最佳的預(yù)測模型的,因此對于每個業(yè)務(wù)新問題,都要重新探索數(shù)據(jù)的相關(guān)性,進行算法參數(shù)的重新調(diào)整和配置,以得到優(yōu)化的模型。這也正是當(dāng)前數(shù)據(jù)挖掘工程師的價值所在,他們能夠根據(jù)原理和以往經(jīng)驗做出決定,迅速判斷應(yīng)該如何對模型調(diào)優(yōu)。但是,由于現(xiàn)實問題太復(fù)雜,已有的原理并不能始終指導(dǎo)模型的調(diào)優(yōu)方向,更多的時候還是依賴大量的數(shù)據(jù)試驗摸索前進,因此建模的過程也是漫長痛苦的。現(xiàn)有的很多數(shù)據(jù)挖掘工具并不支持復(fù)雜調(diào)優(yōu)過程的自動化。
未來展望: 性能:在過去10多年里,計算機硬件性能的巨幅提升和數(shù)據(jù)庫技術(shù)的飛速發(fā)展,使得企業(yè)級大數(shù)據(jù)量的計算成為現(xiàn)實,未來若干年里可能仍然如此,但是數(shù)據(jù)挖掘涉及的數(shù)據(jù)量會更大。 工具:挖掘工具將越來越強大,匯合的算法越來越多,預(yù)測類算法將吸納頗具新意的算法(支持向量機、粗糙集、云模型、遺傳算法等),并將實現(xiàn)算法的自動選擇和參數(shù)自動調(diào)優(yōu)。遺傳編程(GP)、歸納邏輯編程(ILP)類算法的巨大潛力將得到充分發(fā)揮。 ..
|