一、數(shù)據(jù)挖掘的內(nèi)在局限性 對(duì)數(shù)據(jù)挖掘技術(shù)期望過高,是數(shù)據(jù)挖掘應(yīng)用過程中經(jīng)常出現(xiàn)的一個(gè)問題。企業(yè)管理人員或者業(yè)務(wù)人員抱著美好的愿望,希望數(shù)據(jù)挖掘像“魔杖”一樣解決面臨的棘手問題,但是如果要求的結(jié)果與已有的數(shù)據(jù)沒有關(guān)聯(lián)(或者相關(guān)性太小),數(shù)據(jù)挖掘是無能為力的。一個(gè)典型的情況是,企業(yè)可能會(huì)要求挖掘出客戶流失的原因。
二、把數(shù)據(jù)挖掘當(dāng)作一個(gè)IT項(xiàng)目來做 IT專業(yè)出身的管理者,容易把數(shù)據(jù)挖掘理解成一種管理工具,因此傾向于把數(shù)據(jù)挖掘建成類似一種MIS的東西,希望有一個(gè)界面,登錄進(jìn)去后,點(diǎn)幾個(gè)按鈕,神奇的預(yù)測(cè)結(jié)果就展現(xiàn)出來。這種僵硬的做法有可能窒息數(shù)據(jù)挖掘的強(qiáng)大威力。有些企業(yè)把客戶細(xì)分模型固化下來,使其對(duì)每個(gè)月的全體客戶用同一模型評(píng)分,這樣做的目的僅僅是為了保證市場(chǎng)部既定的營銷策略能夠持續(xù)地實(shí)施下去。這些企業(yè)顯然沒有想到應(yīng)該根據(jù)市場(chǎng)的變化及時(shí)靈活地改變營銷策略,或者目前還做不到這樣,或者是不太愿意求變,否則他們一定會(huì)要求數(shù)據(jù)挖掘工程師每月生產(chǎn)出數(shù)十、上百種客戶細(xì)分結(jié)果,然后像鯊魚嗜血一般地從中尋找商機(jī)的。企業(yè)本身嚴(yán)重缺乏專門的數(shù)據(jù)分析人員,為了省事而要求把數(shù)據(jù)挖掘做成管理系統(tǒng)一樣的東西,也是其中的原因之一。 三、技術(shù)采用的偏頗 對(duì)數(shù)據(jù)挖掘算法技術(shù)理解的不全面,也可能導(dǎo)致企業(yè)只愿意選擇那些結(jié)果外觀容易理解的技術(shù),使得數(shù)據(jù)挖掘的功能得不到充分發(fā)揮。
四、對(duì)數(shù)據(jù)挖掘結(jié)果的懷疑 一些企業(yè)管理人員,包括一些計(jì)算機(jī)專業(yè)人士,還表現(xiàn)出對(duì)于數(shù)據(jù)挖掘結(jié)果的應(yīng)用缺乏信心。這顯然是因?yàn)樗麄儧]有注意到數(shù)據(jù)挖掘模型在應(yīng)用之前有一個(gè)檢驗(yàn)的工序,模型將在歷史數(shù)據(jù)基礎(chǔ)上進(jìn)行多次精度檢驗(yàn),當(dāng)然也可以對(duì)最新的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)測(cè)并且稍后檢驗(yàn)預(yù)測(cè)的正確性。模型經(jīng)過這樣的檢驗(yàn)后,應(yīng)該能夠打消應(yīng)用前的擔(dān)心。還有另一個(gè)極端,即對(duì)數(shù)據(jù)挖掘模型的預(yù)測(cè)能力期望過高,甚至預(yù)先指定應(yīng)該達(dá)到某一指標(biāo),就像強(qiáng)令醫(yī)生必須把手術(shù)室里的病人治好一樣,殊不知挖掘模型的精度受多種因素影響,精度提高都是有一定限度的,勉力為之無異于搞“大躍進(jìn)”。如果從投資回報(bào)(ROI)角度來看問題,則能夠比較合理地測(cè)算一項(xiàng)數(shù)據(jù)挖掘工作的實(shí)施是否合算,而不需要把目光局限于模型的某一絕對(duì)精度上。
五、數(shù)據(jù)挖掘工具的局限 大家都知道,數(shù)據(jù)挖掘的60-80%工作量花在數(shù)據(jù)準(zhǔn)備階段。其實(shí)在建模過程也是需要大量的手工勞動(dòng)的。目前的數(shù)據(jù)挖掘軟件工具中,各算法采用默認(rèn)的參數(shù)設(shè)置并不總是最合理的,不能得到最佳的預(yù)測(cè)模型的,因此對(duì)于每個(gè)業(yè)務(wù)新問題,都要重新探索數(shù)據(jù)的相關(guān)性,進(jìn)行算法參數(shù)的重新調(diào)整和配置,以得到優(yōu)化的模型。這也正是當(dāng)前數(shù)據(jù)挖掘工程師的價(jià)值所在,他們能夠根據(jù)原理和以往經(jīng)驗(yàn)做出決定,迅速判斷應(yīng)該如何對(duì)模型調(diào)優(yōu)。但是,由于現(xiàn)實(shí)問題太復(fù)雜,已有的原理并不能始終指導(dǎo)模型的調(diào)優(yōu)方向,更多的時(shí)候還是依賴大量的數(shù)據(jù)試驗(yàn)摸索前進(jìn),因此建模的過程也是漫長痛苦的,F(xiàn)有的很多數(shù)據(jù)挖掘工具并不支持復(fù)雜調(diào)優(yōu)過程的自動(dòng)化。
未來展望: 性能:在過去10多年里,計(jì)算機(jī)硬件性能的巨幅提升和數(shù)據(jù)庫技術(shù)的飛速發(fā)展,使得企業(yè)級(jí)大數(shù)據(jù)量的計(jì)算成為現(xiàn)實(shí),未來若干年里可能仍然如此,但是數(shù)據(jù)挖掘涉及的數(shù)據(jù)量會(huì)更大。 工具:挖掘工具將越來越強(qiáng)大,匯合的算法越來越多,預(yù)測(cè)類算法將吸納頗具新意的算法(支持向量機(jī)、粗糙集、云模型、遺傳算法等),并將實(shí)現(xiàn)算法的自動(dòng)選擇和參數(shù)自動(dòng)調(diào)優(yōu)。遺傳編程(GP)、歸納邏輯編程(ILP)類算法的巨大潛力將得到充分發(fā)揮。 ..
|