1、數(shù)據(jù)總結(jié)。其目的是對數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。數(shù)據(jù)挖掘主要關(guān)心從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化是一種把數(shù)據(jù)庫中的有關(guān)數(shù)據(jù)從低層次抽象到高層次上的過程。
2、數(shù)據(jù)分類。其目的是學(xué)會(huì)一個(gè)分類函數(shù)或分類模型(也稱作分類器),該模型能把數(shù)據(jù)庫的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。
3、數(shù)據(jù)聚類。是把一組個(gè)體按照相似性歸成若干類別,即"物以類聚"。它的目的是使屬于同一類別的個(gè)體之間的距離盡可能地小,而不同類別的個(gè)體間的距離盡可能地大。
4、關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是形式如下的一種規(guī)則,"在購買面包和黃油的顧客中,有90%的人同時(shí)也買了牛奶"(面包+黃油牛奶)。關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的思路還可以用于序列模式發(fā)現(xiàn)。用戶在購買物品時(shí),除了具有上述關(guān)聯(lián)規(guī)律,還有時(shí)間或序列上的規(guī)律。通過數(shù)據(jù)挖掘工具,企業(yè)可以在凌亂的數(shù)據(jù)中,找到有用的知識。
5、知識的合成
大多數(shù)的發(fā)明并不是僅僅基于單一想法,通常是多個(gè)創(chuàng)新點(diǎn)的綜合產(chǎn)品。大多數(shù)的搜索引擎通常被設(shè)計(jì)成,在使用者提供明確的搜索條件的情況下,能夠高效率的搜索與關(guān)鍵詞相關(guān)的條目的工具。但搜索結(jié)果之間是無序的,相互獨(dú)立的,即使最強(qiáng)大的搜索引擎也不能實(shí)現(xiàn)完全智能式的互動(dòng)搜索。因此,常規(guī)的搜索引擎的缺陷就在于不能搜索與人腦中想法相關(guān)的知識,F(xiàn)在有一些工具能夠幫助人們實(shí)現(xiàn)象IdeaFisher等工具,能夠?qū)⑾嚓P(guān)的詞句組合起來,幫助人們將分散的創(chuàng)新觀點(diǎn)整合起來。另外一個(gè)工具,稱為Inspiration,能夠幫助用戶形成一種概念圖,從而提高使用者對知識進(jìn)行合成的能力。
6、知識的創(chuàng)新
就目前的技術(shù)水平而言,通過機(jī)器實(shí)現(xiàn)知識的創(chuàng)新還十分困難,雖然人們可以通過搜索引擎大大加強(qiáng)搜索的效率,通過人工智能實(shí)現(xiàn)簡單的知識推理,達(dá)到一定程度的人工智能,但實(shí)現(xiàn)自動(dòng)化的知識創(chuàng)新還十分困難,或者只能實(shí)現(xiàn)輔助性的知識創(chuàng)新。例如,名為IdeaGenerator 和 MindLink的工具通過引導(dǎo)人們突破思維定勢來提高創(chuàng)新能力。知識的創(chuàng)新是人類最復(fù)雜的思維活動(dòng),要求機(jī)器象人類一樣思維是不可能的,但人類可以設(shè)計(jì)出一些軟件模擬人類思維。但即使這樣,人們還要等待很長的時(shí)間。
..
|