1、數據總結。其目的是對數據進行濃縮,給出它的緊湊描述。數據挖掘主要關心從數據泛化的角度來討論數據總結。數據泛化是一種把數據庫中的有關數據從低層次抽象到高層次上的過程。
2、數據分類。其目的是學會一個分類函數或分類模型(也稱作分類器),該模型能把數據庫的數據項映射到給定類別中的某一個。
3、數據聚類。是把一組個體按照相似性歸成若干類別,即"物以類聚"。它的目的是使屬于同一類別的個體之間的距離盡可能地小,而不同類別的個體間的距離盡可能地大。
4、關聯(lián)規(guī)則。關聯(lián)規(guī)則是形式如下的一種規(guī)則,"在購買面包和黃油的顧客中,有90%的人同時也買了牛奶"(面包+黃油牛奶)。關聯(lián)規(guī)則發(fā)現(xiàn)的思路還可以用于序列模式發(fā)現(xiàn)。用戶在購買物品時,除了具有上述關聯(lián)規(guī)律,還有時間或序列上的規(guī)律。通過數據挖掘工具,企業(yè)可以在凌亂的數據中,找到有用的知識。
5、知識的合成
大多數的發(fā)明并不是僅僅基于單一想法,通常是多個創(chuàng)新點的綜合產品。大多數的搜索引擎通常被設計成,在使用者提供明確的搜索條件的情況下,能夠高效率的搜索與關鍵詞相關的條目的工具。但搜索結果之間是無序的,相互獨立的,即使最強大的搜索引擎也不能實現(xiàn)完全智能式的互動搜索。因此,常規(guī)的搜索引擎的缺陷就在于不能搜索與人腦中想法相關的知識,F(xiàn)在有一些工具能夠幫助人們實現(xiàn)象IdeaFisher等工具,能夠將相關的詞句組合起來,幫助人們將分散的創(chuàng)新觀點整合起來。另外一個工具,稱為Inspiration,能夠幫助用戶形成一種概念圖,從而提高使用者對知識進行合成的能力。
6、知識的創(chuàng)新
就目前的技術水平而言,通過機器實現(xiàn)知識的創(chuàng)新還十分困難,雖然人們可以通過搜索引擎大大加強搜索的效率,通過人工智能實現(xiàn)簡單的知識推理,達到一定程度的人工智能,但實現(xiàn)自動化的知識創(chuàng)新還十分困難,或者只能實現(xiàn)輔助性的知識創(chuàng)新。例如,名為IdeaGenerator 和 MindLink的工具通過引導人們突破思維定勢來提高創(chuàng)新能力。知識的創(chuàng)新是人類最復雜的思維活動,要求機器象人類一樣思維是不可能的,但人類可以設計出一些軟件模擬人類思維。但即使這樣,人們還要等待很長的時間。
..
|