關于實現知識庫智能檢索的技術說明
知識管理中心通過對公司現有知識資料的梳理,已經建立了龐大的數據系統(tǒng),現在最大的問題是數據的檢索成為知識庫發(fā)揮最大效率的短板,根據知管中心要求、內部員工使用反饋,特制定以下解決方案,以供參考:
第一步:實現上傳附件同時自動生成附件摘要; 自動從word、ppt、excel、txt等文件中獲取摘要信息,為下一步的全文檢索建立基礎,當然,也可以跳過這一步,采用現有手動加標簽的方式實現全文檢索。但是自動索引機建立摘要是發(fā)展的趨勢、適合大量數據的處理、檢索結果也更精準; 開發(fā)難點:需要編寫程序自動從word、ppt、excel、txt等獲得文本信息并生成摘要,類似百度等搜索引擎采集原始數據存入數據庫并建立索引;
第二步:實現全文檢索; 現有系統(tǒng)僅支持單個詞語的模糊檢索及多個詞語的簡單檢索,而全文檢索可以實現全方位的檢索,具體功能參照百度、谷歌等搜索引擎,可以實現任意詞組的組合查詢; 開發(fā)難點:中文分詞及語境分析是全文檢索的難點,也是各個搜索引擎核心技術,目前我們也已經開發(fā)自己的分詞技術并取得了不錯的效果;
第三步:建立在線文庫; 在實現全文檢索的基礎上可以直接在線預覽,形成在線文庫,具體功能參照百度文庫; 開發(fā)難點:通過程序自動將各類文件轉化成可以在線預覽的文件并建立索引;
通過以上幾個步驟,可以實現知識庫高效、全方位的應用,最終建立起類似百度網頁檢索、百度文庫等高級應用系統(tǒng)。
..
|