輿情監(jiān)控,特別是互聯(lián)網輿情監(jiān)控,作為一個新的技術領域,已經有很多企業(yè)準備進入,但是真正的能夠有成熟的方案的還是很少。本文通過以我國少有的輿情監(jiān)測系統(tǒng)之一,迅奧互聯(lián)網輿情監(jiān)控系統(tǒng)來做具體的分析! 迅奧互聯(lián)網輿情監(jiān)控系統(tǒng)簡介 產品的需求總是來自現(xiàn)實工作中的問題。迅奧互聯(lián)網輿情監(jiān)控系統(tǒng)的目標也正是為互聯(lián)網監(jiān)管帶來實際的幫助,可極大地提高監(jiān)管效率,提高監(jiān)控質量;還為政府決策提供了對輿論趨勢及熱點的分析。是尖端信息處理系統(tǒng),為用戶帶來前所未有的工作效率。 系統(tǒng)集新聞熱點、BBS熱點、違規(guī)監(jiān)查、突發(fā)事件監(jiān)控為一體。把日常監(jiān)管和突出監(jiān)控有機地結合。 迅奧互聯(lián)網輿情監(jiān)控系統(tǒng)特點 支持新聞熱點發(fā)現(xiàn)、新聞評論監(jiān)控。 支持監(jiān)控專題管理,監(jiān)控人可方便定制、管理自己的監(jiān)控專題。 支持監(jiān)控報警,即使無人值守,也不會錯過重要事件。 全面支持BBS違規(guī)監(jiān)控,自動統(tǒng)計跟帖量及瀏覽量,實時了解BBS熱點。 支持關鍵詞模糊匹配,無論是同音詞、相關詞,甚至出現(xiàn)了不完整或是不完全匹的情況,都可被有效監(jiān)控,避免遺漏違規(guī)情況。 支持靈活的優(yōu)化機制,對處理器和帶寬的占用率更低,使單機支持更大的監(jiān)控范圍。 先進的監(jiān)控下載技術,通過自動分析技術、模板技術、JS解析技術支持更廣泛的監(jiān)控需求。 支持報表生成,并可安用戶要求定制報表格式。 經過嚴格測試,系統(tǒng)有較高穩(wěn)定性,系統(tǒng)日志可詳細的顯示系統(tǒng)狀態(tài),易于管理和維護。 系統(tǒng)優(yōu)勢 監(jiān)控采集是互聯(lián)網應用技術的一個分支,用于對互聯(lián)網網頁信息的抓取。面向監(jiān)控的采集模塊有一定特殊性,需要具備:“快速、全面、準確、大范圍”的特點;需要支持高強度的下載壓力。因此模塊需要支持良好的下載控制和優(yōu)化機制。 為了實現(xiàn)達到良好的性能,我們設計了搶先式多線程技術。這是下載Spider比較理想的技術。它是同蜘蛛一樣行動的程序,該程序通過頁面中的URL鏈接檢查更新頁面。鏈接驗證不僅處理HREF對象,還會包括JavaScript、INPUT等對象中的連接。通過不斷更新的URL隊列,合理分配下載線程。 ??? 因為歷史信息不是監(jiān)控的重點,所以監(jiān)控的即時性指標就十分重要。即時性是指對信息監(jiān)控的時效性,是內容出現(xiàn)到被監(jiān)控到的最短周期,也是監(jiān)控質量的重要指標。 互聯(lián)網上每時每刻都會產生大量的信息。根據(jù)權威分析數(shù)據(jù),通常一條新聞發(fā)布10分鐘后在互聯(lián)網上的轉載次數(shù)可達5~20次,同時可被約200位網民閱讀,隨著信息存在時間的延長,信息被閱讀的次數(shù)將呈幾何積數(shù)增長。因此盡可能早地發(fā)現(xiàn)并阻止違規(guī)信息傳播顯得尤為重要。為此我們設計了一系列優(yōu)化機制,以達到最理想的監(jiān)控效率。 索引頁識別技術――索引頁通常指包括很多信息鏈接的導航頁,如新浪的NEWS.SINA.COM.CN[http://news.sina.com.cn/]新聞中心。此頁面中包含大量的新聞列表及子欄目的鏈接地址,大量最新新聞鏈接會在此頁中反應出來,以此類推,網站的子欄目也會有下級索引頁。因此只要有效地判斷并發(fā)現(xiàn)此類索引頁面,并有針對性的更新鏈接,就可有效降低監(jiān)控周期。 更新偵探技術――更新是通過對索引識別頁的分析產生更新列表,因此需要在較短的周期不斷更新頁面,通過鏈接排重判斷頁面的更新情況。本系統(tǒng)中采用了矢量標記技術,可將頁面更新判斷的效率及資源占用率壓縮到最低,甚至不需要完全下載頁面就可完成更新判斷。
..
|