輿情監(jiān)控,特別是互聯(lián)網(wǎng)輿情監(jiān)控,作為一個(gè)新的技術(shù)領(lǐng)域,已經(jīng)有很多企業(yè)準(zhǔn)備進(jìn)入,但是真正的能夠有成熟的方案的還是很少。本文通過以我國(guó)少有的輿情監(jiān)測(cè)系統(tǒng)之一,迅奧互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)來做具體的分析! 迅奧互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)簡(jiǎn)介 產(chǎn)品的需求總是來自現(xiàn)實(shí)工作中的問題。迅奧互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)的目標(biāo)也正是為互聯(lián)網(wǎng)監(jiān)管帶來實(shí)際的幫助,可極大地提高監(jiān)管效率,提高監(jiān)控質(zhì)量;還為政府決策提供了對(duì)輿論趨勢(shì)及熱點(diǎn)的分析。是尖端信息處理系統(tǒng),為用戶帶來前所未有的工作效率。 系統(tǒng)集新聞熱點(diǎn)、BBS熱點(diǎn)、違規(guī)監(jiān)查、突發(fā)事件監(jiān)控為一體。把日常監(jiān)管和突出監(jiān)控有機(jī)地結(jié)合。 迅奧互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)特點(diǎn) 支持新聞熱點(diǎn)發(fā)現(xiàn)、新聞評(píng)論監(jiān)控。 支持監(jiān)控專題管理,監(jiān)控人可方便定制、管理自己的監(jiān)控專題。 支持監(jiān)控報(bào)警,即使無人值守,也不會(huì)錯(cuò)過重要事件。 全面支持BBS違規(guī)監(jiān)控,自動(dòng)統(tǒng)計(jì)跟帖量及瀏覽量,實(shí)時(shí)了解BBS熱點(diǎn)。 支持關(guān)鍵詞模糊匹配,無論是同音詞、相關(guān)詞,甚至出現(xiàn)了不完整或是不完全匹的情況,都可被有效監(jiān)控,避免遺漏違規(guī)情況。 支持靈活的優(yōu)化機(jī)制,對(duì)處理器和帶寬的占用率更低,使單機(jī)支持更大的監(jiān)控范圍。 先進(jìn)的監(jiān)控下載技術(shù),通過自動(dòng)分析技術(shù)、模板技術(shù)、JS解析技術(shù)支持更廣泛的監(jiān)控需求。 支持報(bào)表生成,并可安用戶要求定制報(bào)表格式。 經(jīng)過嚴(yán)格測(cè)試,系統(tǒng)有較高穩(wěn)定性,系統(tǒng)日志可詳細(xì)的顯示系統(tǒng)狀態(tài),易于管理和維護(hù)。 系統(tǒng)優(yōu)勢(shì) 監(jiān)控采集是互聯(lián)網(wǎng)應(yīng)用技術(shù)的一個(gè)分支,用于對(duì)互聯(lián)網(wǎng)網(wǎng)頁信息的抓取。面向監(jiān)控的采集模塊有一定特殊性,需要具備:“快速、全面、準(zhǔn)確、大范圍”的特點(diǎn);需要支持高強(qiáng)度的下載壓力。因此模塊需要支持良好的下載控制和優(yōu)化機(jī)制。 為了實(shí)現(xiàn)達(dá)到良好的性能,我們?cè)O(shè)計(jì)了搶先式多線程技術(shù)。這是下載Spider比較理想的技術(shù)。它是同蜘蛛一樣行動(dòng)的程序,該程序通過頁面中的URL鏈接檢查更新頁面。鏈接驗(yàn)證不僅處理HREF對(duì)象,還會(huì)包括JavaScript、INPUT等對(duì)象中的連接。通過不斷更新的URL隊(duì)列,合理分配下載線程。 ??? 因?yàn)闅v史信息不是監(jiān)控的重點(diǎn),所以監(jiān)控的即時(shí)性指標(biāo)就十分重要。即時(shí)性是指對(duì)信息監(jiān)控的時(shí)效性,是內(nèi)容出現(xiàn)到被監(jiān)控到的最短周期,也是監(jiān)控質(zhì)量的重要指標(biāo)。 互聯(lián)網(wǎng)上每時(shí)每刻都會(huì)產(chǎn)生大量的信息。根據(jù)權(quán)威分析數(shù)據(jù),通常一條新聞發(fā)布10分鐘后在互聯(lián)網(wǎng)上的轉(zhuǎn)載次數(shù)可達(dá)5~20次,同時(shí)可被約200位網(wǎng)民閱讀,隨著信息存在時(shí)間的延長(zhǎng),信息被閱讀的次數(shù)將呈幾何積數(shù)增長(zhǎng)。因此盡可能早地發(fā)現(xiàn)并阻止違規(guī)信息傳播顯得尤為重要。為此我們?cè)O(shè)計(jì)了一系列優(yōu)化機(jī)制,以達(dá)到最理想的監(jiān)控效率。 索引頁識(shí)別技術(shù)――索引頁通常指包括很多信息鏈接的導(dǎo)航頁,如新浪的NEWS.SINA.COM.CN[http://news.sina.com.cn/]新聞中心。此頁面中包含大量的新聞列表及子欄目的鏈接地址,大量最新新聞鏈接會(huì)在此頁中反應(yīng)出來,以此類推,網(wǎng)站的子欄目也會(huì)有下級(jí)索引頁。因此只要有效地判斷并發(fā)現(xiàn)此類索引頁面,并有針對(duì)性的更新鏈接,就可有效降低監(jiān)控周期。 更新偵探技術(shù)――更新是通過對(duì)索引識(shí)別頁的分析產(chǎn)生更新列表,因此需要在較短的周期不斷更新頁面,通過鏈接排重判斷頁面的更新情況。本系統(tǒng)中采用了矢量標(biāo)記技術(shù),可將頁面更新判斷的效率及資源占用率壓縮到最低,甚至不需要完全下載頁面就可完成更新判斷。
..
|