前言:想要寫出一篇引人入勝的文章?我們特意為您整理了大數據環境下網絡文學輿情控制系統研究范文,希望能給你帶來靈感和參考,敬請閱讀。
[摘要]文章通過對網絡文學現狀、輿情控制的必要性;網絡文學輿情特征;網絡文學輿情監控系統設計三個方面進行探討,以期人們能夠快速、全面地把握信息內容和發展趨勢。
[關鍵詞]網絡文學;輿情控制;大數據環境
20世紀90年代中后期,信息時代的來臨和網絡的普及,互聯網、手機、衛星等信息傳播工具的出現,極大地豐富了小說的發表和傳播渠道,同時也讓小說的生產、傳播方式發生了很大的變化。特別是對于互聯網和手機這樣的新媒體,每個人都可以成為小說的生產者和傳播者。這時一些別有用心的人利用網絡文學傳播虛假信息,散布反動言論,欺騙網民、誤導輿論。還有一些低級庸俗、淫穢色情、虛假欺詐等輿情信息在網上不斷出現,危害網絡與信息安全。網絡文學輿論對人們意識形態的影響已成為極其重要的因素。2015年7月23日,中國互聯網絡信息中心(CNNIC)在京《第36次中國互聯網絡發展狀況統計報告》。數據顯示,截至2015年6月,我國網民規模達6.68億,半年共計新增網民1894萬人。互聯網普及率為48.8%,較2014年年底提升了0.9個百分點。其中將互聯網使用于觀看網絡文學的有28467萬戶,占總用戶數量的42.6%。為了更好地了解輿情關注的熱點,讓網絡文學更好的為民眾服務,另外,保護網絡文學用戶遠離輿情信息的侵擾,建設和諧的社會主義國家,政府部門有必要采取有力措施對網絡信息進行必要的監控。因此,深入分析研究網絡文學輿情監控領域中的信息技術成為一項緊迫而重要的課題。
2網絡文學輿情特征
網絡文學從一開始就呈現了與傳統文學不同的特點。網絡文學有以下特點:文字信息為主。網絡文學,與網絡新聞、網絡視頻、網絡報紙等不同,網絡文學主要以文字為主,幾乎沒有其他形式的信息表達。傳播途徑相對固定。網絡文學雖然比傳統文學傳播途徑靈活,但是比起其他的網絡信息,網絡文學的傳播相對固定,只有可記錄的一些網站和地址可以。
3網絡文學輿情監控系統設計
根據網絡文學輿情監控的特征可設計一個多層次結構的監控體系。可分為數據接入層、信息預處理層、趨勢分析層、應用層設計、系統管理。
3.1數據接入層設計
要對網絡文學輿情進行監控就要獲取網絡上的信息,而數據接入層就是完成這項工作的。由于網絡文學的性質,文本為主和點相對固定決定了數據接入層設計的結構。數據接入層分為采集、傳輸和儲存三個部分。
3.1.1數據的采集由于網絡文學點雖然多但是相對固定,所以不需要不間斷的到網絡各處尋找相關數據。建立網絡監控,監控網絡節點的、更新、修改,一旦發現情況,就對傳輸程序給以信息。同時,監控點以外也有可能網絡文學。可以應用已經成熟的爬蟲等算法,對全網、搜索引擎進行概率性搜索。以其結果建立新的監控節點,或提出報警。
3.1.2數據傳輸當發現監控節點更新或修改等情況以后,進入數據傳輸環節。數據傳輸環節就是將找到的網絡文學數據傳回服務器。由于這時在網絡傳輸數據有可能遇到網絡擁堵、站點暫時無法連接、頁面缺失等不同的狀況。應對這些情況需要建立循環隊列下載、斷點續傳、設置有效時效等手段來保證下載數據的準確性和有效性。
3.1.3數據存儲當數據采集來了以后就需要將數據進行存儲了。首先要選擇存儲介質,由于數據量大、難以采集,所以要選擇容量大穩定可靠的存儲介質。磁盤陣列是個比較好的選擇。其次儲存格式,由于幾乎所有數據都是文本,所以建立比較簡單的儲存結構就行了。一般由文件頭(Head)和數據(Data)組成。文件頭包含網絡文學的出處、地址、路徑、采集時間等必要信息。數據為網絡文學采集下來的原始信息,主要有一個或多個原始網頁。
3.2信息預處理
信息采集來了以后就要進行信息處理了。對于一篇是什么意思計算機是不知道的。要讓計算機找出那些不合適的文學作品就要教會計算機找到一些敏感的詞匯并進行分析和判斷。于是信息預處理又分為分詞、去噪、加權等操作。
3.2.1分詞當計算機發現“ISIS(TheIslamicStateofIraqandGrea-terSyria)”這個詞很容易和恐怖分子聯系起來,但是當計算機看見“恐怖分子”時,完全可能理解成“看起來好恐怖,分子真多”,所以如果面對中文信息不采用分詞技術,那么會導致信息數據的無法使用。現在比較成熟的分詞方法有不少,這里選取基于特征掃描的字符串匹配的分詞方法。字符串匹配的分詞方法又叫作機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。這類方法簡單、分詞效率較高,但漢語語言現象復雜豐富,詞典的完備性、規則的一致性等問題使其難以適應開放的大規模文本的分詞處理。識別出一個詞,根據掃描方向的不同分為正向匹配和逆向匹配。根據不同長度優先匹配的情況,分為最大(最長)匹配和最小(最短)匹配。
3.2.2去噪網頁中的“噪音”是影響基于網頁內容的工作的質量的一個重要因素,快速準確的清除網頁中的噪音內容是提高這些工作質量的關鍵技術之一。這里使用了一種網頁凈化的方法,該方法以一組啟發式規則為基礎,利用信息檢索的技術以及網頁的特征,提取網頁的主題以及和主題相關的內容,從而達到網頁凈化的目的。3.2.3加權同樣的一個詞放在不同的環境下,對整篇文章內容的影響是不一樣的,對于上面劃詞確定下來的關鍵詞、敏感詞要進行加權才能表現出它的性質。
3.3分析和結論
有了以上的工作以后,我們就可以對數據進行分析并得出結論了。對數據的分析手段有很多,這里我們采用相似性統計分析的統計學手段對其進行分析。相似性統計分析是在相似性檢索的基礎上再對檢索出來的結果進行的一系列的統計分析操作。相似性檢索的算法主要是基于特征詞提取和倒排索引技術,具體描述如下:
(1)對資料庫中的每篇文檔進行自動分詞和提取特征詞。
(2)對資料庫中的文檔按特征詞建立倒排索引庫,建立索引的相關屬性,包括詞頻、位置以及文本長度等。
(3)根據每篇文檔中包含特征詞的多少、位置、詞頻、文檔的長度等信息來計算庫中文檔與待檢索文檔的相關度,相關度超過一定閾值的文檔即可作為相關文檔處理,并給出相關系數。
4結論
本文論述了大數據環境下的網絡文學輿情監控系統的研究與實現。文章首先分析了網絡文學輿情監控的必要性,以及目前現狀。針對網絡文學輿情監控系統的體系結構和主要功能模塊進行了設計,為系統各模塊的功能、性能及技術實現設計了詳細的解決方案。并且,對網絡文學輿情監控系統的技術主體技術進行了深入研究。將多種技術有效結合,對復雜的網絡文學信息進行多屬性、多角度的分析,分別給出直觀的分析結果,以便人們能夠快速、全面地把握信息內容和發展趨勢。
參考文獻:
[1]索紅光,王玉偉.一種用于文本聚類的改進k-means算法[J].山東大學學報:理學版,2008(1):61-64.
[2]唐籍濤.網絡輿情監控中新詞識別問題的研究[J].計算機技術與發展,2012,22(1).
[3]萬小軍,等.一種自動分析互聯網上熱點主題傳播過程的方法及系統[P].中國專利:CN101231641A,
作者:蔡禮淵 單位:成都工業學院信息與計算科學系