前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的挖掘技術論文主題范文,僅供參考,歡迎閱讀并收藏。
數據挖掘技術是一種新型的技術,在現代數據存儲以及測量技術的迅猛發展過程中,人們可以進行信息的大量測量并進行存儲。但是,在大量的信息背后卻沒有一種有效的手段和技術進行直觀的表達和分析。而數據挖掘技術的出現,是對目前大數據時代的一種應急手段,使得有關計算機數據處理技術得到加快發展。數據挖掘技術最早是從機器學習的概念中而產生的,在對機器的學習過程中,一般不采用歸納或者較少使用這種方法,這是一種非常機械的操作辦法。而沒有指導性學習的辦法一般不從這些環境得出反饋,而是通過沒有干預的情況下進行歸納和學習,并建立一種理論模型。數據挖掘技術是屬于例子歸納學習的一種方式,這種從例子中進行歸納學習的方式是介于上述無指導性學習以及較少使用歸納學習這兩種方式之間的一種方式。因此,可以說,數據挖掘技術的特征在出自于機器學習的背景下,與其相比機器主要關心的是如何才能有效提高機器的學習能力,但數據挖掘技術主要關心如何才能找到有用、有價值的信息。其第二個特征是,與機器學習特點相比較而言,機器關心的是小數據,而數據挖掘技術所面臨的對象則是現實中海量規模的數據庫,其作用主要是用來處理一些異常現象,特別是處理殘缺的、有噪音以及維數很高的數據項,甚至是一些不同類型數據。以往的數據處理方法和現代的數據挖掘技術相比較而言,其不同點是以往的傳統數據處理方法前提是把理論作為一種指導數據來進行處理,在現代數據挖掘技術的出發角度不同,主要運用啟發式的歸納學習進行理論以及假設來處理的。
2、數據挖掘技術主要步驟
數據挖掘技術首先要建立數據倉庫,要根據實際情況而定,在易出現問題的有關領域建立有效的數據庫。主要是用來把數據庫中的所有的存儲數據進行分析,而目前的一些數據庫雖然可以進行大量的存儲數據,同時也進行了一系列的技術發展。比如,系統中的在線分析處理,主要是為用戶查詢,但是卻沒有查詢結果的分析能力,而查詢的結果仍舊由人工進行操作,依賴于對手工方式進行數據測試并建模。其次,在數據庫中存儲的數據選一數據集,作為對數據挖掘算法原始輸入。此數據集所涉及到數據的時變性以及統一性等情況。然后,再進行數據的預處理,在處理中主要對一些缺損數據進行補齊,并消除噪聲,此外還應對數據進行標準化的處理。隨后,再對數據進行降維和變換。如果數據的維數比較高,還應找出維分量高的數據,對高維數數據空間能夠容易轉化為檢點的低維數數據空間進行處理。下一步驟就是確定任務,要根據現實的需要,對數據挖掘目標進行確定,并建立預測性的模型、數據的摘要等。隨后再決定數據挖掘的算法,這一步驟中,主要是對當前的數據類型選擇有效的處理方法,此過程非常重要,在所有數據挖掘技術中起到較大作用。隨后再對數據挖掘進行具體的處理和結果檢驗,在處理過程中,要按照不同的目的,選擇不同的算法,是運用決策樹還是分類等的算法,是運用聚類算法還是使用回歸算法,都要認真處理,得出科學的結論。在數據挖掘結果檢驗時,要注意幾個問題,要充分利用結論對照其他的信息進行校核,可對圖表等一些直觀的信息和手段進行輔助分析,使結論能夠更加科學合理。需要注意的是要根據用戶來決定結論有用的程度。最后一項步驟是把所得出的結論進行應用到實際,要對數據挖掘的結果進行仔細的校驗,重點是解決好以前的觀點和看法有無差錯,使目前的結論和原先看法的矛盾有效解除。
3、數據挖掘技術的方法以及在電力營銷系統中的應用和發展
數控挖掘技術得到了非常廣泛的應用,按照技術本身的發展出現了較多方法。例如,建立預測性建模方法,也就是對歷史數據進行分析并歸納總結,從而建立成預測性模型。根據此模型以及當前的其他數據進行推斷相關聯的數據。如果推斷的對象屬于連續型的變量,那么此類的推斷問題可屬回歸問題。根據歷史數據來進行分析和檢測,再做出科學的架設和推定。在常用的回歸算法以及非線性變換進行有效的結合,能夠使許多問題得到解決。電力營銷系統中的數據挖掘技術應用中關聯規則是最為關鍵的技術應用之一。這種應用可以有效地幫助決策人員進行當前有關數據以及歷史數據的規律分析,最后預測出未來情況。把關聯規則成功引入電力營銷分析,通過FP-Growth算法對電力營銷的有關數據進行關聯規則分析,從中得出各種電量銷售的影響因素以及外部因素、手電水平等的關聯信息,以便更好地為電力的市場營銷策略提供參謀和決策。對電力營銷系統的應用中,時間序列挖掘以及序列挖掘非常經典、系統,是應用最為廣泛的一種預測方法。這種方法的應用中,對神經網絡的研究非常之多。因此,在現實中應用主要把時間序列挖掘以及神經網絡兩者進行有效地結合,然后再分析有關電力營銷數據。此外,有關專家還提出應用一種時間窗的序列挖掘算法,這種方式可以進行有效地報警處理,使電力系統中的故障能夠準確的定位并診斷事故。此算法對電力系統的分析和挖掘能力的提高非常有效,還可判定電力系統的運行是否穩定,對錯誤模型的分析精度達到一定的精確度。
4、結語
關鍵字:數據挖掘金融數據
金融部門每天的業務都會產生大量數據,利用目前的數據庫系統可以有效地實現數據的錄入、查詢、統計等功能,但無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢。缺乏挖掘數據背后隱藏的知識的手段,導致了數據爆炸但知識貧乏”的現象。與此同時,金融機構的運作必然存在金融風險,風險管理是每一個金融機構的重要工作。利用數據挖掘技術不但可以從這海量的數據中發現隱藏在其后的規律,而且可以很好地降低金融機構存在的風險。學習和應用數扼挖掘技術對我國的金融機構有重要意義。
一、數據挖掘概述
1.數據挖掘的定義對于數據挖掘,一種比較公認的定義是W.J.Frawley,G.PiatetskShapiro等人提出的。數據挖掘就是從大型數據庫的數據中提取人們感興趣的知識、這些知識是隱含的、事先未知的、潛在有用的信息,提取的知識表示為概念(Concepts),規則(Rules)、規律(Regularities)、模式(Patterns)等形式。這個定義把數據挖掘的對象定義為數據庫。
隨著數據挖掘技術的不斷發展,其應用領域也不斷拓廣。數據挖掘的對象已不再僅是數據庫,也可以是文件系統,或組織在一起的數據集合,還可以是數據倉庫。與此同時,數據挖掘也有了越來越多不同的定義,但這些定義盡管表達方式不同,其本質都是近似的,概括起來主要是從技術角度和商業角度給出數據挖掘的定義。
從技術角度看,數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在的和有用的信息和知識的過程。它是一門廣義的交叉學科,涉及數據庫技術、人工智能、機器學習、神經網絡、統計學、模式識別、知識庫系統、知識獲取、信息檢索、高性能計算和數據可視化等多學科領域且本身還在不斷發展。目前有許多富有挑戰的領域如文本數據挖掘、Web信息挖掘、空間數據挖掘等。
從商業角度看,數據挖掘是一種深層次的商業信息分析技術。它按照企業既定業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性并進一步將其模型化,從而自動地提取出用以輔助商業決策的相關商業模式。
2.數據挖掘方法
數據挖掘技術是數據庫技術、統計技術和人工智能技術發展的產物。從使用的技術角度,主要的數據挖掘方法包括:
2.1決策樹方法:利用樹形結構來表示決策集合,這些決策集合通過對數據集的分類產生規則。國際上最有影響和最早的決策樹方法是ID3方法,后來又發展了其它的決策樹方法。
2.2規則歸納方法:通過統計方法歸納,提取有價值的if-then規則。規則歸納技術在數據挖掘中被廣泛使用,其中以關聯規則挖掘的研究開展得較為積極和深入。
2.3神經網絡方法:從結構上模擬生物神經網絡,以模型和學習規則為基礎,建立3種神經網絡模型:前饋式網絡、反饋式網絡和自組織網絡。這種方法通過訓練來學習的非線性預測模型,可以完成分類、聚類和特征挖掘等多種數據挖掘任務。
2.4遺傳算法:模擬生物進化過程的算法,由繁殖(選擇)、交叉(重組)、變異(突變)三個基本算子組成。為了應用遺傳算法,需要將數據挖掘任務表達為一種搜索問題,從而發揮遺傳算法的優化搜索能力。
2.5粗糙集(RoughSet)方法:Rough集理論是由波蘭數學家Pawlak在八十年代初提出的一種處理模糊和不精確性問題的新型數學工具。它特別適合于數據簡化,數據相關性的發現,發現數據意義,發現數據的相似或差別,發現數據模式和數據的近似分類等,近年來已被成功地應用在數據挖掘和知識發現研究領域中。
2.6K2最鄰近技術:這種技術通過K個最相近的歷史記錄的組合來辨別新的記錄。這種技術可以作為聚類和偏差分析等挖掘任務。
2.7可視化技術:將信息模式、數據的關聯或趨勢等以直觀的圖形方式表示,決策者可以通過可視化技術交互地分析數據關系。可視化數據分析技術拓寬了傳統的圖表功能,使用戶對數據的剖析更清楚。
二、數據挖掘在金融行業中的應用數據挖掘已經被廣泛應用于銀行和商業中,有以下的典型應用:
1.對目標市場(targetedmarketing)客戶的分類與聚類。例如,可以將具有相同儲蓄和貨款償還行為的客戶分為一組。有效的聚類和協同過濾(collaborativefiltering)方法有助于識別客戶組,以及推動目標市場。
2..客戶價值分析。
在客戶價值分析之前一般先使用客戶分類,在實施分類之后根據“二八原則”,找出重點客戶,即對給銀行創造了80%價值的20%客戶實施最優質的服務。重點客戶的發現通常采用一系列數據處理、轉換過程、AI人工智能等數據挖掘技術來實現。通過分析客戶對金融產品的應用頻率、持續性等指標來判別客戶的忠誠度;通過對交易數據的詳細分析來鑒別哪些是銀行希望保持的客戶;通過挖掘找到流失的客戶的共同特征,就可以在那些具有相似特征的客戶還未流失之前進行針對性的彌補。
3.客戶行為分析。
找到重點客戶之后,可對其進行客戶行為分析,發現客戶的行為偏好,為客戶貼身定制特色服務。客戶行為分析又分為整體行為分析和群體行為分析。整體行為分析用來發現企業現有客戶的行為規律。同時,通過對不同客戶群組之間的交叉挖掘分析,可以發現客戶群體間的變化規律,并可通過數據倉庫的數據清潔與集中過程,將客戶對市場的反饋自動輸人到數據倉庫中。通過對客戶的理解和客戶行為規律的發現,企業可以制定相應的市場策略。
4.為多維數據分析和數據挖掘設計和構造數據倉庫。例如,人們可能希望按月、按地區、按部門、以及按其他因素查看負債和收入的變化情況,同時希望能提供諸如最大、最小、總和、平均和其他等統計信息。數據倉庫、數據立方體、多特征和發現驅動數據立方體,特征和比較分析,以及孤立點分析等,都會在金融數據分析和挖掘中發揮重要作用。
5.貨款償還預測和客戶信用政策分析。有很多因素會對貨款償還效能和客戶信用等級計算產生不同程度的影響。數據挖掘的方法,如特征選擇和屬性相關性計算,有助于識別重要的因素,別除非相關因素。例如,與貨款償還風險相關的因素包括貨款率、資款期限、負債率、償還與收入(payment——to——income)比率、客戶收入水平、受教育程度、居住地區、信用歷史,等等。而其中償還與收入比率是主導因素,受教育水平和負債率則不是。銀行可以據此調整貨款發放政策,以便將貨款發放給那些以前曾被拒絕,但根據關鍵因素分析,其基本信息顯示是相對低風險的申請。
6.業務關聯分析。通過關聯分析可找出數據庫中隱藏的關聯網,銀行存儲了大量的客戶交易信息,可對客戶的收人水平、消費習慣、購買物種等指標進行挖掘分析,找出客戶的潛在需求;通過挖掘對公客戶信息,銀行可以作為廠商和消費者之間的中介,與廠商聯手,在掌握消費者需求的基礎上,發展中間業務,更好地為客戶服務。
7.洗黑錢和其他金融犯罪的偵破。要偵破洗黑錢和其他金融犯罪,重要的一點是要把多個數據庫的信息集成起來,然后采用多種數據分析工具找出異常模式,如在某段時間內,通過某一組人發生大量現金流量等,再運用數據可視化工具、分類工具、聯接工具、孤立點分析工具、序列模式分析工具等,發現可疑線索,做出進一步的處理。
數據挖掘技術可以用來發現數據庫中對象演變特征或對象變化趨勢,這些信息對于決策或規劃是有用的,金融
行業數據的挖掘有助于根據顧客的流量安排工作人員。可以挖掘股票交易數據,發現可能幫助你制定投資策略的趨勢數據。挖掘給企業帶來的潛在的投資回報幾乎是無止境的。當然,數據挖掘中得到的模式必須要在現實生活中進行驗證。
參考文獻:
丁秋林,力士奇.客戶關系管理.第1版.北京:清華人學出版社,2002
張玉春.數據挖掘在金融分析中的應用.華南金融電腦.2004
關鍵詞:傳統裝飾藝術;視覺傳達設計;民族文化
傳統裝飾藝術源于生活,源于傳統,有著悠久的歷史和深厚的民族底蘊,是與人們生活息息相關的一種藝術形態。早期工藝美術作品中的圖案就已經具備了強烈的裝飾意味,隨著人們精神需求和審美意識的不斷提高,傳統裝飾藝術更是成為了人們生活的一部分。作為一門獨立的藝術形式,傳統裝飾藝術以其獨特的視覺符號和深厚的文化內涵,重新引起了設計界的關注。特別是視覺傳達設計,這門通過獨特的視覺傳播方式達到傳達信息,并且與受眾交流、溝通的目的的藝術學科,不僅要吸取和弘揚傳統裝飾藝術中的民族文化,更要挖掘傳統裝飾藝術中對現代設計有借鑒價值的東西。
追溯傳統裝飾藝術發展的淵源,它首先是人們為了生存而進行的造物的主觀創造性活動,到后來為了審美需求而進行裝飾創作,這是一個漫長的歷史過程。在人類發展史上的各個時期,傳統裝飾藝術作品往往成為見證該時期文化、工藝和藝術水平的代表。并且,傳統裝飾藝術作品不論其形式如何,都融入了原始先民為生存而激發的全部感情,都體現出了生命的本能、生活的理想和原始文化的底蘊。[1]它不是純藝術現象,但經過幾千年的積淀與傳承,傳統裝飾藝術在意識形態的轉變和新技術浪潮的沖擊下不斷更新拓展,具有了自己鮮明的藝術特征,反映了民族文化的精髓。
在設計語言日趨國際化的今天,視覺傳達設計由于本身所具有的對圖形、文字等元素的高度概括和簡約化特征而面臨著設計風格一體化的尷尬趨勢,這就對現代設計家提出了更高的要求。由于不同的國家和民族有著不同的傳統,其人文風俗和文化底蘊也大不相同,所以,設計家們驚訝地發現,民族的東西是一種很好地區別于其它地域作品的設計語言。于是,一股回歸傳統,弘揚民族文化的設計思想席卷了整個設計界。不同國度和區域的設計家都在尋找最能反映其民族精神和文化底蘊的設計符號。作為有幾千年文化積淀和傳承并反映民族文化精髓的傳統裝飾藝術,它重新引起設計界的關注,并成為設計家們創作的靈感來源,也就不足為奇了。
首先,在對形的處理上,傳統裝飾藝術遵循“刪繁就簡”、“以簡代繁”的原則,也就是用簡潔的線條和規整的外形來表現各種自然形象。如興起于我國民間的皮影戲和剪紙,其造型多采用簡潔單純的線面,著重表現自然物象的基本特征,它把一些立體的東西作概括化和平面化處理,具有視覺傳達設計的意味。出土于西安半坡村仰韶文化時期的人面魚紋彩陶盆就采用了幾何圖形的構成手法,將人面概括成圓形,頭上的發髻和人面兩側耳部的小魚都用三角形表示,眼睛瞇成一條線,這種抽象化和幾何化就是“刪繁就簡”的具體體現。在視覺傳達設計中,提倡用最簡潔的圖形語言傳達最豐富的思想內涵,其實也就是強調對圖形的高度概括、提煉和簡化,而西方更是注重幾何和抽象的圖形表達。這些現代設計理念,與傳統裝飾藝術中對形的處理觀念是基本一致的,并且在幾千年前就已經開始運用了。另外,傳統裝飾藝術由于有漆畫、陶瓷、蠟染、刺繡、剪紙等多種藝術形式,其內容比較豐富,處理“形”的手法也就各具特色。所以,傳統裝飾藝術中對“形”的處理手法,很多都是值得我們視覺傳達設計學習和借鑒的。其次,傳統裝飾藝術很注重形式美感,這種形式美感包括造型的獨特性、排列的秩序感,畫面空間的設計感和點、線、面等形式要素的組合關系。傳統裝飾藝術中,很多造型藝術本身具有很強的形式美,已經很講究對稱、均衡、比例、線條、色彩等帶給人的審美情感。如陶器的造型就很講究對稱和均衡,上面的裝飾紋樣不僅很注重線條和塊面的對比,色彩的搭配也很和諧。并且,還有很多由于機械有節奏的運動和通過重復的構成手法而創造的圖案,具有強烈的秩序美。[2]在敦煌壁畫中,隨處可見用于裝飾的各種卷草紋樣和適合圖案,尤其是藻井的裝飾,紋樣之豐富,裝飾之繁瑣可謂嘆為觀止,然而經過藝術家的合理安排,整個畫面顯得井井有條。二方連續在不斷重復的過程中呈現出強烈的節奏感和秩序感,適合紋樣處處彰顯藝術家對畫面空間的把控,各種視覺元素遙相呼應,虛實相生,并且畫面中點、線、面關系處理到位,整體視覺效果統一。可見,傳統裝飾藝術中對形式美感的追求,就如同我們進行視覺傳達設計時所考慮的畫面構圖和版式編排,目的都是為了形成強烈的視覺美感,從而喚起人們審美心理的愉悅。所以,傳統裝飾藝術中對形式美感的追求為我們視覺傳達設計中的版式編排提供了參考的樣本,具有較高的藝術價值。
再次,傳統裝飾藝術中的紋樣往往具有象征意義,如盤子上的暗八仙,象征延年益壽;瓷器上的蓮花寓意高潔;民間工藝美術里的葡萄、石榴以及百子圖等象征家族繁榮,子孫眾多;還有用龍鳳表示吉祥如意,用蝙蝠直接表現“福在眼前”等等。[3]傳統裝飾藝術中的這種象征性與現代設計有異曲同工之處,如視覺傳達設計中的標識設計就常采用象征圖形來傳達企業文化、發展方向或者管理理念等,海報設計中也常用具有一定象征意味的圖形傳達深刻的思想主題和文化內涵。傳統裝飾藝術所具有的博大精深的寓意性,對現代視覺傳達設計來講,具有重大意義。一方面,它為我們的設計提供了眾多素材,豐富了我們的設計語言;另一方面,它為我們的設計提供了很多思考的切入點,對設計創意具有較強的指導意義;另外,它使我們在面對不同文化背景進行有針對性的設計時,能準確找到傳達設計意圖的最佳圖形符號。所以,傳統裝飾藝術中的象征性是很值得我們關注的。
另外,傳統裝飾藝術在造型上采用的夸張和變形,在構圖上采用的重復、發射、漸變以及色彩的對比與調和等處理手法,與今天現代設計中的圖形語言和形式美的法則以及構成有異曲同工之妙,可見,中國傳統裝飾藝術對現代視覺傳達設計來講,意義十分重大。
正是因為傳統裝飾藝術有如此多的地方與現代視覺傳達設計保持一致性,才在現代社會顯示出了其特有的生命力。所以我們在設計中運用傳統裝飾藝術宣揚民族文化,弘揚民族精神的同時,更要不斷挖掘傳統裝飾藝術對現代視覺傳達設計有借鑒價值的東西。在設計中追求東西方文化的統一,追求傳統與現代的統一,才能夠在設計中既表現出民族的傳統精粹,又使自己的作品更具說服力。
參考資料:
[1]伍毅志.傳統裝飾藝術在現代社會的價值[OL].中國裝飾藝術網./Theoretical/ShowArticle.asp.ArticleID=772
文獻標識碼:A 文章編號:1673-7717(2007)12-2480-02
1.形神一體觀的理論內涵
形神一體觀是中醫學基礎理論之一,形神學說肇始于《內經》,形與神是人體生命現象中最基本的現象,二者的關系是生命現象中最基本的關系。
1.1形的含義形的本義有二,一為形體、形質。如《易?系辭上》說:“在天成象,在地成形,變化見矣。”二指形狀、形貌。如《國語?越語》:“天有還形”。《荀子?非相》:“故相形不如論心,論心不如擇術。”中醫學所稱的形,即是指視之可見、觸之可及之臟腑經絡組織、五官九竅、四肢百骸等有形軀體,以及循行于臟腑之內的精微物質,此外還指有形物質資生助養下正常的臟腑經絡組織功能活動。
1.2神的含義神之本義,系指主宰天地自然變化的自然界本身所固有的客觀規律。中醫學在充分保留其有關自然界變化莫測規律為神明的同時,還引申出神主宰人體生命活動,反應生命活動規律的生理外在表現以及精神意識思維等內涵進行了闡發,從而進一步豐富了形神理論。中醫學理論中,神的概念很廣泛,其含義有三:一是指自然界物質變化功能。如荀子說:“萬物各得其和以生,各得其養以成,不見其事,而見其功,夫是謂之神。”(《荀子?天論》)天地的變化而生成萬物,這種現象是神的表現,有天地之形,然后有神的變化。二是指人體生命的一切活動。中醫學認為人體本身就是一個陰陽對立統一體,陰陽之氣的運動變化,推動了生命的運動和變化,而生命活動的本身也稱之神。神去則氣化停止,生命也就完結。可見,神是人體生命的根本,因此,只有積精全神氣才能“精神內守,病安從來”。三是指人的精神意識,精神活動的高級形式是思維。
1.3形與神的關系 形與神的關系主要體現形為神之質和神為形之主這兩方面。神的物質基礎是氣血,氣血又是構成形體的基本物質,而人體臟腑組織的功能活動,以及氣血的營行,又必須受神的主宰。這種“形與神”二者相互依附而不可分割的關系,稱之謂“形與神俱”。形乃神之宅,神乃形之主。無神則形不可活,無形則神無以附,二者相輔相成,不可分離。形神統一是生命存在的根本保證。中醫學理論中的形神一體觀,是養生防病,延年益壽,以及診斷治療的重要理論基礎。
神是機體生命活動的體現,神不能離開人體而獨立存在,有形才能有神,形健則神旺,形衰則神憊。故《素問?上古天真論》有“形神合一”及“形與神俱”的理論,說明形與神的關系。經過無數實踐證明,神的盛衰的確是健康與否的重要標志之一。反過來看,如形贏色敗,雖然兩目有神亦是假象。
2.文本挖掘的概念
文本挖掘是指利用數據挖掘技術,從大量的、無結構的文本信息中發現潛在的、可能的數據模式、內在聯系、規律、發展趨勢等,抽取有效、新穎、可用、可理解的、散布在文本文件中的有價值知識,并且利用這些知識更好地組織信息的過程。文本挖掘是從數據挖掘中發展來的,是信息挖掘的一個研究分支,用于基于文本信息的知識發現。它是利用智能算法,如神經網絡、基于案例的推理、可能性推理等,并結合文字處理技術,分析大量的非結構化文本源抽取或標記關鍵字概念、文字間的關系,并按照內容對文檔進行分類,獲取有用的知識和信息。
文本挖掘是一項綜合技術,涉及數據挖掘技術、自然語言處理、計算語言學、信息檢索及分類、知識管理等多個領域。它主要處理半結構化、無結構化和字符型數據,將數據挖掘技術與信息檢索技術相結合,開闊了數據挖掘劫的應用領域,其特點是能夠更加有效地對文本數據(例如web頁面)進行分析,從而彌補信息檢索技術的缺陷與不足。
3.文本挖掘的處理過程
文本挖掘是從數據挖掘發展而來的,但并不意味著將數據挖掘技術簡單應用到文本集合上就可以實現文本挖掘。文本挖掘有兩個最基本的過程:文本檢索與智能分析。為了使最終用戶對結果有很好的理解和實用,通常還要列結果進行集成和可視化。因此,實際中的文本挖掘就包合了3個過程,其基本模型見圖1。
這一處理過程實際上就是先對文本進行處理。抽取出代表其特征的數據,這些特征可以用結構化的形式保存,作為文檔的中間表示形式,其目的在于從文本中掃描并抽取所需要的事實。由于該文檔特征向量的維數非常大,所以還需要對特征集進行縮減。縮減完以后便可利用機器學習的各種方法來提取面向特定應用目的的知識模式進行分類或聚類操作。對所得的知識模型進行質量評價,若評價的結果滿足一定的要求則保存該知識模型,若不滿足則進行新一輪的挖掘工作。
4.文本挖掘在形神一體觀中的應用
形神有著很緊密的聯系,在臨床實踐過程中,有指導臨床實踐的作用,因此在臨床實踐中運用好形神一體觀的理論能很好地提高臨床療效。然而,在實際的臨床運用中,有一部分能反應形神一體的臨床指標如面色、眼神、睡眠等常被我們臨床醫生所忽略。如何獲得這些指標,以便更好地指導臨床的辨證施治,這是本課題聽要解決的問題之一。由于中醫學語言是一種次語言,基于次語言的語言處理技術能對中醫文本進行相當深度的理解式分析和知識抽取,本課題將文本挖掘技術引入希望能在大量的中醫文獻中,篩選出在臨床實踐中被我們忽略掉而能反應形神一體觀的臨床指標。
統計學論文2000字(一):影響民族院校統計學專業回歸分析成績因素的研究論文
摘要:學習成績是評價學生素質的重要方面,也是教師檢驗教學能力、反思教學成果的重要標準。利用大連民族大學統計學專業本科生有關數據(專業基礎課成績、平時成績和回歸分析期末成績),建立多元線性回歸模型,對影響回歸分析期末成績的因素進行深入研究,其結果對今后的教學方法改進和教學質量提高具有十分重要的指導意義。
關鍵詞:多元線性回歸;專業基礎課成績;平時成績;期末成績
為了實現教學目標,提高教學質量,有效提高學生學習成績是很有必要的。我們知道專業基礎課成績必定影響專業課成績,而且平時成績也會影響專業課成績,這兩類成績與專業課成績基本上是呈正相關的,但它們之間的關系密切程度有多大?它們之間又存在怎樣的內在聯系呢?就這些問題,本文主要選取了2016級統計專業50名學生的四門專業基礎課成績以及回歸分析的平時成績和期末成績,運用SPSS統計軟件進行分析研究,尋求回歸分析期末成績影響因素的變化規律,擬合出關系式,從而為強化學生的后續學習和提高老師的教學質量提供了有利依據。
一、數據選取
回歸分析是統計專業必修課,也是統計學中的一個非常重要的分支,它在自然科學、管理科學和社會、經濟等領域應用十分廣泛。因此研究影響統計學專業回歸分析成績的相關性是十分重要的。
選取了統計專業50名學生的專業基礎課成績(包括數學分析、高等代數、解析幾何和概率論)、回歸分析的平時成績和期末成績,結合多元線性回歸的基礎理論知識[1-2],建立多元回歸方程,進行深入研究,可以直觀、高效、科學地分析各種因素對回歸分析期末成績造成的影響。
二、建立多元線性回歸模型1及數據分析
運用SPSS統計軟件對回歸分析期末成績的影響因素進行研究,可以得到準確、科學合理的數據結果,全面分析評價學生考試成績,對教師以后的教學工作和學生的學習會有較大幫助。自變量x1表示數學分析成績,x2表示高等代數成績,x3表示解析幾何成績,x4表示概率論成績,x5表示平時成績;因變量y1表示回歸分析期末成績,根據經驗可知因變量y1和自變量xi,i=1,2,3,4,5之間大致成線性關系,可建立線性回歸模型:
(1)
線性回歸模型通常滿足以下幾個基本假設,
1.隨機誤差項具有零均值和等方差,即
(2)
這個假定通常稱為高斯-馬爾柯夫條件。
2.正態分布假定條件
由多元正態分布的性質和上述假定可知,隨機變量y1服從n維正態分布。
從表1描述性統計表中可看到各變量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的標準差分別為10.847,11.531,8.929,9.018,9.221,y1的標準差為8.141;有效樣本量n=50。
回歸分析期末成績y1的多元回歸模型1為:
y1=-5.254+0.221x1-0.4x2+0.154x3
+0.334x4+0.347x5
從表2中可以看到各變量的|t|值,在給定顯著水平?琢=0.05的情況下,通過t分布表可以查出,自由度為44的臨界值t?琢/2(44)=2.015,由于高等代數x2的|t|值為0.651小于t?琢/2(44),因此x2對y1的影響不顯著,其他自變量對y1都是線性顯著的。下面利用后退法[3]剔除自變量x2。
三、后退法建立多元線性回歸模型2及數據分析
從模型1中剔除了x2變量,多元回歸模型2為:
y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)
在表4中,F統計量為90.326,在給定顯著水平?琢=0.05的情況下,查F分布表可得,自由度為p=4和n-p-1=45的臨界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自變量的|t|值都大于t?琢/2(45)=2.014,因此,多元回歸模型2的線性關系是顯著的。
四、結束語
通過對上述模型進行分析,即各個自變量對因變量的邊際影響,可以得到以下結論:在保持其他條件不變的情況下,當數學分析成績提高一分,則回歸分析成績可提高0.242分[4-5];同理,當解析幾何成績、概率論成績和平時成績每提高一分,則回歸分析成績分別提高0.149分、0.377分和0.293分。
通過對學生專業基礎課成績、平時成績與回歸分析期末成績之間相關關系的研究,一方面有利于教師把控回歸分析教學課堂,提高教師意識,注重專業基礎課教學的重要性,同時,當學生平時成績不好時,隨時調整教學進度提高學生平時學習能力;另一方面使學生認識到,為了更好地掌握回歸分析知識,應加強專業基礎課的學習,提高平時學習的積極性。因此,通過對回歸分析期末成績影響因素的研究能有效的解決教師教學和學生學習中的許多問題。
統計學畢業論文范文模板(二):大數據背景下統計學專業“數據挖掘”課程的教學探討論文
摘要:互聯網技術、物聯網技術、云計算技術的蓬勃發展,造就了一個嶄新的大數據時代,這些變化對統計學專業人才培養模式的變革起到了助推器的作用,而數據挖掘作為拓展和提升大數據分析方法與思路的應用型課程,被廣泛納入統計學本科專業人才培養方案。本文基于數據挖掘課程的特點,結合實際教學經驗,對統計學本科專業開設數據挖掘課程進行教學探討,以期達到更好的教學效果。
關鍵詞:統計學專業;數據挖掘;大數據;教學
一、引言
通常人們總結大數據有“4V”的特點:Volume(體量大),Variety(多樣性),Velocity(速度快)和Value(價值密度低)。從這樣大量、多樣化的數據中挖掘和發現內在的價值,是這個時代帶給我們的機遇與挑戰,同時對數據分析技術的要求也相應提高。傳統教學模式并不能適應和滿足學生了解數據處理和分析最新技術與方法的迫切需要。對于常常和數據打交道的統計學專業的學生來說,更是如此。
二、課程教學探討
針對統計學本科專業的學生而言,“數據挖掘”課程一般在他們三年級或者四年級所開設,他們在前期已經學習完統計學、應用回歸分析、多元統計分析、時間序列分析等課程,所以在“數據挖掘”課程的教學內容選擇上要有所取舍,同時把握好難度。不能把“數據挖掘”課程涵蓋了的所有內容不加選擇地要求學生全部掌握,對學生來說是不太現實的,需要為統計學專業本科生“個性化定制”教學內容。
(1)“數據挖掘”課程的教學應該偏重于應用,更注重培養學生解決問題的能力。因此,教學目標應該是:使學生樹立數據挖掘的思維體系,掌握數據挖掘的基本方法,提高學生的實際動手能力,為在大數據時代,進一步學習各種數據處理和定量分析工具打下必要的基礎。按照這個目標,教學內容應以數據挖掘技術的基本原理講解為主,讓學生了解和掌握各種技術和方法的來龍去脈、功能及優缺點;以算法講解為輔,由于有R語言、python等軟件,學生了解典型的算法,能用軟件把算法實現,對軟件的計算結果熟練解讀,對各種算法的改進和深入研究則不作要求,有興趣的同學可以自行課下探討。
(2)對于已經學過的內容不再詳細講解,而是側重介紹它們在數據挖掘中的功能及綜合應用。在新知識的講解過程中,注意和已學過知識的融匯貫通,既復習鞏固了原來學過的知識,同時也無形中降低了新知識的難度。比如,在數據挖掘模型評估中,把混淆矩陣、ROC曲線、誤差平方和等知識點就能和之前學過的內容有機聯系起來。
(3)結合現實數據,讓學生由“被動接收”式的學習變為“主動探究”型的學習。在講解每種方法和技術之后,增加一個或幾個案例,以加強學生對知識的理解。除了充分利用已有的國內外數據資源,還可以鼓勵學生去搜集自己感興趣的或者國家及社會大眾關注的問題進行研究,提升學生學習的成就感。
(4)充分考慮前述提到的三點,課程內容計劃安排見表1。
(5)課程的考核方式既要一定的理論性,又不能失掉實踐應用性,所以需要結合平時課堂表現、平時實驗項目完成情況和期末考試來綜合評定成績。采取期末閉卷理論考試占50%,平時實驗項目完成占40%,課堂表現占10%,這樣可以全方位的評價學生的表現。
三、教學效果評估
經過幾輪的教學實踐后,取得了如下的教學效果:
(1)學生對課程的興趣度在提升,課下也會不停地去思考數據挖掘有關的方法和技巧,發現問題后會一起交流與討論。
(2)在大學生創新創業項目或者數據分析的有關競賽中,選用數據挖掘方法的人數也越來越多,部分同學的成果還能在期刊上正式發表,有的同學還能在競賽中取得優秀的成績。
(3)統計學專業本科生畢業論文的選題中利用數據挖掘有關方法來完成的論文越來越多,論文的完成質量也在不斷提高。
(4)本科畢業生的就業崗位中從事數據挖掘工作的人數有所提高,說明滿足企業需求技能的人數在增加。繼續深造的畢業生選擇數據挖掘研究方向的人數也在逐漸增多,表明學生的學習興趣得以激發。
教學實踐結果表明,通過數據挖掘課程的學習,可以讓學生在掌握理論知識的基礎上,進一步提升分析問題和解決實際問題的能力。
1醫學論文的基本要求
1.1創新性醫學論文的創新性是指文章要有新意,要發展醫學成就,破解醫學問題。醫學論文有無創新,選題是關鍵。選題創新是醫學論文寫作的靈魂,是衡量醫學論文價值的重要標準。可體現在:①理論方面的選題應有創新見解,既要反映作者在某些理論方面的獨創見解,又要提出這些見解的依據;②應用方面的選題應有創新技術等,也就是要寫出新發明、新技術、新產品、新設備的關鍵,或揭示原有技術移植到新的醫學領域中的效果;③創新性還包括研究方法方面的改進或突破。
1.2可行性所謂選題的可行性,是指能夠充分發揮作者的綜合條件和可以勝任及如期完成醫學論文寫作的把握程度。選題切忌好高鶩遠,脫離實際,但也不應過低,影響主客觀的正常發揮,降低了醫學論文的水平。影響選題的可行性因素有:①主觀條件,包括作者知識素質結構、研究能力、技術水平及特長和興趣等;②客觀條件,包括經費、資料、時間、設備等。
1.3實用性撰寫醫學論文的目的是為了交流及應用。要從實際出發,選擇夠指導科研、指導臨床、造福人類的主題,因此,選題的實用性尤為重要。
1.4科學性醫學論文是臨床和醫學科學研究工作的客觀反映,其寫作的具體內容應該是取材客觀真實、主題揭示本質、科研設計合理、論證科學嚴謹、表達邏輯性強、經過實踐檢驗。所以,嚴格遵守選題的科學性原則,是醫學論文寫作的生命。
1.5前瞻性要選擇有研究價值及發展前途的主題,應積極開發研究新領域、新學科和新理論。
2選題的基本方法
2.1根據課題研究的結論來確定主題這是常用的方法,可分為:①以科研的結論或部分結論作為醫學論文的主題;②科研結果與開題時預測不一致,待查出原因后,再尋找主題;③科研達不到預期結果,可總結經驗,從反面挖掘主題。
2.2在科研過程中選題醫學科研的過程中,有時會出現意外的現象或問題,作者如果能夠細心觀察、及時發現,可以在這些偶然中獲得新的選題。
2.3在臨床實踐中選題臨床工作是醫學論文寫作取之不盡的源泉,作者在臨床中會經常遇到許多需要解決的實際應用問題或理論問題,對此,只要從本學科實際出發,用心思考,會從中產生很多好的主題。其包括:①探討發病機制與預后情況;②分析臨床癥狀與表現;③研究診斷方法和治療方法;④疾病的多因素分析等。
2.4從文獻資料中選題醫學文獻是人們長期積累的寶貴財富,是醫學論文選題的重要來源。閱讀最新文獻資料,可以了解當前醫學科學研究的進展情況,開拓思路、激發靈感,從而挖掘提煉出好的醫學論文主題。
3醫學論文的一般體裁
3.1實驗研究一般為病因、病理、生理、生化、藥理、生物、寄生蟲和流行病學等實驗研究。主要包括:①對各種動物進行藥理、毒理實驗,外科手術實驗;②對某種疾病的病原或病因的體外實驗;③某些藥物的抗癌、抗菌、抗寄生蟲實驗;④消毒、殺蟲和滅菌的實驗。
3.2臨床分析對臨床上某種疾病病例(百例以上為佳)的病因、臨床表現、分型、治療方法和療效觀察等進行分析、討論,總結經驗教訓,并提出新建議、新見解,以提高臨床療效。
3.3療效觀察指使用某種新藥、新療法治療某種疾病,對治療的方法、效果、劑量、療程及不良反應等進行觀察、研究,或設立對照組對新舊藥物或療法的療效進行比較,對比療效的高低、療法的優劣、不良反應的種類及程度,并對是否適于推廣應用提出評價意見。
3.4病例報告主要報告罕見病及疑難重癥;雖然曾有少數類似報道但尚有重復驗證或加深認識的必要。
3.5病例(理)討論臨床病例討論主要是對某些疑難、復雜、易于誤診誤治的病例,在診斷和治療方面進行集體討論,以求得正確的診斷和有效的治療。臨床病理討論則以對少見或疑難疾病的病理檢查、診斷及相關討論為主。
3.6調查報告在一定范圍的人群里,不施加人工處理因素,對某一疾病(傳染病、流行病、職業病、地方病等)的發病情況、發病因素、病理、防治方法及其效果進行流行病學調查研究,給予評價,并對防治方案等提出建議。
開發科技創新決策分析服務系統,其基礎性的工作是構建元數據倉儲知識庫。從科技文獻數據庫種類來看,包括:科技期刊、學位論文、會議論文、標準、專利文獻數據庫及科技成果、企業產品、科研機構、科技名人等事實型數據庫,從這些科技文獻中,挖掘其相互邏輯關系、交叉融合間的溝通脈絡是知識獲取、知識組織的關鍵。結合科技文獻資源的特性和文獻檢索導航需求分析,萬方軟件公司提出了基于“知識獲取五要素”的知識組織方法【4】,將學科、主題、人物、機構、基金五要素作為知識獲取的分析主題,構成二維空間,組成各個要素之間的相互關聯關系。五要素之間的相互關聯包含了多種科研信息,從各個角度,各個側面都有無窮的知識可以去挖掘分析。比如:機構和學科關聯,可以獲得各個機構的研究學科,以及有哪些機構在研究該學科的分析結果;機構、學科和作者關聯,可以獲得某個學科在某個機構中有哪些人在做相關研究的分析結果等等。因此從知識的組織角度,在構建元數據倉儲知識庫時,以五要素知識元為基礎,通過對海量科技文獻的處理(采集、轉換、清洗、質量檢測)和對五要素的深度標引,最終構建基于五要素的元數據知識倉儲,作為開發科技創新決策分析服務系統的基礎。
2科技創新決策分析服務體系架構和功能設計
元數據倉儲知識庫的構建為科技創新決策分析服務提供了基礎保障,在此基礎上,運用數據挖掘技術、自動分類∕聚類技術、信息可視化等技術,開發基于WEB的科技創新決策分析服務系統。基于元數據倉儲知識庫的科技創新決策分析服務主要體現在對科技創新能力的定量評價。主要功能設計如下:⑴主題知識脈絡分析。主要對主題關鍵詞所代表的知識點或概念在各年度的研究發展趨勢和研究熱點進行分析。包括:該主題各年度發文總量趨勢;該主題的相關關鍵詞;關注該主題的相關人物、機構以及涉及該主題的重要發文期刊。系統可通過用戶輸入的主題關鍵詞,在主題知識庫中挖掘揭示主題相關的各類科研產出情況,并通過主題相關的創新實體分析,為用戶推薦權威的研究機構和行業領域專家。⑵
科研人員科研能力評估分析。主要對科研人員(作者)科研產出情況進行統計分析。包括:科研人員的簡介;與作者合作過的相關科技人員信息;作者的研究主題、研究方向、主要發文期刊及參與基金項目情況。系統可通過用戶輸入的科研人員姓名,在人物庫中進行機構匯總,并經過用戶篩選科研人員現在或歷史所在機構,對作者的科研產出能力和科研績效水平得出最全面和客觀的評估和總結。⑶
論文引用情況分析。主要對被引用情況進行統計分析。包括:該論文被引論文具體信息(期刊、學位、會議、技術報告等)和比例、被引數量、被引用頻次等。系統按用戶輸入的論文標題、作者、關鍵詞進行檢索,按發文時間、相關度、題名進行排序,從而可以對該論文進行學術質量的綜合、定量的評價。該功能即可獨立使用,也可嵌入在科研人員科研能力評估分析系統中使用。⑷機構創新能力評估。主要對機構的期刊論文、學位論文、會議論文、專利、成果及機構承擔的國家基金項目進行統計分析,從而反映出機構的總體科學實力和科研績效水平。系統可通過用戶輸入的機構名稱,通過簡稱俗稱的規范對應,按論文類別、基金類別等方式進行機構科研產出的揭示,得出機構的科研能力和學術定位。
3科技創新決策分析服務系統的應用
科技創新決策分析服務系統目前在科技文獻共享服務平臺中已開始應用,平臺主要為用戶提供了作者科研協作關系、主題知識脈絡分析、機構科研能力評估三種服務。⑴作者科研協作關系。在作者科研協作關系服務中,可以分析出用戶所關心作者的如下信息:①作者合作關系:通過可視化的與合作者的關系呈現,可以分析出作者在科研工作中與合作者的合作關系,節點間的距離越近,表明與合作者合作發表的論文次數越多,合作關系越緊密。②作者科研產出統計:可以統計出作者總體的數量。③作者研究主題和研究方向:可以分析出作者的研究主題和按學科分析的研究方向。④主要發文期刊:可以統計出作者在不同期刊的數量,獲得作者關注的期刊情況。⑤作者簡介:獲得作者單位、職稱、職務等基本信息。在知識脈絡分析服務中,以用戶輸入的主題詞為分析依據,通過可視化信息展示,分析出主題詞所代表的知識點或概念在各年度的研究發展趨勢和研究熱點。并提供主題詞所關聯的相關詞、相關人物、相關期刊和機構的知識脈絡。
4結語
>> 基于本體的網絡輿情觀點挖掘方法研究 基于熱點文件下載的網絡輿情信息挖掘方法研究 基于網頁文本獲取的高校網絡輿情監控 基于OAG循環的網絡輿情管理模型研究 基于大規模文本數據情感挖掘的企業輿情研究 基于文本挖掘的網絡媒體報道研究 基于模糊神經網絡的Web文本挖掘系統 基于PDCA循環的預算管理 基于PDCA循環的績效考評 基于 PDCA 循環方法的瀝青路面質量動態管理的研究 基于數據挖掘的網絡輿情預警決策支持系統 基于數據挖掘技術的網絡輿情智能監測與引導平臺設計研究 基于Web挖掘的突發事件網絡輿情預警研究 基于Web數據挖掘的網絡輿情分析技術研究 基于Web挖掘的突發事件網絡輿情預警策略探討 基于數據挖掘技術在網絡輿情預測中的應用 基于數據挖掘的高校網絡輿情分析系統設計與實現 基于數據挖掘的輿情觀點挖掘研究 基于蛙鳴博弈的網絡輿情與政府監管的模型淺析 基于PDCA循環的績效管理體系的構建 常見問題解答 當前所在位置:.
[2]張玉亮.突發事件網絡輿情的生成原因與導控策略――基于網絡輿情主體心理的分析視閾[J].情報雜志,2012,31(4):54-57.
[3]許鑫,章成志,李雯靜.國內網絡輿情研究的回顧與展望[J].情報理論與實踐,2009,32(3):115-120.
[4]Hua Zhao,Qingtian Zeng.Micro-blog Hot Event Detection Based on Dynamic Event Model.Lecture Notes in Artificial Intelligence 8041,2013:161-172.
[5]鄭軍.網絡輿情監控的熱點發現算法研究[D].哈爾濱哈爾濱工程大學,2007.
[6]陳耘可,李博,鄭天翔.PDCA循環在煤炭企業質量標準化建設中的研究與應用[J].煤炭經濟研究,2013,33(2):77-79.
[7]辛敏.PDCA理論在護理質量管理中的應用研究[D].碩士學位論文:山西醫科大學,2010.
【關鍵詞】 科技文獻 評價體系 評價指標
二十世紀八九十年代是科研評價發展的高峰時期,科研管理專家和經濟學家提出了許多系統的評價方法[1]。科研評價是科研管理工作的重要環節和核心內容之一,是推動科技事業持續健康發展,促進科技資源優化配置,提高科技管理水平的重要手段和保障[2]。而在科研評價中,科研產出始終作為科研評價的主要內容。本文通過對科技文獻的特點進行分析,找出各個要素以及要素間的語義關系。通過對這些要素進行深入分析,在原有的理論和實踐的基礎上,對科技文獻產出評價體系重新設計,分別從科研機構綜合科研實力、核心作者學術力、學科發展、最新科研動向(領先研究領域),需求信息特點等五個方面,建立了一個相對系統全面的針對科研機構的科研評價指標體系。
1 科技文獻產出評價體系的作用
科技文獻是基礎性研究成果的主要表現形式,也是表征一個國家、地區基礎性研究實力的主要指標[3]。近二十年,一直被高等院校、科研院所以及政府部門作為評價科研能力水平和科研成果的重要指標。科技文獻產出評價體系的作用主要體現在三個層次上:宏觀上評價國家的科研創新水平,反映一個國家基礎研究、應用研究等方面的情況,在一定程度上反映了一個國家的科技技術水平和國際競爭力水平;中觀上評價科研機構的科研業績,反映了科研機構的學術、科研水平及科研機構間的競爭力;微觀上評價科研人員的科研能力,反映某個機構的團隊或個人的學術地位和影響。
2 科技文獻產出的要素
本文通過對科技文獻的特點進行分析,找到各種要素以及要素間的語義關系。通過對這些要素的統計分析,可以展開計量分析、主題揭示、關聯挖掘和綜合評價,從而獲取對科技文獻產出相關要素更深入全面的認識。
2.1 科技論文產出的相關要素
從科技文獻中可以獲得題名、摘要、作者、作者機構(單位)、關鍵詞、參考文獻、分類號以及基金項目等相關要素。科技論文的相關要素如下:
(1)科技論文是學術刊物上發表的科學研究成果。科技論文(題名、作者、機構(單位)、摘要、關鍵詞、參考文獻、發表期刊或會議)。
(2)作者,科技文獻的主要創作者,是科技文獻產出的源頭。作者(姓名、性別、出生年月、職稱、單位、郵箱、研究興趣)。
(3)期刊,科技文獻產出的媒介和主要載體。期刊(名稱、ISSN、主辦單位、地址、郵箱、出版周期、是否核心、影響因子)。
(4)機構(單位),是科研人員聯系形成科研團體的主要方式。機構(名稱、地址、郵編)。
(5)基金,是資助基礎科研工作的主要方式。基金(名稱、編號、類別、起止時間、額度、主持人、依托單位)。
(6)關鍵詞,作為科研人員對科研成果內容提綱挈領的體現,是科技文獻產出的主要內容特征。
2.2 科技文獻產出要素間的語義關系
要素與要素之間關系有三種:父子關系(等級)、相等關系(等同)和相關關系。相關關系根據緊密程度,又分為直接相關和間接相關。直接相關是指直接定義了概念間的關系,沒有經過任何其他的概念;間接相關是指某兩個概念雖然沒有直接定義關系,卻通過其他概念產生了關聯。
科技文獻產出要素的間關系如下圖1,其中的父子關系如文獻與參考文獻;相等關系如作者與項目參與人員;直接相關如作者與文獻之間是撰寫與被撰寫的關系;間接關系如基金項目與文獻之間通過作者產生關聯。
3 科技文獻產出評價指標體系
根據科技文獻產出要素以及要素之間的關系,圍繞科技文獻產出分別從科研機構綜合科研實力、核心作者學術力、學科發展、最新科研動向(領先研究領域),科研人員需求信息特點等五個方面設計評價體系。
3.1 科研機構綜合科研實力評估指標
科研機構是一個國家科技創新能力的重要體現,在提升國家綜合實力、創新能力、科技競爭力等方面發揮著主導作用。基于文獻計量的角度,通過文獻發表數量、被引篇數及頻次、專利數量以及合作論文數量等指標,對科研機構的成果(科技文獻)進行分析得出科研機構的綜合科研實力總體情況。
科研機構綜合實力評估分別從產出力、影響力、創新力和合作力四個方面進行評估,指標包括:
(1)科研機構生產力:反映科研機構科研產出能力。論文產出數量:科研機構在一定時間范圍內發表的論文數量;(2)科研機構影響力:反映科研機構的學術水平和影響力。引文量(篇/次):科研機構在一定時間范圍內發表的論文被引用的數量(篇/次);篇均引用次數:科研機構在一定時間范圍內所篇均被引用次數;SCI/EI收錄的論文數量:科研機構在一定時間范圍內被SCI/EI收錄的論文數量;核心期刊刊載的論文數量:科研機構在一定時間范圍內被核心期刊刊載的論文數量;(3)科研機構創新力:反映科研機構的自主創新能力和創新水平。專利數量:科研機構在一定時間范圍內公開的專利數量;基金立項數:科研機構在一定時間范圍內基金立項數量;科技成果數量:科研機構在一定時間范圍內科技成果數量;(4)科研機構合作力:反映科研機構與國際、國內交流的活躍程度;會議論文數量:科研機構在一定時間范圍內發表會議論文數量;合作論文數量:科研機構在一定時間范圍內與其他機構合作的論文數量的比例。C=No/(No+Ns),式中C:合作率;No:合作論文總數;Ns:獨立論文數。
3.2 核心作者群學術力評估指標
科技文獻的作者是推動學科發展的主體,對機構或學科的核心作者研究無疑具有重要意義。核心作者群是具有較高的學術產出和學術影響力的作者集合,是學科發展和創新的主體。通過對作者的發文量、被引次數等多方面指標,采用文獻計量、引文分析、數理統計等方法,綜合以上指標用定量的方法對核心作者學術力進行綜合評估。核心作者群學術力評估指標包括:
(1)發文方面。
作者論文產出數量:作者在一定時間范圍內發表的論文數量;
作者合作論文數量:作者在一定時間范圍內與他人合作創作的論文數量。
(2)引文方面。
總被引次數:作者在一定時間范圍內發表的論文被引用的數量
自引次數:作者在一定時間范圍內發表的論文自己引用自己文獻的數量
3.3 學科發展評價指標
學科發展評價則在于客觀科學地分析被評學科目前的發展基礎、發展狀況和態勢,預測將來發展可能達到的程度,發現學科發展過程中存在的問題,分析問題產生的原因,探討解決問題、促進學科發展的對策。開展學科發展評價,從而為制定學科發展戰略以及進行學科建設和管理提供直接、有力的支撐。學科發展評價指標包括:(1)學科文獻數量分布:科研機構在一定時間范圍內發表的論文在各個學科分布數量;(2)學科文獻數量增長趨勢:科研機構在一定時間范圍內各個學科論文數量的增長趨勢;(3)學科關鍵詞及頻次:該學科在一定時間范圍內論文的主要關鍵詞以及關鍵詞的出現次數;(4)學科題名及頻次:該學科在一定時間范圍內論文題名以及題名的出現次數;(5)學科文獻引文量:科研機構在一定時間范圍內該文獻被引用的數量。
3.4 最新科研動向(領先研究領域)分析指標
基金論文的生產能力是衡量這個學科科研實力和水平、科研組織能力及學科社會地位的重要標志,而權威期刊刊載基金資助論文往往代表著該研究領域的新動向、新趨勢、制高點。研究科學基金資助研究論文生產能力,對了解科研機構科學學發展動向具有重要的現實意義。
基金論文總數量:科研機構在一定時間范圍內發表基金論文數量;
基金論文增長趨勢:科研機構在一定時間范圍內基金論文的增長趨勢;
基金論文主題分布:科研機構在一定時間范圍內基金論文的主題分布;
基金論文高頻關鍵詞:科研機構在一定時間范圍內基金論文的出現頻次高的關鍵詞;
基金論文被引用量:科研機構在一定時間范圍內基金論文被引用次數。
3.5 科研人員需求信息的特點分析指標
分析引文是研究科研人員使用信息的一種重要途徑。根據科學文獻的引文可以研究人員的信息需求特點。一般來說,附在論文末尾的被引用文獻是科研人員所需要和利用的最有代表性的文獻。因此,引文的特點可基本反映出用戶利用正式渠道獲得信息的主要特點。通過對科研人員所發表的論文的大量引文統計,可以獲得與信息需求有關的許多指標,如引文數量、引文的文獻類型、引文的語種分布、引文的時間分布、引文出處等。這樣就可以從中挖掘出科研人員需求信息的特點。
引文數量:反應科研人員對已有研究成果和最新信息的利用能力;
引文國別:弄清與國際文獻交流的數量和流向;
引文語種:分布反映科研人員對外文文獻利用能力;
引文文獻類型:有利于確定文獻情報搜集的重點;
引文時間分布:吸收新信息和新成果的能力。
4 結語
通過查閱大量文獻可以發現,國內外在基于科技論文產出評價體系研究已經非常豐富,采用的研究方法和研究技術也已經比較成熟,研究視角多種多樣,取得了許多重要的研究成果。但是可以發現,我國對高校科研評價相對較多,對科研機構的評價比較匱乏,在科研評價的建設上還缺乏一個系統全面的指標體系。本課題在理論研究方面進一步完善了科技文獻產出評價指標體系研究,從科研機構綜合科研實力、核心作者學術力、學科發展、最新科研動向(領先研究領域),需求信息特點等五個方面,對科技文獻產出數據進行分析和挖掘,建立一個相對系統全面的科研機構的科技文獻產出評價指標體系。
參考文獻:
[1]劉作義,陳曉田.科學研究評價的性質、作用、方法及程序[J].科研管理,2002,23(2):33-40.
[2]中國社會科學院外事局輯.美國社會科學現狀與發展[M].社會科學文獻出版社,2001:370-393.
[3]HENK E.Moed,Research Assessment in Social Science and Humanities[EB/OL].http://lingue.unibo.it/evaluationin-thehumanities/Research Assessment in Social Science and Humanities.pdf.2010-10-15.