国产丁香婷婷妞妞基地-国产人人爱-国产人在线成免费视频麻豆-国产人成-91久久国产综合精品-91久久国产精品视频

公務員期刊網 精選范文 聚類分析論文范文

聚類分析論文精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的聚類分析論文主題范文,僅供參考,歡迎閱讀并收藏。

聚類分析論文

第1篇:聚類分析論文范文

1.芭蕾是一種形式感很強的舞臺表演藝術

芭蕾是一種形式感很強的舞臺表演藝術。即使不特別熟悉這一藝術樣式的觀眾,也知道它是“足尖上的舞蹈”,知道它那挺拔、修長的“Arabesque”,知道它那“天鵝般”靜穆與典雅的舞風。事實上,“形式感”很強的芭蕾,積淀的是包括基督精神、哥特式審美和紳士風度等在內的西方文化精神。根據文化傳播學的原理,某一文化形態在播遷異域后,反倒比其原生地的母體更固守形態的原發性和純粹性。盡管芭蕾的形式在中國大眾的接受境遇中已與原有的文化精神相剝離,但要在這種抽象的幾何形態中注人中國文化精神也并非易事。更何況“大紅燈籠”所面對的是《妻妾成群》這樣的文化舊俗和社會陋習。張藝謀高掛芭蕾“大紅燈籠”的初衷,可能是燈籠的象征、京劇的意味以及傳統中國的文化色彩,但他不能不首先對原著的敘述焦點及焦點人物作顛覆性的處理,否則他將被芭蕾的“形式感”所顛覆。非常看重“形式”在藝術表現中的重要作用的張藝謀,不可能置芭蕾藝術的“形式感”不顧而為所欲為。

2.按照舞劇敘述的特性升華原著的主題

據稱芭蕾舞劇《大紅燈籠高高掛》改編自張藝謀的同名電影,但張藝謀的電影則是改編自蘇童不同名的小說《妻妾成群》。我并不認為張藝謀電影的選材是迎合西方世界期待的中國“民族性”,從小說《妻妾成群》更名為電影《大紅燈籠高高掛》來看,毋寧說是張藝謀更看重選材中“鏡頭語言”的藝術張力及其文化內涵。將《妻妾成群》的直描隱匿在“大紅燈籠”的暗喻之后,是電影敘述中“鏡頭語言”的特性所決定的;電影無需改變原著的敘述焦點和焦點人物,因為在“大紅燈籠”高掛的鏡頭下,仍然是老爺的眠花宿柳和妻妾的爭風吃醋。但顯然,芭蕾“形式感”所決定的“舞劇敘述”拒絕老爺成為“男首席”。這一方面是由于芭蕾“男首席”體態語言的美學規范拒絕“老爺”的委瑣和陰毒,另一方面也是由于老爺“成群的妻妾”使“女首席”難以抉擇。于是,芭蕾舞劇“大紅燈籠”將“男首席”聚集于那位與三太太“”的戲班武生,三太太也就順理成章地成了“女首席”;又于是,男、女首席的“”事件沿著自身的敘述邏輯展開,它不是“妻妾成群”中的“世態百象”,而是其原有的“純情”之戀的“一以貫之”。于是,芭蕾舞劇《大紅燈籠高高掛》敘述的主線,體現為三太太的與其戀人——戲班武生的四段雙人舞:序幕中三太太被迫出嫁時憶及舊時戀人的“純情”雙人舞;三幕中戲班武生唱堂會時相逢三太太的“傾情”雙人舞;三幕中三太太不顧家法、以身相許舊時戀人的“”雙人舞;尾聲中戲班武生與三太太被老爺杖刑奪去年輕生命的“殉情”雙人舞……在我看來,舞劇的敘述特性首先體現為按男、女首席舞者的命運來設定情節,盡管“大紅燈籠”還不可能完全擺脫原著情節的構成框架,但原著的情節框架已拉開成背景,原著的主題也由于焦點人物的轉換而得以升華。值得注意的是,在這種敘述特性的觀照下,二太太從告密以邀寵到點燈而遭難的線索難免給人以枝蔓橫生之感。

第2篇:聚類分析論文范文

〔關鍵詞〕移動圖書館;熱點;共詞分析;因子分析;聚類分析;多維尺度分析

DOI:10.3969/j.issn.1008-0821.2014.07.008

〔中圖分類號〕G2501〔文獻標識碼〕A〔文章編號〕1008-0821(2014)07-0040-05

移動圖書館(Mobile library)原指“汽車圖書館”,是一種以大型交通工具作為空間載體,內置書架及各種圖書報刊,通過位置移動的方式供不同地方讀者取閱的圖書館。隨著移動互聯網技術、移動通信技術以及智能終端的快速發展,移動圖書館具有了新的內涵,如今主要是指利用各種智能終端,不受時間和空間限制,以無線接入方式訪問圖書館資源的一種新型服務方式。移動圖書館方便、高效、快捷的服務方式迎合了現代人們的信息需求特點,因此,移動圖書館的研究受到了國內外學術界的普遍重視,現已成為國內外圖書情報領域的一個研究熱點。我國于2000年正式啟動移動圖書館建設,經過十多年的發展,我國在移動圖書館理論與實踐研究領域已取得了豐碩的成果。

筆者以CNKI數據庫中的相關期刊論文為研究基礎,采用共詞分析方法,借助中國醫科大學醫學信息學系開發的書目共現分析Bicomb軟件確定高頻關鍵詞和高頻關鍵詞共詞矩陣,用SPSS190軟件進行因子分析、聚類分析以及多維尺度分析,從而在此基礎上揭示我國移動圖書館研究領域的熱點和現狀。

1關于共詞分析方法

共詞分析方法是一種基于內容分析的方法,是法國文獻計量學家于20世紀70年代中后期基于引文耦合與共被引概念提出的。其基本原理主要是通過分析某一學科領域文獻集中的詞匯對或名詞短語共同出現的情況,來判斷該學科領域文獻各主題之間的關系。筆者在研究過程中,主要是對移動圖書館文獻集中的關鍵詞進行共現統計,以此確定不同主題的相關關系,并且在運用共詞分析方法分析我國移動圖書館研究熱點時,主要遵循了以下幾個步驟:①確定移動圖書館研究領域高頻關鍵詞;②利用Bicomb軟件構建高頻關鍵詞共詞矩陣;③利用SPSS190軟件進行斯皮爾曼系數處理后得到相關矩陣進行因子分析;④用1減去相關矩陣中的所有數據的方法得到相異矩陣后利用SPSS190軟件進行聚類分析;⑤利用SPSS190軟件對已得到的相關矩陣進行多維尺度分析;⑥對所獲得的信息結果進行分析。

2014年7月第34卷第7期現?代?情?報Journal of Modern InformationJuly,2014Vol34No72014年7月第34卷第7期我國移動圖書館研究熱點分析July,2014Vol34No72數據來源與處理

在共詞分析過程中,考慮到我國移動圖書館研究論文收錄的全面性,2014年2月12日,筆者以CNKI全文數據庫為數據來源進行檢索,檢索策略為“主題=移動圖書館”或者“主題=手機圖書館”,共檢索到729篇文獻,經過剔除不相關文獻之后得到680篇文獻,然后下載這些論文的題錄,利用Bicomb軟件的統計功能進行關鍵詞統計,統計結果顯示所有文獻共含有2 466個關鍵詞,從中選擇出57個詞頻大于等于5的關鍵詞作為共詞分析的基礎(見表1)。

3移動圖書館的共詞分析

31因子分析

因子分析的主要思想是利用盡可能少的因子去描述眾多指標或要素之間的聯系,即將相關性較高的幾個變量歸為一組,在每一組變量中找出隱藏的具有代表性的因子成為一個公共因子,以較少的公共因子反映原始資料的大部分信息,最后使得同組內的變量之間具有較高的相關性,不同組的變量之間具有相對較低的相關性。

利用SPSS190分析中的斯皮爾曼系數將已生成的高頻關鍵詞共詞矩陣轉換成相關矩陣,并以此相關矩陣為基礎,在SPSS190中選擇主成份方法、協方差矩陣和最大方差旋轉進行因子分析,得到相關矩陣的解釋總方差(見表3)。

32聚類分析

聚類分析又稱群集分析,是根據“物以類聚”的思想對事物的特性進行比較分類,將具有相近特性的事物歸為一類,將具有特性差別較大的事物歸入不同的類。

在聚類分析中,為消除共詞頻次差異的影響,需要將57*57的共詞相關矩陣轉化為相異矩陣,具體方法是用1減去相關矩陣中的所有數據的方法進行轉化。然后利用SPSS190軟件聚類分析中常用的系統聚類法對共詞矩陣進行聚類,聚類時聚類方法選用Wards算法,聚類度量標準選擇“計數”中的斐方(Phi square measure),轉換值標準化選擇Z得分。最后經過分析得到聚類樹狀結構圖,通過這個樹狀圖可以初步判斷各關鍵詞之間的親疏關系,結合前面的因子分析結果,我國移動圖書館研究領域的聚類樹狀結構圖可以確定為5個大類(見圖1),進而可以為多維尺度分析的最終分組提供依據。

33多維尺度分析

多維尺度分析是研究對象之間相似性或差異性的一種多元統計分析方法,其基本原理是將研究對象從多維空間簡化到低維空間進行定位、分析和歸類,同時又保留對象間原始關系的數據分析方法[1]。

筆者以前面的相關矩陣為基礎利用SPSS190軟件進行多維尺度分析,結合因子分析和聚類分析的結果,繪制了具有5個類團的多維尺度分析圖(見圖2)。這5個類團分別代表的主題是:1移動圖書館服務模式;2移動技術在圖書館的應用;3移動圖書館系統設計分析及實現;4移動圖書館現狀及發展趨勢;5移動圖書館應用實例介紹。

5結語

本文以我國移動圖書館研究領域的高頻關鍵詞為基礎,通過共詞分析方法進行了因子分析、聚類分析和多維尺度分析,結果發現我國的研究學者對移動圖書館的研究主要集中在移動圖書館服務模式、移動技術在圖書館的應用、移動圖書館系統設計分析及實現、移動圖書館現狀及發展趨勢、移動圖書館應用實例介紹五個方面。盡管我國學者在移動圖書館研究領域取得了不錯的研究成績,但是從因子分析和聚類分析結果來看,我國移動圖書館的新興主題研究不夠,難以形成一類,如“個性化服務”、“移動閱讀”等主題,由于研究涉獵不多,所發表的論文數量偏少,結果在共詞分析中只能依附于其他相關主題。

值得注意的是本研究在研究過程中存在一定局限性,一是由于某些論文的關鍵詞著錄不規范,使得關鍵詞數據還不夠全面完善;二是移動圖書館的高頻關鍵詞的閥值選定是個值得商榷的事,到底選擇多大閥值的關鍵詞才能全面反映移動圖書館的整體狀況仍是一個值得不斷探索的事情,筆者將在未來的研究中不斷地進行實踐完善。

參考文獻

[1]陸宇杰,張鳳仙,范并思.基于共詞分析的高校圖書館核心價值研究[J].大學圖書館學報,2011,(6):34-40.

[2]宋鸞姣,李利.面向智能手機的移動圖書館服務需求調查分析[J].圖書館,2012,(5):71-72.

[3]宋恩梅.移動的書海:國內移動圖書館現狀及發展趨勢[J].中國圖書館學報,2010,36(5):36-48.

[4]龍泉,謝春枝,申艷.國外高校移動圖書館應用現狀調查及啟示[J].圖書館論壇,2013,(5):60-64.

[5]潘志鵬.基于手機平臺的圖書館延伸服務――以武漢圖書館手機服務為例[J].情報理論與實踐,2011,(1):76-79.

[6]袁輝,楊新涯,王寧.移動圖書館的實踐與展望──以重慶大學圖書館為例[J].圖書館建設,2011,(11):66-70.

[7]董偉.國內近十年數字圖書館領域研究熱點分析――基于共詞分析[J].圖書情報知識,2009,(131):58-63.

第3篇:聚類分析論文范文

房地產投資環境屬于城市投資環境的子系統,縱觀國內外學者建立的各種投資環境評價方法,現階段用的比較多的方法有:灰色關聯分析法(鄧聚龍,1988),層次分析法(SAATYTL,1908),模糊評判法(CHUATW,1979),人工神經網絡法(HECHT-NIELSENR,1987),物元分析法(蔡文,1994)以及投影尋蹤法(FriedmanJH,TukeyJW,1974)等.其中灰色關聯分析法、模糊評判法、物元分析法是主觀分析方法,在此類方法的應用中主要由人為的根據經驗確定各個指標的權重,因此其評價結果具有一定的人為隨意性;人工神經網絡方法能夠消除評價過程中的人為隨意性,但是其學習訓練需要相當多的樣本,況且還容易陷入局部極小點,因此不便于推廣應用;投影尋蹤方法能夠將高維數據轉變為低維數據,通過低維空間數據來分析高維空間數據,但是其中的密度半徑窗口參數需要根據經驗來確定,其評價結果仍然帶有一定的主觀性;當然也有一些經典的傳統降維方法能夠利用指標數據信息對投資環境做出較客觀的評價,比如主成分分析法和因子分析法,但是此類方法是從眾多指標中提取少量指標來反應樣本信息,使得樣本的信息損失量較大,同時對樣本數據也有嚴格的要求.投影尋蹤動態聚類模型依據動態聚類思想來構建投影指標,完全依靠樣本數據自身特性根據投影指標來尋找投影向量,利用投影向量將高維樣本數據投影到低維數據,然后通過研究處理低維數據達到研究高維數據目的,同時實現樣本數據的排序和自動聚類分析.投影尋蹤動態聚類模型已經在洪水災害管理、氣候分區和區域水安全評價等領域的多元數據分析中取得了一定的應用.本文將投影尋蹤動態聚類模型應用到房地產投資環境評價中,以期為房地產投資環境評價提供更多的方法論。

2實例研究

為了驗證投影尋蹤動態聚類模型在房地產投資環境評價中的適用性,下文將進行實例研究.考慮指標數據的易獲得性,以遼寧省工業地產的投資環境分析為例.張軍濤和劉建國利用主成分分析法篩選了影響遼寧省主要城市投資環境評價的主要指標,之后利用聚類原理對數據進行了聚類分析;楊建喜和宋永發利用基于遺傳算法的投影尋蹤方法將高維數據降維到低維數據,然后利用雷達圖對投影特征值進行聚類分析,研究了遼寧工業地產投資環境的排序.以上兩篇論文中使用兩類不同的方法得到了類似的排序和聚類結論.本文的研究以此為基礎,通過投影尋蹤動態聚類模型進行遼寧省工業地產投資環境評價,然后與文獻的結論進行比較,以檢驗投影尋蹤動態聚類模型的適用性.工業地產是區別于住宅地產,商業地產和綜合用地以外的工業性質的房地產.影響工業地產投資環境評價的因素眾多,參考文獻從社會文化環境、基礎設施環境、經濟發展環境、工業發展環境4個方面選擇36個指標對遼寧省14個地級市的工業地產投資環境進行分析評價。首先,確定遼寧省工業地產投資環境的分類數,這里參照文獻的分類,將整個樣本分為3類。同時得各個城市的投影特征值,投影特征值排序以及投影特征值聚類結果。最后,將本文的分析結果與文獻的分析結果進行對比。所得排序和分類結果與用投影尋蹤分析方法和用主成分分析方法基本一致,驗證了本模型在房地產投資環境評價中的適用價值.但與文獻中的基于遺傳算法的投影尋蹤算法相比:克服了需要根據經驗來確定投影指標函數的密度窗口半徑參數和對投影特征值要借助雷達圖進行聚類再處理的過程;與文獻的主成分分析方法相比:投影尋蹤動態聚類模型能夠更多的利用原始指標信息,使得出的結論可能更加客觀可靠.同時投影尋蹤動態聚類模型在對數據的排序過程中自動輸出聚類結果,不需要再借助其他方法進行聚類分析.這具有文獻中所用方法無法比擬的優勢.在同一聚類數據中,個別數據的排序結果與文獻中結論稍微不一致,這主要是由于在用遺傳算法求解時每次生成的單位投影向量帶有一定的隨機性所致。

3結語

第4篇:聚類分析論文范文

關鍵詞: 居民出行特征; 數據挖掘; GPS軌跡數據; DBSCAN

中圖分類號:TP29 文獻標志碼:A 文章編號:1006-8228(2017)05-37-03

Research on the characteristics of resident travel based on the taxi

GPS trajectory data mining

Lin Jiyan, Zhang Yaqiong, Zhang Hui

(School of Information Technology, Yulin University, Yulin, Shaanxi 719000, China)

Abstract: The analysis to the characteristics of urban residents travel is becoming increasingly important in urban traffic planning, and has become an important basis of urban road traffic construction. The urban taxi can well reflect the characteristics of residents travel because of its operational characteristics and rule. Therefore, in order to effectively solve the problem of city road congestion and provide the basis for city traffic planning, the paper presents the research on the characteristics of resident travel based on the taxi GPS trajectory data mining. The research uses DBSCAN algorithm to realize the clustering analysis of the historical GPS trajectory data, which can not only extract the temporal and spatial characteristics of urban resident travel, but also effectively reduce the taxi no-load rate.

Key words: resident travel characteristic; data mining; GPS trajectory data; DBSCAN

0 引言

在城市的上下班高峰期,道路磯率淺鞘薪煌ㄎ侍庵兇釵突出的難題,這跟城市居民出行行為密不可分,因為出行的居民是交通量的主要來源[1]。一個城市的交通系統狀況跟城市居民的出行行為息息相關,居民的出行行為會對城市交通體系產生影響[2]。對居民出行特征進行研究是城市和交通規劃、城市公共基礎設施建設管理中的一個基礎性任務,不僅可以用來對目前的交通出行情況進行評估,也可以用來對居民的出行需求進行預測,對實施合理有效的城市交通規劃起著至關重要的作用[3]。

出租車因其靈活性和便利性,已日漸成為城市交通系統的重要組成部分,同時,因為它的起點和終點由乘客決定,且24小時不間斷服務,所以,出租車的運營規律能夠反映出乘客的出行特征[4]。由于裝載在出租車上的GPS和通信設備以一定的頻率向城市交通客運管理中心傳送出租車的實時經緯度、運營狀態、行駛方向、速度等信息,因此,管理中心會積累大量的出租車GPS軌跡數據[5],利用DBSCAN對這些進行數據進行聚類分析,可以在一定程度上挖掘乘客出行的時空特征,也能為出租車尋找最佳的載客區域提供依據,有效的降低出租車的空駛率。

1 GPS軌跡數據挖掘設計

1.1 數據預處理

本文選取榆陽區(地理坐標為東經108?58'-110?24',北緯37?49'-38?58'之間)作為研究區域,GPS軌跡數據使用榆陽區1100多輛出租車五天的運營數據,對數據進行預處理后,出租車軌跡數據由車牌ID tID、、當前位置loc、GPS時間ct、營運狀態tsta、行駛方向tdir、GPS速度dspe等六個屬性組成,部分屬性值如表1所示。

表1中,營運狀態的取值為0-3,其中0表示空載,1表示載客,2表示駐車,3表示停運;GPS方向的取值為000-360,以度為單位,即與北極方向的夾角,代表車輛的行駛方向。

1.2 利用DBSCAN算法進行聚類挖掘

居民的作息和社會活動有明顯的時間規律,比如上下班高峰期的載客點分布情況和非高峰期的居民出行特征有可能完全不同,因此,可以先將GPS歷史軌跡數據根據時間特征分類,再進行密度聚類分析,如此便可充分挖掘在不同時間段上居民出行特征的空間密度分布情況,給出租車提供更加合理的時空載客區域分布數據,有效地提高其巡游過程中的載客成功率。基于此,論文引入了DBBSCAN算法,該算法需要3個輸入參數:歷史軌跡數據對象D,空間半徑ε,以及密度閾值MinPts;輸出參數為聚類簇C,部分MATLAB代碼如下:

data=importdata('data.xlsx');

data=data.data.Sheet1;

……

num=size(data,1);

k=floor(log(num))+1;

k=round(num/25)+1;

k_dist=zeros(num,1);

for i=1:num

temp=repmat(data(i,:),num,1);

gx0=temp(:,1); gy0=temp(:,2);

gx1=data(:,1);gy1=data(:,2);

dist0=sqrt((gx0-gx1).^2+(gy0-gy1).^2);

dist_s=sort(dist0);

k_dist(i)=dist_s(k);

end

x=1:num;

figure;plot(x,k_dist,'r-');

xlabel('?ù±?±à??');ylabel('k_{-}dist');title('k_{-}dist??');

……

x=[(1:m)' data];

[m,n]=size(x);

types=zeros(1,m);

dealed=zeros(m,1);

dis=calDistance(x(:,2:n));

number=1;

……

img=imread('map.jpg');

[Ny,Nx]=size(img);

……

figure;imagesc(x00,y00,img); colormap(gray); hold on;

for i=1:m

if class(i)==-1

plot(data(i,1),data(i,2),'.r');

else if class(i)==1

if types(i)==1

plot(data(i,1),data(i,2),'+b');

else

plot(data(i,1),data(i,2),'.b');

end

elseif class(i)==2

if types(i)==1

plot(data(i,1),data(i,2),'+g');

else

plot(data(i,1),data(i,2),'.g');

end

……

plot(x1,y1,'r*');

xlabel('度'); ylabel('緯度');

2 實驗結果

聚類結果如圖1和圖2所示,出行熱點區域在圖中用圓圈標出。

以上的聚類結果顯示,榆陽區的居民出行呈現一定空間和時間特征。工作日和非工作日出租車熱點區域不同,且工作日的不同時間居民出行的特征不同;在工作日,出租車的載客熱點數比非工作日多;而載客熱點分布,工作日比非工作日分散。該聚類結果也可以給出租車司機提供歷史載客熱點序列,從一定程度上解決巡游方式的出租車空載率高的問題。

3 結束語

本文利用DBSCAN算法對出租車的歷史GPS軌跡數據進行挖掘,從挖掘結果可以分析出居民出行的時空特征,從而用來對目前的交通出行情況進行評估,同時也可以用來對居民的出行需求進行預測;再者,可以根據挖掘結果給出租車司機提供歷史載客熱點序列,幫助出租車司機降低空駛率。本文僅針對工作日和周末特定時刻給出了聚類分析,沒有詳細地分析一天中不同時刻的居民出行特征,以后的工作中會繼續研究和改進。

參考文獻(References):

[1] 衛龍,高紅梅.基于軌跡數據挖掘的居民出行特征研究進展[J].西部交通科技,2016.10:87-92

[2] 馮琦森.基于出租車軌跡的居民出行熱點路徑和區域挖掘[D].重慶大學,2016.

[3] 陳世莉,陶海燕,李旭亮,卓莉.基于潛在語義信息的城市功能區識別――廣州市浮動車GPS時空數據挖掘[J].地理學報,2016.3:471-483

[4] 張俊濤,武芳,張浩.利用出租車軌跡數據挖掘城市居民出行特征[J].地理與地理信息科學,2015.6:104-108

[5] 張薇,林龍.基于數據挖掘的增城居民出行特征分析[J].科技和產業,2015.7:61-64

[6] 趙苗苗.基于出租車軌跡數據挖掘的推薦模型研究[D].首都經濟貿易大學碩士學位論文,2015.

[7] 童曉君.基于出租車GPS數據的居民出行行為分析[D].中南大學碩士學位論文,2012.

第5篇:聚類分析論文范文

[關鍵詞]期刊共被引 對角線取值 聚類分析 核心-邊緣結構分析

[分類號]G350

1 引 言

共被引分析方法是引文分析方法的一種,自從1973年分別由Small和I.V.Marshakova提出后,就備受研究者們關注。根據分析對象的不同,共被引分析方法主要分為文獻共被引、作者共被引、期刊共被引和專利共被引等幾種。

期刊共被引是以期刊為基本單元而建立的共被引關系。期刊共被引分析方法于1991年McCain首先引入并運用于期刊及學科領域的研究以來,理論與方法逐漸發展,運用領域也不斷擴大。隨著科學知識圖譜、可視化技術、社會網絡分析等逐漸成為科學計量學研究的熱門,期刊共被引分析越來越成為人們關注的熱點。

期刊共被引分析的步驟,學術界普遍采用1990年McCain對作者共被引技術總結的模式,其歸納為選擇作者、檢索共被引頻次、生成共被引矩陣、轉化為Pear.SOil相關系數矩陣、多元分析和解釋結果等幾個步驟。這幾個步驟中,生成共被引矩陣是基礎和關鍵的一步,后面的分析均基于該矩陣。

共被引矩陣是個對稱矩陣,非對角線上元素表示兩兩之間共被引的次數(也稱共被引強度),共被引強度越高,則說明關系越密切;然而,對共被引矩陣對角線取值的處理,學術界提出過多種觀點,但至今沒有統一的定論。由于不同的對角線取值,會造成期刊共被引分析結果的差異,因此有必要對期刊共被引矩陣對角線取值問題進行探究。

2 共被引矩陣對角線取值的幾種方法

2.1 總被引次數

對角線上的數值采用文獻總被引次數或作者總被引次數(包括了作者自引的次數),這是學者們對共被引分析對角線取值的最初思考。國內學術界一些早期的研究L2-3]即采用這種觀點。這種做法,數據易取,容易操作。但其取值依據明顯與共被引理論不一致,造成分析的結果失真嚴重。因而,用總被引次數填充共被引矩陣對角線的做法,逐漸被其他做法代替。

2.2排序前三的共被引頻次之和的一半

White和Grififth最初是將對角線值定為:排序前三的共被引頻次之和的一半。因為,一方面對角線上取作者總被引次數遠遠高出其他作者間的共被引次數,另一方面是作者同名造成的影響很大。

對角線取排序前三的共被引頻次之和的一半,部分解決了失真和作者同名的問題,又可突出共被引分析中對角線上數值的相對重要性。這樣做能解決對角線取總被引次數的一些問題,但此做法的合理性缺乏有效的證明。并且,現代檢索技術的發展,同名的問題已基本得到解決。

2.3 缺失值

對角線上的取值直接采用默認的缺失值,是Mc.Cain提出的,這也是影響最廣泛、目前最普遍的一種對角線確定方法。MeCain提出這種做法,也是為了解決對角線上采用總被引次數造成失真嚴重的問題,并通過作者共被引的實例證實缺失值的聚類、多維尺度、主成分分析的結果與White和Griffith采用排序前三的一半的做法,結果相差不大。

在聚類分析、多維尺度分析中,對角線值缺失的共被引矩陣需要將對角線默認為0,再轉化成相關系數矩陣,這樣相似矩陣對角線就自動變為1,這種取值方法解決了進一步多元分析中程序的限制問題。從表面看來,在處理數據方面非常方便,但忽略了研究對象的背景與含義。共被引矩陣是考察各對象之間親疏關系的相似矩陣,撇開對象與自己的關系,孤立地分析對象與對象之間的親疏關系,存在一定的不合理性。

2.4 最大值和最大值+1

White在文獻[6]中,建議使用期刊被引頻次的最大值作為對角線取值。他從Person相關系數矩陣測度相似性的角度出發,并通過實例,說明采用默認值的做法會使分析結果存在一定的人為特定目的。取最大值的做法,比起排序前三的一半的做法,更加凸顯對角線的重要性,也方便操作。

我國學者邱均平從臨近矩陣的角度出發,認為:按照共被引的假設――具有相同的共被引強度意味著具有相同的相似程度,期刊與自身的關系應為最親近(相似),建議用最大值+1來凸顯期刊與自身的親密關系,并以編輯出版類期刊群和圖書館學情報學期刊群做了實證分析。

采用最大值或最大值+1的做法,從相似性的角度看,存在一定的合理性,而且數據易取,操作簡單。但難于解釋的一個問題是:為何取最大值或最大值+1,而不是最大值+2、最大值+N?理論依據是什么?另外,“期刊與自身的關系最親近”這一假設同樣存在一定的局限性。在文獻(或專利)共被引中,共引意味著文獻(或專利)相互引證,文獻(或專利)主題存在相似性,共被引強度越大相似程度越大。但,在作者共被引或期刊共被引分析中,作者研究領域的改變、期刊辦刊方向的變化等都會造成“期刊與自身關系最親近”的假設不成立。

2.5期刊與自身的實際共被引次數

Ahlgren等認為,采用排序前三的共被引頻次之和一半和缺失值的做法僅是采用總被引次數的替換。雖然能生成共被引矩陣,但并不是最好的做法。從共被引的原理和統計意義上,應該使用自己與自己實際共被引次數,這樣產生的矩陣才是嚴格意義上的共被引矩陣。此結論是Ahlgren在探討作者共被引分析時得出的,這種做法由于數據收集困難而很少被采用,更缺乏實證的驗證。

通過以上分析,本文認為,針對作者、期刊、專利等不同分析對象的特點,對角線取值方式應該有所不同。從社會網絡、共被引分析的原理和期刊動態變化的特點三個角度看,期刊共被引矩陣對角線取值采用期刊與自身的實際共被引次數最為合理。

首先,從社會網絡的角度看,期刊共被引矩陣(網絡)是典型的自反網絡,即期刊與自身是有關系的;因此,在考察期刊群之間相互關系的過程中,不應該拋開期刊與自身的關系,應對其加以考慮。從這個意義上來說,對角線取缺失值的做法并不合理。

其次,期刊共被引關系把眾多的期刊按被引證關系聯系起來,從期刊所載論文被利用的角度揭示期刊之間的某種學科或專業上的聯系。換言之,期刊共被引分析通過期刊所載文獻之間的共被引關系揭示期刊的主題、地位上的密切關系,而期刊共被引矩陣是期刊之間密切關系的外在表現。采用自己與自己實際共被引次數作為矩陣對角線的值,形成嚴格意義上的共被引矩陣,更符合共被引原理。

第三,不同于耦合關系,共被引關系所反映的是變化的或暫時的關系,而且期刊共被引是對某一跨度時間內形成的共被引關系進行分析,因而有必要考慮期刊動態變化的特點。造成這種變化可能是期刊季

刊、雙月刊、月刊、半月刊的改變,也存在期刊載文主題的變化。在這個意義上,“期刊自己與自己的關系最為密切”的假設并不一定成立,共被引矩陣對角線取最大值、最大值+1或其他遠大于非對角線的做法的合理性值得商榷。而這幾種對角線取值方式中,最能反映期刊動態變化的是實際共被引次數。

3 實證研究――以圖書情報學期刊群為例

3.1 數據的收集和處理方法

前面提到,對角線上的數值采用文獻總被引次數或作者總被引次數(包括了作者自引的次數)的做法,是共被引分析的最初做法,已逐漸被其他方法完全替代。這里不再對該種做法進行研究。其余幾種對角線的處理方法,本文通過實例進行聚類分析和核心一邊緣結構分析,對各種對角線取值方式得到的結果進行比較。

本文以文獻[9]為基礎,采用該文選取的期刊群及數據收集的時間段,同樣以CNKI為信息源及相關的分析軟件(sPSS及UCINET),并于2009年8月13日對文獻[9]中期刊源(29種)的共被引數據進行檢索整理,得到如表1所示的共被引矩陣①:

3.2 聚類分析和核心-邊緣模型分析

共被引矩陣的不同會影響分析的結果,而造成共被引矩陣不同的原因是對角線的處理方法。以下是對幾種對角線處理方法逐一進行聚類分析和核心一邊緣模型分析。

3.2.1排序前三的共被引頻次之和的一半 圖1是采用該種對角線處理方法的聚類分析圖。從聚類分析結果,我們可以清楚地看到,采用排序前三的共被引頻次之和的一半的做法,將這29種期刊聚類成三大類:第一類包括《圖書情報工作》、《中國圖書館學報》等21種(圖1中a類)偏圖書館學領域的期刊和《情報理論與實踐》、《情報學報》等5種(上圖中b類)偏情報學領域的期刊;第二類為《農業圖書情報學刊》和《情報探索》;第三類是《中華醫學圖書情報雜志》。這種對角線取值的方法,第一類包含了29種期刊中的26種,圖書館學領域期刊群和情報學領域期刊群聚成一個大類。

圖1右邊核心邊緣結構分析,得到的結果顯示數據和理想模型的相關系數能達到0.919。這里得到的期刊核心度數值與邱均平、李俊佩的文獻《圖書情報學期刊的同被引研究》存在不同,但期刊核心度排名基本一致。

3.2.2缺失值對角線默認缺失值是共被引分析最普遍的做法。圖2是對角線取缺失值的期刊共被引聚類圖和核心邊緣結構分析圖。聚類結果同樣不精確,除《圖書情報工作》、《情報理論與實踐》與《情報學報》各聚成一類外,其余聚成一個大類。而核心邊緣結構分析,得到的結果顯示數據和理想模型的相關系數為0.889。

3.2.3 最大值和最大值+1最大值和最大值+1得到聚類分析和核心邊緣分析結果幾乎相同,如圖3和

聚類分析將29種期刊大致分成四類:第一類包括22種期刊,這些期刊主要以圖書館學領域的文章為主;第二類是以情報學領域的文章為主的期刊,它們都是情報學期刊,并且技術方面的文章占的比例也相對較高;第三類《情報探索》單獨成一類;第四類是《中華醫學圖書情報雜志》單獨成一類。

核心邊緣結構分析顯示該取值方法與理想模型的相關系數為0.951。

3.2.4期刊與自身的實際共被引次數將期刊與自身的實際共被引次數作為共被引矩陣對角線數值得到的聚類見圖5,分為四類:

?第一類是研究圖書館學主題為主的23種期刊,包括《圖書情報工作》、《中國圖書館學報》等。這23種期刊又分成四個子類:a類全部都是圖書館學的核心期刊;b類包括各地圖書館學期刊,大多不是核心期刊;c類是以情報學為主題較多的期刊;d類是偏應用較多的期刊。

?第二類是主題以情報學為主的4種期刊:《情報理論與實踐》、《情報學報》、《情報科學》和《現代圖書情報技術》。

?第三類、第四類分別是獨自成一類的《農業圖書情報學刊》及《中華醫學圖書情報雜志》,這兩種期刊都是以特定專業領域為主題的期刊。

將實際共被引次數作為共被引矩陣對角線數值,進行核心邊緣結構分析,顯示數據和理想模型的相關系數為0.962,優于其他取值方法得到的結果。

3.3對比分析

從聚類結果上看,上文中3.2.1、3.2.2聚類結果較為模糊,形成類別少,類內距離很大;3.2.3能聚成四類,但其第一類的組內距離很大;3.2.4最能滿足層次聚類法“類內距離小,類間距離大”的條件,聚類結果更為良好。

和3.2.3比較,3.2.4除了聚類分類更詳細更準確外,還有一個差別,即:《情報資料工作》期刊的歸類不同:3.2.3將該刊物聚為情報學期刊子群,3.2.4則歸為圖書館學期刊子群。為驗證其歸屬,筆者對《情報資料工作》2002-2007年發表學術論文的關鍵詞進行考察。考慮到關鍵詞是表征論文內容的核心詞匯,本文將從對關鍵詞的統計對上述問題給出解釋。統計結果顯示,2002-2007各年間,《情報資料工作》刊載學術論文的前十位高頻關鍵詞(限于篇幅,具體數據略去,有需要可向作者索取),更多表征的是圖書館學的內容,特別需要一提的是除了2007年排名第二的高頻關鍵詞是“知識管理”,其余各年排名第一、第二的高頻關鍵詞表征的均是圖書館學的內容。這也從另一個側面證明了《情報資料工作》歸類于圖書館學期刊更為合理。

從核心一邊緣結構分析結果來看,對角線取值的不同會影響期刊核心度,但對核心度排名的影響不大。就分析結果和理想模型的擬合系數來看,3.2.4能達到0.962,是這幾種取值方法中最高的,這也從實證的角度證明對角線取值為“期刊與自身的實際共被引次數”更為合理。

4 結語

第6篇:聚類分析論文范文

[關鍵詞]機器學習;半監督學習;半監督聚類;文本聚類

中圖分類號:TP31 文獻標識碼:A 文章編號:1009-914X(2016)29-0361-01

0 研究背景

數據庫技術為存儲海量數據信息提供了可能,但隨著通信網、互聯網的迅速發展和日益普及,信息量呈指數級別增長,由于信息產生的速度遠遠超過人們對信息的利用能力,使得人們在海量的信息面前無所適從,給使用者帶來巨大的時間、資金和精力的浪費。因此,通過建立合適的學習系統,將信息分門別類才便于挖掘信息的內部規律,這些信息才可能為人類所利用。

在現實問題中通常存在大量無標記樣本,但有標記樣本則比較少,無標記樣本的獲也取相對容易,而獲取有標記的樣本則要困難得多。尤其是在一些在線應用中這一問題更加明顯,從大量的在線文檔中獲取無類標記的新文章十分簡單,如果建立一個分類器來把這些新文檔分類到各個類中去,或者想要獲得這些文檔的類標記可能需要耗費大量的人力、物力和財力。顯然,如果只使用少量的有標記樣本,那么利用它們所訓練出來的學習系統往往很難具有泛化能力,在某些特定的條件下同時使用標記樣本和無標記樣本的學習結果要優于僅僅使用少量已標記樣本的學習結果。

1 研究現狀

聚類技術已經在模式識別、圖像處理、信息檢索、商業數據分析等許多領域的應用中取得長足進展。在模式識別中,聚類分析被應用于語音識別、計算機視覺、字符識別、雷達信號識別、文本識別、氣象數據分了、食品檢驗、水質分析、自動化過程控制和工具狀態監測等方面。在圖像處理中,聚類分析方法被應用于灰度圖像的分割、彩色圖像的分割、紋理圖像的分割、圖像邊緣的檢測、圖像增強、恢復與壓縮等方法;在商業領域,聚類分析常被應用用于客戶群體分類、預測客戶的消費模式和習慣等;文本聚類在信息檢索領域有著廣泛的應用,通過聚類發現數據空間分布特征,從而建立主題索引,幫助用戶快速的找到所需信息。同時,聚類分析也用于個性化信息推薦系統。

2.基于標記樣本和相似度矩陣調整的k-means算法

基于標記樣本和相似度調整的k-means算法(LSKM)是根據半監督學習的聚類假設條件,結合了基于約束和距離測度兩種思想的半監督聚類算法。為了讀者更好地理解這個算法,本章首先闡述了文本處理技術、無監督學習的的理論基礎半監督聚類算法和半監督聚類算法研究的一些相關問題,包括:樣本間的距離學習、聚類算法的評價準則、k-means聚類的擴展算法等。

2.1 文本處理

文本是非結構化的數據,無法用數據挖掘的方法對文本直接進行處理,需要先對文本進行預處理,使文本最終表示成為一種結構化的計算機能夠處理的形式。文本預處理是聚類分析中一個非常重要的環節,預處理的質量直接影響著聚類分析的性能。預處理包括:正文提取、去除停用詞(stopwordremoval),提出詞干(stemming),處理數字、連接詞、標點以及字母大小寫等預處理工作。如果處理中文還需要對文本分詞。對于網頁,還需要移除HTML標簽和鑒定網頁主要內容等。雖然經過預處理后的本文長度會有所降低,但此時的文本仍然是非結構化的數據。為了方便計算機處理,需要將這些文本轉化成某種結構化的模式,這個轉化的過程就是文本的表示和特征選擇。這一節將對這兩種技術進行簡要的闡述。

2.2 聚類

將物理或抽象對象的集合分成相似的對象簇的過程稱為聚類(Clustering),簇(cluster)是樣本對象的集合,這些對象與同一個簇中的對象彼此相似,而與其它簇中的對象相異。一個樣本對象簇可以整體看作一個組,因此可以看作一種數據壓縮形式。盡管分類是一種識別對象組或類的有效手段,但是它常常需要高昂的代價收集和標記大量訓練元組集或模式,以便分類算法使用它們對每個組建模。通常,人們更希望反方向處理:首先,基于樣本的相似性把樣本劃分成組,然后給這些數量相對較少的組指定標記。這種基于聚類的過程的另一個優點是可以適應變化,并且能夠挑選出區分不同組的有用特征。

2.3 聚類算法評估

聚類結果體現了數據的分布特征,從未知數據中發現有意義的模式。評估過程是對所發現的的模式的有效性的驗證,用來指導用戶調整模型和參數值。從直觀上看,就是把相似數據劃分到同一個簇中,而不相似的數據盡可能劃分到不同簇中。

(1)純度度

純度(purity)可以理解為被正確聚類的對象的比例。該值越大,說明聚類的結果與被數據的實際分布情況越符合。對于輸出結果的每個簇,統計其每個樣本類標簽,用出現次數最多的類別作為該簇的類標簽,純度值即為類別與所在簇類標簽相同的樣本所占的比例。

(2)信息增益

信息增益(InformationGain)也是一種評價聚類結果與實際數據的匹配程度的一種方法。其匹配度為每個簇的信息增益的加權求和,其權值為簇中樣本占全部樣本的比例。這個值越小,表示聚類結果與實際數據的匹配程度越高。如果結果中簇的樣本的類標簽相同,信息增益為0,反之,如果簇中樣本含有多個類標簽,則信息增益就比較高。

(3)緊密度和分離度

緊密度(compactness)和分離度(separation)用來反映聚類的質量。緊密度反映屬于同一類的成員之間相似的程度,緊密度越大,類內相似性越大;分離度反映類間成員之間的相似性,分離度越大類間相似性越高。

2.4 半監督學習的兩個假設

半監督學習之所以能夠發揮作用要歸功于兩個常用的基本假設,即聚類假設(ClusterAssumption)和流形假設(ManifoldAssumption)。聚類假設是指在相同簇(cluster)中的樣本有較大的可能擁有相同的標記。該假設等價于低密度分隔(LowDensitySeparation),即決策邊界應盡可能通過數據較為稀疏的地方,從而避免把稠密的簇中的數據點分到決策邊界兩側。在這一假設下,大量無標記樣本的作用就是幫助探明樣本空間中數據分布的稠密和稀疏區域,從而指導學習算法對利用有標記樣本學習到的Q策邊界進行調整。聚類假設簡單、直觀,經常以不同的方式直接應用于各種半監督學習算法的設計當中。

3 總結

半監督學習已經成為機器學習領域的一個研究熱點,它必將得到更加廣泛的應用。本文提出的基于正例和相似度矩陣調整k-means算法,還有可以改進之處。近年來,語義網技術得到了快速的發展,成為未來的重要研究方向之一。語義網技術使文本的特征提取和文本距離公式都發生了改變,從語義層次進行文本理解和分類是作者今后研究工作的重點。對半監督學習領域進行的初步探索,雖然取得了一些成果,但是許多問題有待于進一步深入研究和發現。

參考文獻

[1] BingLiu,Web數據挖掘[M].俞勇,薛貴榮,韓定一譯.北京:清華大學出版社,2009.111-140.

第7篇:聚類分析論文范文

關鍵詞:房價影響因素 聚類分析 可變模糊 指標特征規格化矩陣

引言

房地產是國民經濟的基礎性產業,對廣大人民群眾的生活有很重要的影響。其價格是房地產發展走向的重要風向標,對投資者和消費者都有重要的現實的參考價值,因而成為房地產供需雙方的關注點。長期的低利率為房地產的開發提供了有利的條件,同時市場上的剛性需求和投資需求的急劇增長,特別是投資需求,使得房地產市場出現求大于供,根據需求供給價格機制原理,這必將導致房價上漲。由此可見,影響房價的因素很多,利用聚類迭代模型對其影響因素進行分析,找出影響較大的類別,為政府的宏觀調控提供建議。

目前常用的聚類方法有層級分析法及非層級分析法。1965年札德提出模糊集合概念,以后逐漸發展形成的模糊聚類方法。1974年J.C.Dunn提出了模糊C―均值聚類算法,1981年J.C.Bezdek對其進行了改進和發展,1990年代大連理工大學的陳守煜教授先后提出了以相對隸屬函數為基礎的模糊識別、決策與模糊聚類理論模型,并在水利領域得到了廣泛的應用。本文擬采用陳守煜教授提出的可變模糊聚類迭代模型對影響房地產價格的因素進行聚類分析,找出影響價格的敏感的因素。

一、分析模型的選用

目前對房價影響因素關系的研究主要是應用關聯度來衡量因素之間的關系,這類方法具有不可改變的缺點,即公式只能夠對一種情況進行分析,不能反映事物的本質。而事物的發展是連續漸變的,它們之間的界限不是絕對清晰的,而是存在著模糊性的。本文采用的可變模糊模型的聚類方法具有既可處理可變性又能處理模糊性因素的特點,既考慮了房價影響因素的可變性,有分析了各個因素之間的相關性,能夠更真實客觀的反映出結果,找到影響房價最重要的因素,具有實用性。

二、可變模糊聚類分析方法

2.1指標特征值規格化矩陣的確定

設有待聚類的n個樣本組成的集合,可用mn階指標特征值矩陣對樣本集進行聚類。

(1)

式中:χij為聚類樣本j指標i的特征值,i=1,2,,m;j=1,2,,n。

由于m個聚類指標特征值的物理量綱可能不同,需要對其進行規格化,即要將指標特征值χij變換為對聚類樣本關于模糊概念的指標相對隸屬度。在模糊聚類中通常有兩類指標:

(1)越大越優效益型指標,也稱為正相關指標,即指標值越大,聚類類別排序越前,其規格化公式為:

(2)

(2)越小越優成本型指標,也稱為負相關指標,即指標值越小,聚類類別排序越前,其規格化公式為:

(3)

在式(2)、(3)中、分別表示樣本集指標i的最大、最小特征值。如果對指標的相關性不是很清楚,可以使用式(4)進行判別。

(4)

其中:y表示指標標準特征值,其他字母符號同前。

經過規格化,矩陣X變換為模糊概念的相對隸屬矩陣,即為指標特征值規格化矩陣R。

2.2可變模糊聚類矩陣的確定

設n個樣本依據m個指標特征值規格化數按c個類別進行聚類,其模糊聚類矩陣為U。

式中:上式分別為(6)、(7)

為樣本j隸屬于類別h的相對隸屬度,h=1,2,,n,并且滿足條件,,。表示各個指標所占的權重。α,P為可變參數,體現了模糊聚類的可變性。通常取α=±1,P=±2,對出現的四類情況進行分別討論。類別h的m個指標特征值規格化數表示了h類的聚類特征,在模糊聚類中通常稱為聚類中心,則c個類別的聚類特征可用m×c階聚類中心矩陣S表示。

S=(), (8)

式中為類別h指標i的聚類特征規格化數,i=1,2,,m;h=1,2,,c。

2.3類別特征值的確定

由于模糊概念在分級條件下具有不適用行,陳守煜教授提出了類別特征值的概念和公式。設已知對模糊概念的級別變量相對隸屬度分布列h(h=1,2,,c)。級別變量h,以其相對隸屬度為權重,其總和:

(9)

稱為類別變量的特征值,簡稱類別特征值。

根據可反饋得到相應的級別,據此可對作出屬于何種類別的判斷。為了更細致的應用類別特征值進行判斷,給出了判斷準則公式[7]:

當,歸屬于1級;當,歸屬于h級,偏(h-1)級(h=2,3,,c-1);當,歸屬于h級,偏(h+1)級(h=2,3,,c-1);當,歸屬于c級。

在實際運用的過程中,由式(7)可知,在一般的情況下,存在四類的可變的情形,因而會產生四組,在進行類別判斷時,取四組的平均值得到,最后依據上述判斷準則進行評判。

三、 房價影響因素聚類分析的實證分析

基于可變模糊聚類分析方法的基本要求,在依據實際案例對房價影響因素進行聚類分析時,為了減少計算量,本論文只是針對α=2、P=2 這一類情況進行討論,其余三種情況可根據這一步驟進行計算。因此本文從敏感性的角度以河南省安陽市的房價影響因素進行聚類分析,其中所使用到得數據大都是來源于河南統計年鑒以及中國統計年鑒,部分數據來源于安陽房管局網站公布的信息和網上搜集得到的資料分析處理所得。

3.1敏感性的聚類中心矩陣

房價影響因素對房價的影響的程度是各不相同的,采用敏感性進行分類,分為五類即:很敏感、比較敏感、敏感、不太敏感、不敏感等,規定敏感性的聚類中心矩陣S。

S=(0.9, 0.7, 0.5, 0.3, 0.1)

3.2房價影響因素指標的選取

表1安陽房價及影響因素

指標 房地產價格(元/平方米) 城市化水平(%) 房地產開發投資額 (億元) GDP(億元) 城鎮居民人均可支配收入(元) 人口密度(人/平方千米)

參數 Y X1 X2 X3 X4 X5

2004 1470.92 31 11.6 463.47 4502.00 716

2005 1622.17 32.5 13.99 557.46 8649.02 720

2006 1610.40 34.2 24.22 646.00 9624.04 724

2007 1514.87 35.8 35.45 807.82 10723.64 728

2008 1683.11 37.3 43.69 1036.05 11556.78 732

(數據來源:河南省統計年鑒)

房價是在市場中形成的,因此市場的基本規律―供需理論對房地產依然起著重要的作用。從供給角度來看,房地產開發投資額反映了市場房地產供給的狀況,因此將其作為供給的反映指標。從需求角度來看,城鎮居民收入反映了房地產的有效需求,人口密度反映了房地產需求的總量要求,因此,選取這兩個指標作為需求的反映指標。

通過查閱2005―2009年河南省統計年鑒,將上述五個指標的樣本值整理如表1。

3.3房價影響因素的指標特征值規格化矩陣的確定

由表1可知,房價影響因素的指標特征值矩陣X,同時由式(4)可求得:=0.57>0,=0.4>0,=0.5>0,=0.6>0,=0.5>0,因為>0,所以五類指標均為正相關性指標,采用式(2)對其進行規格化,得到指標特征值規格化矩陣R為:

3.4不可變模糊聚類矩陣的確定

由于在文章的開始已經將,P常數化,因此,原來具有可變性質的式(7)已經轉換為不可變的模型。根據式(7)以及α=2、P=2可求得不可變模糊聚類矩陣U為:

3.5類別特征值的求得

由于敏感性分為五類,所以在這里取c=5,由式(9)可知:

H=(2.8983,3.0891,3.2411,2.2796,2.9040)

3.6房價影響因素類別判定

由上節的判斷準則并且結合該實際案例,我們可以確定房地產價格五個影響因素的類別如下:

沒有因素屬于第1類、第4類、第5類;屬于第2類―比較敏感的指標有X4,即城鎮居民收入水平,其他四個指標均屬于第3類―敏感的指標。又2.5

四、結論

對影響河南省安陽市的房價的因素進行模糊聚類分析可以看出,在這五個因素中城鎮居民收入對房價最為敏感。一般來說,不同地區的收入水平對應著不同的房價。從感性認識上看,北京、上海、天津等發達城市地區因收入水平相對較高,其的房價明顯高于其他不發達地區低收入城市的房價,而東部地區的房價也明顯高于中西部地區的房價,也說明了居民收入對房價影響的敏感度高與其他因素。這也是符合我們所得出的結論的。

參考文獻:

[1] 計長鵬. 發展住宅建設尚需進一步努力[J]. 建筑管理現代化, 1999(2):18.

第8篇:聚類分析論文范文

關鍵詞:空間數據挖掘;聚類;設施選址

中圖分類號:TP391文獻標識碼:A文章編號:1007-9599 (2010) 10-0000-02

The Application of Spatial Clustering Algorithms in the Facility Location Optimization

Zhang Jimei1,Shu Chuanling2

(1.Anhui University,Institute of Computer Science and Technology,Hefei230061,China;2.Institute of Management,Hefei University of Technology,Hefei230026,China)

Abstract:This paper summarizes the spatial data mining technology and spatial clustering algorithms.With facility location,by using graph theory and simulated annealing algorithm for traditional algorithms of exploratory improvement,which optimizes the clustering results.

Keywords:Spatial data mining;Cluster;Facility location

選址是指在建筑之前對地址進行論證和決策的過程,首先是考慮設置的區域以及區域的環境和應達到的要求;其次是考慮具體的地點和方位。設施選址是眾多選址問題的一個重要研究領域。1909年,Weber研究了在平面上確定一個倉庫的位置使得倉庫與多個顧客之間的總距離最小的問題(稱為韋伯問題),正式開始了選址理論的研究。1964年,Hakimi提出了網絡上的p-中值問題與p-中心問題,從此,選址理論的研究開始活躍起來,文獻數目也急劇增多。

一、關于空間數據挖掘

近幾年隨著空間數據庫系統和存儲技術的發展,以GIS為代表的空間數據庫系統在人類的生產生活中發揮了重要的作用。所謂空間數據挖掘是指從空間數據庫中抽取空間關系知識或其它沒有在空間數據庫明確存放的有意義的模式。空間數據挖掘可以幫助理解空間數據、發現空間關系和空間與非空間數據間關系、構造空間知識庫、重組空間數據庫,以及優化空間查詢等。

常用的空間數據挖掘方法有:基于概率論的方法,空間分析方法,統計分析方法,聚類分析方法,基于模糊集合論的方法,遺傳算法和空間關聯規則挖掘方法等。

二、空間聚類分析主要方法

聚類分析是指從給定的數據集中搜索數據對象之間存在的有價值聯系。空間聚類分析是將空間數據庫中的數據對象按照某些特征劃分為不同的有意義的組,同一組中的對象某些特征具有高度相似性,不同組中的數據對象具有明顯的差異。

有關的聚類方法主要有:劃分類方法、分層類方法、基于密度類方法、基于網格類方法和基于模型類方法。這里只介紹前兩種方法。

(一)層次算法

層次聚類算法是通過將數據組織為若干組并形成一個相應的樹來進行聚類的。其構建方法有分裂和凝聚兩類。層次算法不需要參數,但需要定義分解的停止條件。層次聚類方法又可分為自頂而下和自下而上層次聚類兩種。

(二)劃分算法

給定一個包含n個對象或數據集,用劃分算法將其劃分為m個子集,其中每個子集均代表一個聚類(mQn)。每個子集至少包含一個對象且每個對象必須只能屬于某一子集。代表性的算法有K-means算法,K-medoids算法,Clara算法,以及可用于隨機分布空間的DBCLASD算法和改進的用于空間數據挖掘的Clarans算法。

1.K-means算法。K-means算法的工作過程是首先從n個數據對象中任意選m個對象作為初始聚類中心,對于剩下的對象,則根據它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的聚類;然后再計算每個所獲新聚類的聚類中心,不斷重復這一過程直到標準測度函數開始收斂為止。一般都采用均方差作為標準測度函數。K-means算法對異常數據很敏感。

2.K-medoids算法。K-medoids算法的基本策略是通過首先任意為每個聚類找到一個代表對象而首先確定n個數據對象的m個聚類,其它對象則根據它們與這些聚類代表的距離分別歸屬到各相應聚類中。如果替換一個聚類代表能改善所獲聚類質量的話,就可以用一個新對象替換老聚類對象。在聚類效果上,K-medoids算法較好地解決了K-means算法易受噪音點影響的問題,但K-medoids算法的處理時間較K-means算法更大。

三、設施選址問題應用舉例

(一)問題描述

現以某地的某新區為例,該新區中新建了n個居民點,現要對新區中再建設m所學校進行選址(注:m

(二)解決算法

基于以上設施選址問題描述,此類問題可以用聚類分析算法處理解決。具體算法(算法1)如下:

輸入:n個居民點;建學校數目m;其中(mQn);循環次數:s;

輸出:m個校址;

處理流程:

1.在A中任意選擇m個居民點(a1’,a2’,……,am’)作為聚類中心;依次計算A中的每一個ai與每一個聚類中心aj’之間的距離dij;其中dij用直接空間距離表示dij= ;對于每一個ai選擇出dij的最小值Min(dij),并將ai劃分到該聚類中心所在的劃分中;

3.在每個劃分中,計算所有屬于這個劃分的ai的坐標均值;

在每個劃分中,計算所有屬于這個劃分的ai與該劃分的坐標均值之間的距離;在每個劃分中,將坐標均值作為該劃分的新的聚類中心aj’;

4.計算d= ;循環執行(2)、(3),直至到達既定循環次數s;

(三)聚類分析方法在設施選址應用中的改進

1.模擬退火算法。模擬退火算法來源于固體退火原理,將固體加溫至充分高,再讓其徐徐冷卻,加溫時,固體內部粒子隨溫升變為無序狀,內能增大,而徐徐冷卻時粒子漸趨有序,在每個溫度都達到平衡態,最后在常溫時達到基態,內能減為最小,溫度為T時粒子達到平衡態的概率為exp(-E/kT),其中k為常數,E為內能改變量。針對設施選址問題,可將內能E模擬為距離,將溫度T模擬為空間點。算法略。

2.聚類分析方法應用于設施選址的改進算法。基于以上分析和算法,通過對K-means算法和模擬退火算法的有效結合,聚類方法應用于設施選址的改進算法如下:

輸入:n個待聚類空間點,聚類中心數目m,直接空間距離s;

輸出:m個聚類,m個聚類中心;

處理流程:

(1)調用算法1,用K-means方法求出m個聚類中心和m個聚類;

(2)依次在每個聚類中,取其子集,使得子集中的每個數據點距離該聚類中心的直接空間距離不大于s,從而產生m個子集;

(3)對以上產生的m個子集和m個聚類中心,調用模擬退火算法,產生m個新的聚類中心;返回m個聚類中心和m個聚類;終止。

四、結束語

本文通過空間數據挖掘聚類算法在設施選址方面的應用展開研究,目的是為公共設施選址提供決策支持。在聚類分析算法應用于設施選址的傳統解決辦法的基礎上,作了三方面改進,第一,解決了決策空間中有障礙物存在的情況下距離表示;第二,將道路交通狀況差異列入聚類依據,使聚類結果得到優化;第三,在使用K-means算法的基礎上,用取聚類子集方法和模擬退火算法對K-means的聚類結果進行優化,既保證了算法的執行效率,又避免了噪音點的干擾和聚類中心落在障礙物上所造成的聚類結果無意義的情況。

參考文獻:

[1]王海起,王勁鋒.空間數據挖掘技術研究進展[J].地理與地理信息科學,2005

[2]鞏華榮,何佳.空間數據挖掘技術的研究與發展[J].測繪與空間地理信息,2007,5

[3]王新洲.論空間數據處理與空間數據挖掘[J].武漢大學學報(信息科學版),2006,1

[4]朱明.數據挖掘.合肥:中國科學技術大學出版社,2002,5

[5]王輝.城市空間數據挖掘方法的研究[A].山東省測繪學術年會論文集[C].2006

第9篇:聚類分析論文范文

關鍵詞:關聯數據 社會網絡分析 共詞分析 Ucinet SPSS

中圖分類號: G254 文獻標識碼: A 文章編號: 1003-6938(2013)05-0129-04

關聯數據(Linked Data)概念由“萬維網之父”Tmi Berners-Lee于2006年首次提出[1]。 關聯數據是語義web的主題之一,描述了通過可鏈接的 URI 方式來、分享、連接Web 中各類資源的方法。關聯數據通過網絡把以前沒有關聯的相關數據鏈接在一起,允許用戶發現、關聯、描述并再利用各種數據,因而自關聯數據提出以來便得到了社會廣泛的認同和快速的發展,BBC、紐約時報、美國國會圖書館等都紛紛加入到關聯數據的出版之列[2],關聯數據也日益成為國內學術界的關注熱點。因此本文運用社會網絡分析方法和共詞分析方法,通過關聯數據領域作者合著網絡、關鍵詞共現網絡和關鍵詞共詞聚類分析,了解我國關聯數據研究團隊發展現狀、研究熱點和內容結構,以期為后續研究與實踐的開展提供參考。

1 數據來源與研究方法

1.1 數據來源

本文選取CNKI的中國學術期刊網絡出版總庫為數據來源庫,以“關聯數據”或“linked data”為檢索詞在主題字段檢索,檢索時間是2013年4月10日,剔除重復和非相關文獻后得到有效學術論文117 篇。

1.2 數據處理工具

在共詞分析和社會網絡分析方法中,數據處理是十分重要的步驟。使用浙江大學信息資源管理系劉啟元開發的文獻題錄信息統計分析工具(Statistical Analysis Toolkit for Informetrics,SATI)。該軟件通過對期刊全文數據庫題錄信息的字段抽取、頻次統計,進而生成共現矩陣。生成的共現矩陣可以直接導入Ucinet和SPSS軟件進行處理分析[3]。

1.3 研究方法

本文運用社會網絡分析法生成作者合著網絡和關鍵詞共現網絡圖譜來分析關聯數據領域的作者合著關系及學科的研究熱點;運用共詞聚類分析法生成共詞聚類樹狀圖來分析關聯數據研究論文的主流研究領域的結構及其關系。

2 構建共現矩陣

將從CNKI中導出的Endnote格式的文獻題錄信息導入 SATI 軟件,分別選取作者和關鍵詞字段,進行抽取和頻次統計,構建高頻作者合著共現矩陣和高頻關鍵詞共現矩陣,保存為 Excel文件,便可直接導入Ucinet和SPSS進行處理分析。

3 高頻作者合著分析

3.1 高頻作者合著網絡分析

打開 Ucinet 導入 Excel 格式的高頻作者共現矩陣,利用Ucinet軟件集成的可視化工具Netdraw繪制高頻作者合作關系網絡圖,通過K-cores分析,將所有節點分類,選擇 Transform—node attribute editor 添加節點的大小和連線的粗細對網絡進一步調整后,得到高頻作者合著網絡圖譜(見圖1)。圖中每個節點代表作者,節點越大代表著者的頻次越高,節點之間的連線粗細表示作者之間的合作強度。圖中最大的團體是上海圖書館和廣東外語外貿大學圖書館為合作機構下的劉煒、夏翠娟、張春景、趙亮、錢國富,在該合著網絡中頻率達到最高。該團體以劉煒和夏翠娟為代表圍繞國家社會基金項目“關聯數據的理論和應用研究”和“《資源描述與檢索》的中文化及其應用研究”對關聯數據技術及其實現、開放應用協議、RDA進行了研究;四川大學和中國醫學科學院醫學信息研究所為合作機構下的范煒、方安、洪娜和鄒慶圍繞國家社會科學基金項目“關聯數據中潛在知識關聯的發現方法研究”對生物醫學關聯數據研究、語義管道技術、詞表資源關聯化、術語服務進行了研究;以中國科學院國家科學圖書館和中國科學院研究生院為合作機構下的的李春旺、黃永文、劉媛媛和鄧蘭蘭等人圍繞國家社會科學基金資助項目“我國數字圖書館集成融匯方法研究”和中國科學院國家科學圖書館青年人才領域前沿項目“利用LOD實現數字圖書館中數字資源與知識內容關聯揭示的技術方法研究”對關聯參考服務、對象共指問題、關聯數據應用的體系框架、關聯數據資源集相似度計算方法、Web數據關聯創建、信息檢索服務和注釋服務等進行了研究。從圖中還可以看出,作者合著網絡圖譜整體聯系稀疏,網絡中大多數節點之間沒有連線,關聯程度非常小,表明目前關聯數據領域還沒有形成一支成熟的研究隊伍。

3.2 網絡密度分析

網絡密度可以用來度量網絡成員之間聯系的緊密程度。一般來說,密度高的網絡信息溝通性較強;而密度低的網絡常信息不暢[4]。利用Ucinet軟件得到高頻作者合著網絡密度(見圖2)為0.0097,這是一個相對偏低的密度值,網絡連通性不好,這也印證了在前面作者合著網絡分析中的結果。說明作者之間的合作程度低,作者之間不能很好地進行深層次的知識構建,不利于我國關聯數據研究的快速發展。

3.3 高頻作者合著中心性分析

中心性是社會網絡分析中的重點之一,它反映了行動者在其社會網絡中所處的地位及權力影響。

3.3.1 點度中心性分析

本文使用點度中心性來測量作者在網絡中的重要性。作者點度中心性越高者,表示其在網絡中與較多的作者合作,在網絡中具有較高的影響力,從而可以認為其具有核心作用。利用Ucinet進行點度中心性分析得到點度中心度排名在前10位的作者(見圖3)。一般情況下,頻次較高的作者與其他作者合作的機會更多,因而普遍點度中心性也較高。通過分析可知,張勇、邢春曉等的點度中心性較原先頻次排名有較大幅的提升,說明這些作者具備相對其頻次排名有更高的影響力;而范煒、劉煒、黃永文等的點度中心性較原先頻次排名有較大幅度的回落,說明這些作者發表獨著的頻率高。由圖3可見,張春景的點度中心性最大,其次為夏翠娟,表明這些作者與網絡內其他作者的知識交流更加頻繁,在關聯數據作者合作網絡中具有核心作用。

3.3.2 中介中心性分析

中介中心性排名較高的人往往是處于結構洞位置的人。結構洞是社會網絡分析中一個重要的概念,它的意義在于處于結構洞位置,說明他們掌握了更多的學術資源,更具有學術創新力;其次處于結構洞位置對于他們迅速提高自身聲望具有重要作用[9]。本文利用Ucinet進行中介中心性分析,結果如圖4所示,從圖中可看出,李春旺的中介中心性最高,其次是范煒、劉煒、夏翠娟和張春景,表明這些作者在整個網絡中具有舉足輕重的地位,往往是連接多數作者的核心人物,他們對于關聯數據的研究產生了極為深遠的影響。

4 高頻關鍵詞共現網絡分析

打開 Netdraw 軟件,導入高頻關鍵詞共現矩陣,并用K-cores分析,得到基于節點在網絡中作用大小的圖譜(見圖5)。從圖中可以看出網絡中節點最大的正方形占據網絡核心地位,說明語義網、圖書館、RDF、URI、數據網絡等是關聯數據領域的核心關鍵詞,是目前該領域的研究熱點。在某種程度上,可以認為其他研究領域都是圍繞著這些核心展開的。同時利用Ucinet進行中介中心性分析(見圖6),得到的大部分也都是這些關鍵詞,更加充分說明這些關鍵詞在網絡中的重要地位。除此之外,在中介中心性中前十位中的本體、SKOS、SPARQL和術語服務也可說明是該領域的研究熱點。從關鍵詞共現網絡來看,除了核心關鍵詞以外,其它的節點聯系較為松散,說明關聯數據引入我國時間很短,發展還很不成熟,還沒有形成明顯的研究主題。

5 高頻關鍵詞共詞聚類分析

為了更加全面地了解關聯數據研究的主題結構,本文采用共詞聚類分析方法對關聯數據研究的內部結構進行深入分析。將高頻關鍵詞共現矩陣導入SPSS11.5進行層次聚類分析。得到高頻關鍵詞的聚類分析樹狀圖(見圖7)。聚類結果顯示,國內關聯數據領域的研究熱點主要集中在六大主題:開放數據和關聯開放數據研究;知識組織系統研究;書目研究;關聯數據基本理論研究;圖書館的數字資源整合研究和關聯數據研究。

(1)開放數據和關聯開放數據研究。包括關鍵詞開放數據、信息組織、開放政府數據、關聯開放數據、用戶模型和互操作。開放數據是一種哲學理念及實踐,要求數據可以被任何人自由獲取,沒有來自版權 、專利或其它機制限制。隨著網絡技術的發展,互聯網中日益豐富的具有異構、無序、多元特點的海量信息資源使網絡信息組織面臨著巨大的挑戰,而開放數據能與現代信息組織的關鍵技術關聯數據、語義網、云計算等相結合而成為網絡信息組織的有效實踐。開放數據在信息組織中的應用朝兩個方向分別發展:公共信息服務領域(政府、科研組織等)的數據開放與信息透明制度方面的應用、商業領域的應用[5]。在政府公共信息服務領域中,美英等國先后開展了開放數據的實踐應用。

(2)知識組織系統研究。包括關鍵詞中國分類主題詞表、術語服務、本體、數字圖書館、NKOS、SKOS。主要涉及詞表資源關聯化、知識組織規范研究、術語服務和知識序化等研究。2008年國家圖書館啟動的“國家圖書館知識組織標準規范”項目是國內圖書館界首次對網絡環境下知識組織系統的設計、構建和應用進行全面系統的總結和編制[6]。

(3)書目研究。包括關鍵詞FRBR、關聯數據集、RDA、SPARAL、關聯服務和元數據。主要對書目數據關聯化、書目數據、編目規則RDA和FRBR進行了研究。關聯數據是今后書目數據獲得開放應用的關鍵技術之一。它能夠使 RDA 編目的數據直接以機器可理解的方式、鏈接和利用。

(4)關聯數據基本理論研究。包括關鍵詞RDF、URI、D2R。研究涉及關聯數據發展背景、定義、基本原則、實現機制以及關聯數據在當前國內外的應用現狀等研究。

(5)圖書館的數字資源整合研究。包括關鍵詞信息聚合、本體映射、圖書館、信息技術、數據網絡、信息資源、知識服務和數字資源整合。對圖書館數字資源整合的研究主要集中在關聯數據在圖書館館藏信息資源聚合中的作用、應用和基于關聯數據的館藏資源聚合模式研究。同時也有涉及圖書館、檔案館和博物館數字資源整合方面的研究。

(6)關聯數據研究。包括關鍵詞語義網、Dbpedia、數據、電子政務、知識組織和知識發現。主要圍繞關聯數據的基礎、技術和實現方式展開研究,尤其通過實例進行關聯數據的研究成為很多學者關注的熱點,并取得了豐碩的研究成果。

參考文獻:

[1]Berners-Lee T. Linked Data-Design Issues[EB/OL]. [2009-02 -18]. http: ///DesignIssues/Linked

Data. html.

[2]黃永文.關聯數據在圖書館中的應用研究綜述[J].現代圖書情報技術,2010,(5):1-7.

[3]劉啟元,葉鷹.文獻題錄信息挖掘技術方法及其軟件SATI的實現-以中外圖書情報學為例[J].信息資源管理學報,2012,(1):50-58.

[4]張利華,閆明.基于SNA的中國管理科學科研合作網絡分析[J].技術與創新管理,2010,(4):39-45.

[5]李佳佳.信息管理的新視角-開放數據[J].情報理論與實踐,2010,(10):35-39.

精選范文推薦
主站蜘蛛池模板: 偷拍自拍第一页 | 狠狠色狠狠综合久久 | 一级特黄性色生活片一区二区 | 欧美精品亚洲精品日韩专区 | 日韩一区二区在线观看 | 久久久久久国产视频 | 成人在线播放视频 | 2000xxxxav影院| 亚洲天堂2018av| 91人人视频国产香蕉 | 日韩不卡在线观看 | 欧美人拘一级毛片 | 暖暖在线精品日本中文 | 免费国产黄网站在线观看视频 | 久久久久久一级毛片免费无遮挡 | 亚洲二区在线观看 | 欧美视频自拍偷拍 | 91人成亚洲高清在线观看 | 九九九九视频 | 久久有这有精品在线观看 | 国产剧情一区二区 | xh98hx国产在线视频 | 日本欧美色 | 亚州免费一级毛片 | 欧美综合精品一区二区三区 | 在线亚洲精品国产成人二区 | 亚洲精品国产精品国自产观看 | 成年人网站免费看 | 欧美.成人.综合在线 | 怡红院日本一道日本久久 | 成年人国产视频 | 国产亚洲精品国看不卡 | 欧美午夜a级精美理论片 | 99久久免费观看 | 狠狠做久久深爱婷婷97动漫 | 国产精品欧美一区二区在线看 | 欧美亚洲综合视频 | 写真片福利视频在线播放 | 精品国产三级a∨在线 | 亚洲第一看片 | 美女视频很黄很a免费国产 美女视频黄.免费网址 |