国产丁香婷婷妞妞基地-国产人人爱-国产人在线成免费视频麻豆-国产人成-91久久国产综合精品-91久久国产精品视频

公務員期刊網 論文中心 正文

數據挖掘算法及在醫院內感染的應用

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數據挖掘算法及在醫院內感染的應用范文,希望能給你帶來靈感和參考,敬請閱讀。

數據挖掘算法及在醫院內感染的應用

1常見數據挖掘算法及其在醫院內感染中的應用

1.1神經網絡

人工神經網絡是一種模擬人腦神經傳遞的智能算法,一般由輸入、隱含和輸出三部分構成,包括前饋式網絡、反饋式網絡、自組織網絡3種模型。BP神經網絡為多層前饋式人工神經網絡,是醫學領域最常用的一種,基于誤差逆傳播算法訓練而成。神經網絡對資料類型沒有任何要求,非線性數據處理能力強,容錯性能良好,分類精確度高。但構建神經網絡模型時缺乏相應的理論指導,主要靠專業經驗設置網絡隱藏層的層數和單元數,且無法明確輸入變量是保護因素還是危險因素,對結果的解釋性能較低。重癥監護病房(ICU)住院患者自身基礎疾病多,侵襲性治療操作多,是醫院內感染的高危人群。謝多雙等[6]將ICU患者作為研究對象,構建ICU患者醫院內感染的多層感知器神經網絡預測模型,模型結構為25-4-1,結果顯示,ICU患者醫院內感染的影響因素依次為ICU入住時間、抗菌藥物使用情況、基礎疾病診斷、年齡、使用插管等,模型訓練集與測試集的準確率分別達81.60%、84.20%,受試者工作特征曲線下面積為0.861,模型預測效果良好。許林勇等[7]使用SAS/EnterpriseMiner軟件對患者醫院內感染數據進行清洗和編碼后使用16-6-1結構的BP神經網絡模型進行醫院內感染的危險度評估,建立了針對患者個體的預測模型,正確率達98.91%,受試者工作特征曲線下面積為0.986。但該研究納入研究因素較少,且未對各科室情況進行分析。牛淼[8]根據住院患者種類將醫院分為內科病區、外科病區、干部病區和其他病區,運用多層感知器神經網絡模型對各病區醫院內感染情況進行分析,結果顯示,各病區中最重要的影響因素均為住院時間,無論在哪個病區,隨著住院時間增加,醫院內感染的風險顯著升高。

1.2決策樹

決策樹的經典算法是由Quinlan提出的ID3算法,C4.5算法在此基礎上增加了連續變量的處理方法,隨著boosting技術的應用,C5.0算法應運而生。決策樹的傳遞方式為自上而下,通過邏輯分支關系,形成一種具有分類規則的樹狀結構。決策樹根據信息增益、GINI系數等模型參數選擇對測試數據區分度最大的屬性變量作為決策樹的根節點,然后根據根節點變量的屬性向下進行分割,形成分支;每個分支節點重新測試變量屬性,繼續向下分支,直到該分支節點的類別同質化或達到預先設定的閾值[9]。決策樹生成過程若不加以限制,將會發生過擬合的現象,需對樹進行剪枝。剪枝方式有2種,前剪枝和后剪枝,前剪枝是限制決策樹的生長,減少決策分支;后剪枝是在決策樹分割完成后對樹進行修剪,防止過度擬合的發生。決策樹模型生成的樹狀圖簡單、直觀,易于理解,建模過程省時、高效、速度快,對多種類型屬性等復雜數據處理能力強,具有高度精準的預測和分類的能力。王力紅等[10]研究了1897例入住ICU的患者,分析其發生醫院內感染的危險因素,通過建立評價指標體系將危險因素進行分類,并建立了決策樹預測模型,對ICU患者住院期間發生醫院內感染的風險進行早期預測。LOPES等[11]對巴西兒科醫院的急診患者進行前瞻性隊列研究,監測患者醫院內感染情況,并將決策樹算法用于醫院內感染相關病死率的預測,并找出高病死率相關的預測因素,結果顯示,醫院內感染相關高病死率與侵入性操作、多種抗生素聯合應用有關,通過改變決策路徑里的這些因素可降低醫院內感染相關病死率。鄧小紅等[12]將CART決策樹算法用于ICU住院患者醫院獲得性壓瘡的風險預測,最終生成4層11個節點的決策樹模型,共提取6條分類規則,篩選出3類高危人群,且決策樹模型的靈敏度、特異性及受試者工作特征曲線下面積均高于Braden評分。

1.3支持向量機(SVM)

SVM由Vapnik提出,在統計學習理論基礎上發展而來[13]。SVM融合了結構風險最小原理和VC維理論等統計學習理論,成為其最大的技術特色,具有更良好的執行推廣能力[14]。SVM旨在小樣本數據的有限空間內尋找具有最大間隔的決策面,使決策風險達到最小,模型泛化能力達到最優[15]。SVM可很好地解決數據非線性問題及高維問題,解決了神經網絡模型的局部極小點問題,提高了泛化性能[16]。EHRENTRAUT等[17]采用SVM和梯度樹增強構建醫院內感染監測模型。梯度樹增強具有良好的分類能力,且能測量每個功能的重要程度,評估分類器所使用的特征是否為醫院內感染的合理指標。該研究將重點研究有關預處理方法或參數調整是否有助于提高模型性能的問題,盡可能高地使回憶精度接近于100%,而具有高召回率的算法尤其適用于對感染的篩查。SILVA等[18]采用跨行業數據挖掘標準流程方法將SVM和樸素貝葉斯分類技術用于波爾圖市中心醫院的醫院內感染數據分析,根據不同場景創建預測模型,以發現新知識并獲得解決問題的最佳模型(靈敏度高于91.90%)。該研究通過對現有臨床數據進行分析,提供了以臨床問題為導向的科研思路,旨在減少患者發生并發癥的風險,改善其安全和健康,從而預防和減少醫療機構的醫院內感染的發生。醫院內感染數據存在嚴重的不均衡性,陽性患者所占比重較小,針對這一現象,COHEN等[19]提出了非對稱SVM,提高了SVM模型對罕見陽性病例的識別能力,以極低的成本實現了92.00%的召回率,且與之前研究通過新穎的重采樣策略獲得的最高靈敏度(87.00%)又有所提升。

1.4粗糙集

粗糙集理論是由PWLAK[20]教授于1982年提出的一種研究不完整、不確定知識和數據的學習歸納法,在處理大數據庫和消除冗雜信息方面具有明顯優勢,現在已成為數據挖掘/知識發現研究中強有力的工具。粗糙集的基本思想是對決策表(數據集)進行屬性約簡和值約簡后得出決策規則,然后采用判別規則進行分類。粗糙集理論的特點是不用預先給定特征或屬性的數量描述,而直接從給定問題出發,通過不可分辨關系(類)找出問題的近似域,從而發現其內在規律[21-22]。王向陽等[23]首次將粗糙集算法用于醫院內感染數據挖掘研究,通過對患者信息數據進行預處理,將病情信息看作條件屬性,將是否發生醫院內感染看作決策屬性,對數據集進行屬性約簡和值約簡,通過約簡后的數據集得出決策規則,再使用得到的決策規則進行判別分類,得到的決策規則少而精,非常直觀。洪晶等[24]將粗糙集與經典ID3決策樹算法結合起來,建立了基于粗糙集的決策樹算法,通過粗糙集屬性約簡后數據再使用決策樹進行分類,2種算法優勢互補,為診斷醫院內感染提供了新的思路與方法。

1.5時間序列

時間序列數據具有高維性、海量性、噪聲性、幅度上的拉伸和平移、時間軸上的伸縮性、線性漂移和不連續點等特征。傳統的數據挖掘算法無法對時間序列數據進行有效的處理分析,因此,時間序列數據挖掘應運而生[25]。典型的時間序列模型包括自回歸滑動平均模型、Markov模型和人工神經網絡模型等[26]。耐甲氧西林金黃色葡萄球菌(MRSA)造成的醫院內感染或社區感染不斷攀升,對環境物表清潔消毒的要求也不斷提高。單歡等[27]考慮到MRSA流行的時間趨勢及周期變化,使用求和自回歸滑動平均模型(ARIMA)對2010-2014年浙江醫院MRSA監測數據進行擬合分析,建立了MRSA的ARIMA預測模型,對MRSA的流行趨勢進行預測,得出模型的平均相對誤差為20.19%,預測出的MR-SA動態趨勢與實際檢出情況基本符合,可為MRSA的防控提供參考依據。NGO等[28]將指數平滑法用于加利福尼亞州舊金山退伍軍人醫學中心在1991-1992年銅綠假單胞菌細菌感染疑似慶大霉素耐藥情況分析,研究了慶大霉素抗性銅綠假單胞菌年累計發病率與流行發生的關系。由于兒童各器官系統發育尚未成熟,免疫機制尚不健全,對病原體尤其是呼吸道病原體抵抗力較弱,是醫院內感染的易感人群。劉海鵬等[29]收集匯總了2011-2015年安徽省兒童醫院住院患兒醫院內感染數據,使用ARIMA時間序列分析方法進行模型的構建,并對數據進行一階差分來平穩序列的方差,根據信息量準則選擇最優模型,預測效果良好,對住院患兒醫院內感染的發生率具有一定的預測價值。監測抗生素耐藥性導致的醫院內感染暴發是醫院內感染控制不可或缺的重要部分。

1.6關聯規則

對事務數據庫進行關聯規則挖掘,就是通過用戶指定的最小支持度(Support)和最小置信度(Confidence)尋找強關聯規則的過程[30]。關聯規則挖掘問題包括尋找所有頻繁項目集和在頻繁項目集中尋找關聯規則兩部分。關聯模式中最著名的就是AGRAWAL等提出來的Apriori算法[31],其算法思想是首先找出頻繁性至少和預定義的最小支持度一樣的所有頻集,然后由頻集產生強關聯規則。通過減少對數據庫的掃描次數和不必要的頻繁項目集的生成方法可提高Apriori算法的效率。由于Apriori算法在尋找頻繁項目集時產生大量的候選項,占用了大量的內存,不適用于大規模數據集,由此衍生出CLOSE算法和FP-GROWTH算法[32]。FP-GROWTH算法對原始數據庫進行2次掃描,將原始庫映射成一棵頻繁模式樹,并保留關聯信息,然后再將頻繁模式樹分化成條件庫,再對條件庫進行挖掘,在內存中即可完成頻繁項目集的發現工作。對醫院內感染數據進行關聯分析可發現數據屬性間的關系,為醫院內感染的防治提供參考依據。BROSSETTE等[33]利用阿拉巴馬大學伯明翰分校醫院的銅綠假單胞菌感染控制數據探索了一個基于關聯規則的數據挖掘流程,期望用于醫院內感染事件的自動識別與監測,模型實現結果良好。目前,醫療數據分析主要采用Apriori算法進行關聯規則的數據分析,但Apriori算法候選頻繁集較多,生成許多無趣的規則。有研究采用FP-GROWTH算法對解放軍總醫院第一附屬醫院的400例患者進行了關聯分析,提取患者性別、年齡、抗生素使用情況等7個屬性建立了13條關聯規則,揭示了年齡、介入性操作、抗生素使用、住院時間等因素與醫院內感染間的關聯性[34]。醫院內感染的影響因素多且彼此間及與醫院內感染發生的聯系尚未明確,具有灰色特性。劉姣英[35]運用灰色關聯分析理論將醫院內感染的數據資料進行量化分析,研究各因素間的關聯程度及優勢程度,結果顯示,外科是醫院內感染控制的重點科室,外科感染以泌尿系統感染最為突出,下呼吸道感染是醫院內感染監控的重要部位,是造成其他部位感染的重要潛在因素。

2小結與展望

醫院內感染因素復雜,種類龐多,對不同類型、不同部位的醫院內感染進行預測,沒有哪一種模型是絕對最優的,因此,需進一步進行大量的針對不同類型、途徑、人群等具體屬性的醫院內感染數據挖掘研究。隨著醫院內感染數據挖掘研究的越來越深入,單一模型已無法滿足研究需求,組合模型研究成為新的研究方向。模型的優劣取決于現有數據的擬合程度及對新數據的預測準確程度及實用性。模型預測的結果可集成到智能平臺中,用于醫院內感染發生的監測及預警,為醫療衛生決策提供重要參考依據。

作者:楊文偉 蔣良芝 李春燕 汪可可 單位:上海市楊浦區中心醫院 同濟大學附屬楊浦醫院醫院感染管理科

主站蜘蛛池模板: 欧美高清视频在线观看 | 美女张开大腿让男人捅 | 日韩在线视频观看 | 精品小视频在线观看 | 欧美一级做 | 巴西一级毛片 | 中文精品久久久久国产网址 | 成人在线精品视频 | 色天使色婷婷在线影院亚洲 | 国产精品久久久久久久久久久久 | 久久久网站亚洲第一 | 国产一区二区三区四区五区 | 黄色美女视频免费看 | 一级一片一_级一片一 | 在线观看日本永久免费视频 | 久久99精品这里精品3 | 亚洲爽 | 久草在线视频免费 | 欧美a级毛片免费播敢 | 欧美日韩精品一区二区三区 | 日本爽快片100色毛片 | 99免费在线观看视频 | 中日韩美中文字幕 | 久久精品免费播放 | 精品400部自拍视频在线播放 | 韩国一级特黄清高免费大片 | 久久综合亚洲一区二区三区 | 自拍视频在线观看视频精品 | 日本aaaa片毛片免费 | 久久伊人操 | 久久久久久亚洲精品 | 美女拍拍拍爽爽爽爽爽爽 | 亚洲国产www| 国产素人在线观看 | 国产香蕉尹人综合在线观 | 国产做爰一区二区 | 亚洲精品国产一区二区图片欧美 | 国产三级日本三级日产三级66 | 91天堂网 | 欧美一区二区在线播放 | 真实一级一级一片免费视频 |