前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的大數據技術主題范文,僅供參考,歡迎閱讀并收藏。
關鍵詞:大數據 數據挖掘 方法
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2015)04-0222-01
1 大數據時代數據挖掘的重要性
隨著互聯網、物聯網、云計算等技術的快速發展,以及智能終端、網絡社會、數字地球等信息體的普及和建設,全球數據量出現爆炸式增長,僅在2011年就達到1.8萬億GB。IDC(Internet Data Center,互聯網絡數據中心)預計,到2020 年全球數據量將增加50倍。毋庸置疑,大數據時代已經到來。一方面,云計算為這些海量的、多樣化的數據提供存儲和運算平臺,同時數據挖掘和人工智能從大數據中發現知識、規律和趨勢,為決策提供信息參考。
如果運用合理的方法和工具,在企業日積月累形成的浩瀚數據中,是可以淘到沙金的,甚至可能發現許多大的鉆石。在一些信息化較成熟的行業,就有這樣的例子。比如銀行的信息化建設就非常完善,銀行每天生成的數據數以萬計,儲戶的存取款數據、ATM交易數據等。
數據挖掘是借助IT手段對經營決策產生決定性影響的一種管理手段。從定義上來看,數據挖掘是指一個完整的過程,該過程是從大量、不完全、模糊和隨機的數據集中識別有效的、可實用的信息,并運用這些信息做出決策。
2 數據挖掘的分類
數據挖掘技術從開始的單一門類的知識逐漸發展成為一門綜合性的多學科知識,并由此產生了很多的數據挖掘方法,這些方法種類多,類型也有很大的差別。為了滿足用戶的實際需要,現對數據挖掘技術進行如下幾種分類:
2.1 按挖掘的數據庫類型分類
利用數據庫對數據分類成為可能是因為數據庫在對數據儲存時就可以對數據按照其類型、模型以及應用場景的不同來進行分類,根據這種分類得到的數據在采用數據挖掘技術時也會有滿足自身的方法。對數據的分類有兩種情況,一種是根據其模型來分類,另一種是根據其類型來分類,前者包括關系型、對象-關系型以及事務型和數據倉庫型等,后者包括時間型、空間型和Web 型的數據挖掘方法。
2.2 按挖掘的知識類型分類
這種分類方法是根據數據挖掘的功能來實施的,其中包括多種分析的方式,例如相關性、預測及離群點分析方法,充分的數據挖掘不僅僅是一種單一的功能模式,而是各種不同功能的集合。同時,在上述分類的情況下,還可以按照數據本身的特性和屬性來對其進行分類,例如數據的抽象性和數據的粒度等,利用數據的抽象層次來分類時可以將數據分為三個層次,即廣義知識的高抽象層,原始知識的原始層以及到多層的知識的多個抽象層。一個完善的數據挖掘可以實現對多個抽象層數據的挖掘,找到其有價值的知識。同時,在對數據挖掘進行分類時還可以根據其表現出來的模式及規則性和是否檢測出噪聲來分類,一般來說,數據的規則性可以通過多種不同的方法挖掘,例如相關性和關聯分析以及通過對其概念描述和聚類分類、預測等方法,同時還可以通過這些挖掘方法來檢測和排除噪聲。
2.3 按所用的技術類型分類
數據挖掘的時候采用的技術手段千變萬化,例如可以采用面向數據庫和數據倉庫的技術以及神經網絡及其可視化等技術手段,同時用戶在對數據進行分析時也會使用很多不同的分析方法,根據這些分析方法的不同可以分為遺傳算法、人工神經網絡等等。一般情況下,一個龐大的數據挖掘系統是集多種挖掘技術和方法的綜合性系統。
2.4 按應用分類
根據數據挖掘的應用的領域來進行分類,包括財經行業、交通運輸業、網絡通信業、生物醫學領域如DNA等,在這些行業或領域中都有滿足自身要求的數據挖掘方法。對于特定的應用場景,此時就可能需要與之相應的特殊的挖掘方法,并保證其有效性。綜上所述,基本上不存在某種數據挖掘技術可以在所有的行業中都能使用的技術,每種數據挖掘技術都有自身的專用性。
3 數據挖掘中常用的方法
目前數據挖掘方法主要有4種,這四種算法包括遺傳、決策樹、粗糙集和神經網絡算法。以下對這四種算法進行一一解釋說明。
遺傳算法:該算法依據生物學領域的自然選擇規律以及遺傳的機理發展而來,是一種隨機搜索的算法,利用仿生學的原理來對數據知識進行全局優化處理。是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優化方法。這種算法具有隱含并行性、易與其它模型結合等優點從而在數據挖掘中得到了應用。
決策樹算法:在對模型的預測中,該算法具有很強的優勢,利用該算法對龐大的數據信息進行分類,從而對有潛在價值的信息進行定位,這種算法的優勢也比較明顯,在利用這種算法對數據進行分類時非常迅速,同時描述起來也很簡潔,在大規模數據處理時,這種方法的應用性很強。
粗糙集算法:這個算法將知識的理解視為對數據的劃分,將這種劃分的一個整體叫做概念,這種算法的基本原理是將不夠精確的知識與確定的或者準確的知識進行類別同時進行類別刻畫。
神經網絡算法:在對模型的預測中,該算法具有很強的優勢,利用該算法對龐大的數據信息進行分類,從而對有潛在價值的信息進行定位,這種算法的優勢也比較明顯,在利用這種算法對數據進行分類時非常迅速,同時描述起來也很簡潔,在大規模數據處理時,這種方法的應用性很強。光纜監測及其故障診斷系統對于保證通信的順利至關重要,同時這種技術方法也是順應當今時代的潮流必須推廣使用的方法。同時,該診斷技術為通信管網和日常通信提供了可靠的技術支持和可靠的后期保證。
參考文獻
[1]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(01):146-169.
關鍵詞:大數據 Hadoop Spark Spark 流
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2015)09-0000-00
大數據遠不止大量的數據(TB)和處理大量數據的技術,它以一種前所未有的方式,通過對海量數據進行分析,獲得有巨大價值的產品和服務[1]。然而面對龐大的數據來獲得有價值的信息是一個巨大的挑戰。為了克服上述困難,近幾年來推出了Hadoop、PureData和Exadata等多種大數據系統分析平臺,以Hadoop平臺最為突出,深受用戶的歡迎。但是隨著應用的不斷深入,Hadoop暴露出了它的局限性。主要體現在以下幾方面:第一,操作過于單一,僅支持Map和Reduce兩種操作;第二,迭代計算效率較低,尤其在機器學習和圖形計算方面[2]。 2013年底由Apache 軟件基金會提出的Spark框架技術較好地解決了這些問題。
1 Spark技術架構
1.1 Spark設計思想
Spark是一種基于HDFS的并行計算架構。主要思想是通過一種新的作業和數據容錯方式來減少磁盤和網絡的I/O開銷 其核心技術是彈性分布式數據集(RDD),是指在一組存儲計算機中的只讀數據集合,這個數據集合可以在分區對象丟失后進行重建[5]。也就是說RDD的元素不一定需要存儲在物理介質中,相反,一個RDD的處理進程包含了如何從可靠的數據存儲中去獲取足夠的信息來對這個RDD進行處理。如果RDDS的任務節點失敗,總可以進行重建[3]。
1.2 Spark系統架構
與MapReduce不同,Spark并不僅僅局限于編寫map和reduce兩個方法,它為用戶提供了更為強大的內存計算模型,使得用戶可以通過編程將數據讀取到集群的內存當中,這樣可以快速在內存中對數據集進行多次迭代,支持復雜的數據挖掘算法和圖計算算法使用Scala語言開發,以Mesos作為底層的調度框架,可以和 Hadoop和Ec2緊密集成,直接讀取HDFS或S3的文件進行計算并把結果寫回HDFS或S3,是Hadoop和Amazon云計算生態圈的一部分,項目的core部分代碼只有63個Scala文件,執行效率高效。Spark主要由四個模塊組成:Spark SQL、MLlib、Spark 流和GraphX。Spark SQL為了兼容主流關系型數據庫系統(RDBMS)可以允許用戶編寫SQL和HQL兩種腳本執行查詢,其核心組件是JavaSchemaRDD,它是一個類似于RDBMS的一個Table,由Row和Schema對象來描述Table中行對象和列的DataType。
2 Spark運行模式
2.1 Spark任務調度方式
Spark的運行模式有多種,主要由SparkContext的MASTER環境變量所獲得的值來決定,有些模式還需要程序接口來配合輔助決定。但概括起來,Spark運行都以Spark-Context為總調度驅動程序,負責應用程序的資源分配,期間分別創建作業調度和任務調度兩級模塊。作業調度模塊是基于階段的高層調度模塊,每個Spark 作業計算通常有多個階段,每個階段分解為一組任務集,以任務組的形式提交給底層任務調度模塊來具體執行實際計算任務,任務調度模塊負責啟動實際任務,監控和匯報任務運行情況。如果分配任務成功,SparkContext會將應用程序代碼給指定的執行者完成一個或多個任務[4]。
2.2 Spark運行模式類型
Spark的運行模式,歸納起來有六種。
(1)Local[M]。該模式使用 LocalBackend 調用TaskSchedulerImpl 實現。LocalBackend 響應Scheduler的receiveOffers請求,根據可用CPU Core的設定值[M]直接生成WorkerOffer資源返回給Scheduler,并通過Executor類在線程池中依次啟動和運行Scheduler返回的任務列表。
(2)Standalone。該模式使用SparkDeploySchedulerBackend調用TaskSchedulerImpl來實現 ,而SparkDeploySchedulerBackend同時繼承了CoarseGrainedSchedulerBackend。是一個在Akka Actor上實現的粗粒度的資源調度類,在整個Spark Job運行期間,監聽和擁有注冊給它的Executor資源,比如接受Executor注冊,狀態更新,響應Scheduler請求等,并且根據現有Executor資源發起任務流程調度。
(3)Local-cluster。偽分布模式實際上是在Standalone模式上實現的,也就是在SparkContext初始化的過程中在本地啟動一個單機的偽分布Spark集群,后面的執行流程與Standalone模式相同。
(4)Mesos。該模式主要根據顆粒度大小來區分,粗粒度的CoarseMesosSchedulerBackend繼承了CoarseGrained SchedulerBackend,相對于父類額外做的工作還要實現MScheduler接口,注冊到Mesos資源調度的框架中,用于接收Mesos的資源分配,在得到資源后通過Mesos框架遠程啟動CoarseGrainedExecutorBackend,以后的任務交互過程和Spark standalone模式一樣,由DriverActor和Executor Actor直接完成。 細粒度的MesosSchedulerBackend直接繼承SchedulerBackend,但同樣實現了MScheduler接口,完成Mesos資源調度框架中的注冊,接收Mesos的資源分配。不同之處是在接收資源分配以后,MesosSchedulerBackend啟動的是遠程Executor,通過在遠程執行命令來啟動MesosExecutorBackend,直接執行對應的任務。
(5)Yarn-standalone。Yarn-Standalone模式相對其它模式有些特殊,需要外部程序輔助啟動應用程序。Client通過Yarn Client API在Hadoop集群上啟動一個Spark App Master,Spark App Master首先為自己注冊一個Yarn App Master,再啟動用戶程序,然后根據Client傳遞過來的參數,Spark App Master通過Yarn RM/NM接口在集群中啟動多個Container運行CoarseGrainedExecutorBackend往CoarseGrainedSchedulerBackend注冊。后面的任務調度流程跟其它Cluster模式類似,不再述說。
(6)Yarn-client。該模式的SparkContext運行在本地,適用于應用程序本身需要在本地交互的情景。這種模式下SparkContext在初始化時首先啟動YarnClientSchedulerBackend,然后再調用客戶端包遠程啟動一個作業作為Spark的App Master,相對于Yarn-standalone模式,此模式不再負責啟動用戶程序,而只是啟動Backend便于跟客戶端本地Driver進行數據傳遞,后面的任務調度流程跟其它模式類似。
3 Spark應用現狀及發展
目前SPARK已經構建了自己的整個大數據處理生態系統,如流處理、圖技術、機器學習、NoSQL查詢等方面的技術,并且是Apache頂級項目。雖然Spark對內存要求較高,推出時間較短未經過實踐考驗,但伴隨著大數據相關技術和產業的逐步成熟,繼Hadoop之后,Spark技術以集大成的無可比擬的優勢,發展迅速,將成為替代Hadoop的下一代云計算、大數據核心技術。可以預計2015年下半年在社區和商業應用上會有爆發式的增長。
參考文獻
[1] K. Shvachko, K. Hairong, S. Radia e R. Chansler. The Hadoop Distributed File System[C]. IEEE 26th Symposium on Mass Storage Systems and Technologies, 2010.
[2] Spark: Lighting-fast cluster computing[EB/OL]. http:///.
[3] M. Hirzel, H. Andrade, B. Gedik, et al. IBM Streams Processing Language: Analyzing Big Data in motion[J]. IBM Journal of Research and Development.2013,57(7):1-7.
[4] T. Chardonnens, P. Cudre-Mauroux, M. Grund ,et al.Big data analytics on high Velocity streams: A case study[C]. IEEE International Conference on Big Data, 2013.
關鍵詞:大數據時代;數據挖掘技術;應用
大數據是對全球的數據量較大的一個概括,且每年的數據增長速度較快。而數據挖掘,主要是從多種模糊而又隨機、大量而又復雜且不規則的數據中,獲得有用的信息知識,從數據庫中抽絲剝繭、轉換分析,從而掌握其潛在價值與規律。所以大數據時代下的數據處理技術要求更高,要想確保數據處理成效得到提升,就必須切實加強數據挖掘技術教學工作的開展,才能更好地促進數據處理職能的轉變,提高數據處理效率,優化學生的學習成效。以下就大數據時代下的數據挖掘技術教學做出如下分析。
1大數據時代下數據挖掘技術的基礎教學方法分析
數據挖掘的過程實際就是對數據進行分析和處理,所以其基礎就在于數據的分析方法。要想確保分析方法的科學性,就必須確保所采用算法的科學性和可靠性,獲取數據潛在規律,并采取多元化的分析方法促進問題的解決和優化。以下就幾種常見的數據分析教學方法做出簡要的說明。一是歸類法,主要是將沒有指向和不確定且抽象的數據信息予以集中,并對集中后的數據實施分類整理和編輯處理,從而確保所形成的數據源具有特征一致、表現相同的特點,從而為加強對其的研究提供便利。所以這一分析方法能有效的滿足各種數據信息處理。二是關聯法,由于不同數據間存在的關聯性較為隱蔽,采取人力往往難以找出其信息特征,所以需要預先結合信息關聯的表現,對數據關聯管理方案進行制定,從而完成基于某種目的的前提下對信息進行處理,所以其主要是在一些信息處理要求高和任務較為復雜的信息處理工作之中。三是特征法,由于數據資源的應用范圍較廣,所以需要對其特征進行挖掘。也就是采用某一種技術,將具有相同特征的數據進行集中。例如采用人工神經網絡技術時,主要是對大批量復雜的數據分析,對非常復雜的模式進行抽取或者對其趨勢進行分析。而采取遺傳算法,則主要是對其他評估算法的適合度進行評估,并結合生物進化的原理,對信息數據的成長過程進行虛擬和假設,從而組建出半虛擬、半真實的信息資源。再如可視化技術則是為數據挖掘提供輔助,采取多種方式對數據的挖掘進行指導和表達[1]。
2大數據時代數據挖掘技術教學要點的分析
2.1數據挖掘技術流程分析
在數據挖掘教學過程中,其流程主要是以下幾點:首先做好數據準備工作,主要是在挖掘數據之前,就引導學生對目標數據進行準確的定位,在尋找和挖掘數據之前,必須知道所需數據類型,才能避免數據挖掘的盲目性。在數據準備時,應根據系統的提示進行操作,在數據庫中輸入檢索條件和目標,對數據信息資源進行分類和清理,以及編輯和預處理。其次是在數據挖掘過程中,由于目標數據信息已經被預處理,所以就需要在挖掘處理過程中將其高效正確的應用到管理機制之中,因而數據挖掘的過程十分重要,所以必須加強對其的處理。例如在數據挖掘中,引導學生結合數據挖掘目標要求,針對性的選取科學而又合適的計算和分析方法,對數據信息特征與應用價值等進行尋找和歸納。當然,也可以結合程序應用的需要,對數據區域進行固定,并在固定的數據區域內分類的挖掘數據,從而得到更具深度和內涵以及價值的數據信息資源,并就挖掘到的數據結果進行分析和解釋,從結果中將具有使用價值和意義的規律進行提取,并還原成便于理解的數據語言。最后是切實加強管理和計算等專業知識的應用,將數據挖掘技術實施中進行的總結和提取所獲得的數據信息與評估結果在現實之中應用,從而對某個思想、決策是否正確和科學進行判斷,最終體現出數據挖掘及時的應用價值,在激發學生學習興趣的同時促進教學成效的提升。
2.2挖掘后的數據信息資源分析
數據信息資源在挖掘后,其自身的職能作用將變得更加豐富,所以在信息技術環節下的數據挖掘技術隨著限定條件的變化,而將數據挖掘信息應用于技術管理和決策管理之中,從而更好地彰顯數據在經濟活動中的物質性質與價值變化趨勢,并結合數據變化特點和具體的表現規律,從而將數據信息的基本要素、質量特點、管理要求等展示出來,所以其表現的形式十分豐富。因而在數據挖掘之后的信息在職能范圍和表現形式方式均得到了豐富和拓展,而這也在一定程度上體現了網絡擬定目標服務具有較強的完整性,且屬于特殊的個體物品,同時也是對傳統數據挖掘技術的創新和發展,從而更好地滿足當前大數據時代對信息進行數據化的處理,并對不同種類業務進行整合和優化,從而促進數據挖掘技術服務的一體化水平。
2.3大數據背景下的數據挖掘技術的應用必須注重信息失真的控制
數據挖掘技術的信息主要是源于大數據和社會,所以在當前數據挖掘技術需求不斷加大的今天,為了更好地促進所挖掘數據信息的真實性,促進其個性化職能的發揮,必須在大數據背景下注重信息失真的控制,切實做好數據挖掘技術管理的各項工作。這就需要引導學生考慮如何確保數據挖掘技術在大數據背景下的職能得到有效的發揮,盡可能地促進數據挖掘技術信息資源的升級和轉型,以大數據背景為載體,促進整個業務和技術操作流程的一體化,從而更好地將所有數據資源的消耗和變化以及管理的科學性和有效性,這樣我們就能及時的找到資源的消耗源頭,從而更好地對數據資源的消耗效益進行評價,最終促進業務流程的優化,并結合大數據背景對數據挖掘技術的職能進行拓展,促進其外部信息與內部信息的合作,對數據挖掘技術信息的職能進行有效的控制,才能更好地促進信息失真的控制[2]。
3數據挖掘技術在不同行業中的應用實踐
學習的最終目的是為了更好的應用,隨著時代的發展,數據挖掘技術將在越來越多的行業中得以應用。這就需要高校教師引導學生結合實際需要強化對其的應用。例如在市場營銷行業中數據挖掘技術的應用這主要是因為數據挖掘能有效的解析消費者的消費行為和消費習慣,從而利用其將銷售方式改進和優化,最終促進產品銷量的提升。與此同時,通過對購物消費行為的分析,掌握客戶的忠誠度和消費意識等,從而針對性的改變營銷策略,同時還能找到更多潛在的客戶。再如在制造業中數據挖掘技術的應用,其目的就在于對產品質量進行檢驗。引導學生深入某企業實際,對所制造產品的數據進行研究,從而找出其存在的規則,并對其生產流程進行分析之后,對其生產的過程進行分析,從而更好地對生產質量的影響因素進行分析,并促進其效率的提升。換言之,主要就是對各種生產數據進行篩選,從而得出有用的數據和知識,再采取決策樹算法進行統計決策,并從中選取正確決策,從而更好地對產品在市場中的流行程度,決定生產和轉型的方向。再如在教育行業中數據挖掘技術的應用,主要是為了更好地對學習情況、教學評估和心里動向等數據進行分類和篩選,從而為學校的教學改革提供參考和支持。比如為了更好地對教學質量進行評估,就需要對教學質量有關項目進行整合與存儲,從而更好地促進其對教學質量的評估,而這一過程中,就需要采取數據挖掘技術對有關教學項目中的數據進行挖掘和處理,促進其應用成效的提升[3]。
4結語
綜上所述,在大數據背景下,數據挖掘技術已經在各行各業中得到了廣泛的應用,所以為了更好地滿足應用的需要,在實際教學工作中,我們必須引導學生切實加強對其特點的分析,并結合實際需要,切實注重數據挖掘技術的應用,才能促進其應用成效的提升,最終達到學以致用的目的。
作者:何智文 鄧倫丹 單位:南昌大學科學技術學院
參考文獻:
[1]李平榮.大數據時代的數據挖掘技術與應用[J].重慶三峽學院學報,2014,03:45-47.
關鍵詞:大數據 ORACLE 壓縮技術
中圖分類號:TP3 文獻標識碼:A 文章編號:1671-7597(2013)11-0000-00
近兩年來,大數據(big data)概念越來越引人矚目,它被用來描述和定義在當前信息爆炸時代所產生的海量數據和與其相關的技術發展與創新。大數據時代對人類對海量數據的駕馭能力提出前所未有的挑戰。如何管理這些迅速膨脹的海量數據,也成為每個數據庫廠商必須面對的問題。本文介紹的是ORACLE的表/表空間壓縮技術,這是ORACLE數據庫在大數據環境下極為實用的一個屬性。隨著企業數據的爆炸性增長,很多決策支持系統和數據倉庫對磁盤空間的需求也在急劇增長。目前很多大中型企業里,TB級甚至PB級的數據倉庫已經越來越普遍。Oracle從9iR2 開始,提供一種表/表空間壓縮技術,用以減少磁盤開銷,節約存儲空間,并在某些情況下獲得查詢性能的提高。
1 Oracle的壓縮技術
Oracle的壓縮技術實際上從8i就出現了,提供簡單的索引壓縮;到9ir2時,可以進行表級別的壓縮,但只能對批量裝載操作(比如直接路徑裝載,CTAS等)涉及的數據進行壓縮,普通的DML操作的數據則無法壓縮。Oracle 10g增加了對LOB的壓縮,但并未解決壓縮的寫操作問題;從Oracle 11g開始,使用了"基于數據塊的批次壓縮技術",也就是說數據的壓縮并不在執行DML語句時即時發生,當一個數據塊開始寫入數據時,插入的數據并不被立即壓縮,這個時候對性能是沒有影響的,對數據塊的壓縮動作發生在數據塊即將被寫滿時,這樣可以保證大部分DML語句的效率,從而真正支持了各種DML語句也能夠用于OLTP環境(insert,update等)。
2 常用的壓縮命令
下面列舉一些常用的壓縮命令。
2.1 表級別的使用
可以在建表時指定壓縮屬性,也可修改已有表的壓縮屬性。
create table tab1 compress as select * from user_tables;
create table tab2(cust_idnumber,cust_name varchar2(200))compress;
alter table tab3 move compress;-- 修改現有表為壓縮表
alter table tab3 move nocompress;-- 解壓已經壓縮的表
如果要對分區表的不同分區設置壓縮屬性,我們可以在創建分區表時設置,也可等到需要對某個分區進行壓縮時再設置。
Create table test(cust_id number,cust_name varchar2(200)) partition by range(cust_id)
(
partition P1 values less than (10000) compress,
partition P2 values less than (20000) compress,
partition PMAX values less than (maxvalue) );--
該命令表示P1和P2為壓縮屬性,PMAX則沒有設置壓縮屬性。
Alter table test modify partition PMAX compress;--
該命令表示將PMAX分區設置為壓縮屬性。
2.2 表空間級別的使用
可以在建表空間時指定壓縮屬性,也可將現有表空間轉換為壓縮表空間。和其他存儲參數一樣,COMPRESS屬性也具備一些繼承特性。當在一個COMPRESS屬性的表空間中創建一個新表時,這個新表從該表空間繼承COMPRESS屬性。需要注意的是,該屬性只針對在該表空間建立的表,通過"alter table tab1 move tablespace test"方式移到該表空間的普通表和在該表空間用默認方式建立的索引,都不具備壓縮屬性。
create tablespace ETL datafile '/oracle/data03/oradata/stkhxf/test01.dbf' SIZE 500M default compress;--創建表壓縮空間
alter tablespace ETL default compress;-- 將非壓縮表空間轉換為壓縮表空間
alter tablespace ETL default nocompress;--取消表空間的壓縮
2.3 索引的使用
除了表可以壓縮之外,索引也同樣可以壓縮,當索引鍵值的重復率很高時,可以考慮壓縮索引。注意,如果是主鍵索引或惟一約束索引,則無需壓縮。
我們可以在建索引時進行指定:create index IDX_1 on tset(cust_id)compress.
也可以將現有索引轉換為壓縮屬性:alter index IDX_2 rebuild compress.
2.4 通過數據字典查看對象是否被壓縮
select owner,table_name,compression from dba_tables ;--查看表
select table_owner,table_name,partition_name,compression from dba_tab_partitions; --查看分區表
select owner,tablespace_name,def_tab_compression from dba_tablespaces;--查看表空間
select owner,index_name,compression from dba_indexes; --查看索引
大部分情況下,使用壓縮技術對數據庫性能提升是有利的。Orecle采用智能算法的壓縮技術盡量降低寫操作的負載,被壓縮的數據可以存貯在更少的數據塊中,這樣就降低了磁盤空間使用。對一個壓縮屬性的表或索引的全表掃描和索引區間掃描所需要讀取的數據塊更少,減少了磁盤IO,查詢可以更快完成。其次,由于需要處理的數據塊減少,CPU搜索和處理數據塊的時間會降低,同時需要讀入內存的數據塊也減少了,內存的資源消耗也隨之降低。再次,由于數據壓縮和解壓是Oracle內部的行為,外部網絡可以僅傳輸被壓縮的數據塊,這樣也有效降低了網絡負載。
3 結束語
從Oracle11g開始,沒有什么是不可壓縮的。Oracle數據庫提供的高級壓縮技術可以壓縮所有類型的數據--無論是規范的結構化數據(數字、字符)、非結構化數據(文檔、電子表格、XML 和其他文件)還是備份數據。不僅降低了所有數據類型的磁盤空間需求,還提高了應用程序性能,增強了內存和網絡效率。在這個大數據時代,對使用Oracle數據庫的企業的DBA和開發人員來說,了解并掌握Oracle針對海量數據的數據壓縮技術,是一件極其迫切而重要的需求。
賞花燈是元宵節的重要習俗。游人如織的燈會現場哪個燈最受歡迎?人流量太大會不會影響市民賞燈拍照?這些問題在今年的貴陽市觀山湖燈會上都得以輕松解決。貴州移動創新運用大數據技術導航,引導廣大市民科學安排觀燈路線,輕松賞燈。
面對噴薄而來的大數據發展浪潮,貴州移動努力思考如何抓住大數據帶來的機遇,讓大數據技術為“我”所用。如今,貴州移動已與大數據“激情相擁”,迸發火花。
一方風生水起的熱土
2014年3月1日,在北京召開的“貴州?北京大數據產業發展推介會”上,貴州向世界發聲――憑借獨特的環境和資源優勢,打造具有戰略地位的國家西部大數據聚集區和國家云計算產業的高地。
貴州發展大數據產業的信心和魄力成就了不一樣的“貴州速度”,這一點與“快人一步”引領行業發展的中國移動高度契合。中國移動作為全球最大的基礎電信運營商,擁有骨干網絡和國際帶寬出口,具備雄厚的資金儲備及強大的基礎設施建設能力,在IDC數據中心領域建設上擁有先發優勢。中國移動將IDC數據中心作為解決大數據領域中“數據放哪兒”這個大難題的重要途徑,對IDC數據中心的分布有著完整的戰略規劃。
在貴州境內,中國移動自2007年開始建設數據中心以來,先后在貴州金陽(現貴陽市觀山湖區)、貴州花溪和貴州貴安分別建設三個數據中心節點,形成了以金陽數據中心、花溪數據中心和中國移動(貴州)大數據中心(即貴安數據中心)為核心的鏈狀布局,進一步強化了數據的安全與穩定性。
其中,2015年底投產的中國移動(貴州)大數據中心投資超過20億元,占地約275畝,機房有效面積19萬平方米,可實現裝機容量2.1萬架,工程分三期進行。目前,一期工程已經基本完工,4.6萬平米(約6個半標準足球場大小)裝機容量3000架,陸續有國家部委、省內廳局、大型移動互聯網企業等單位入駐或準備入駐。
三場華麗驚艷的亮相
2015年,中國移動(貴州)大數據中心全面入駐貴州貴安新區,在貴州省政府的統一組織下,相繼赴北京、深圳、上海等地進行招商推介。“震撼!”參觀了中國移動(貴州)大數據中心展區后,眾多企業“大佬”紛紛發出感嘆并給予極高評價。
中國移動(貴州)大數據中心憑借更優質的網絡、更周到的服務、更安全的保障、更專業的團隊、更豐富的產品、更海量的用戶和更低廉的成本七大優勢在推介會上驚艷全場。該中心以國際一流的Tire4為標準,以規模化、集約化、標準化和綠色節能環保的建設運營理念,為企業提供IDC存儲、云計算等7大類服務,并提供現代化的辦公附屬樓,監控調度、10000O的倉儲中心等完善的配套服務,是立足西南、輻射全國、面向全球的新一代數據中心。
根據客戶對機房環境的不同要求,中國移動(貴州)大數據中心可為客戶提供三重尊享定制化服務:整體機樓級定制服務;專用機房級定制服務;機柜級定制服務。專屬團隊全程監控,提供7X24小時售前、售中、售后的殿堂級服務。以歷年國家安全考核中始終保持第一的信心和信譽,提供高性能、高穩定、高可靠的信息安全保護。
決定大數據中心運營成本和服務價格的關鍵因素在于其能耗。不滿足于地緣環境帶來的低能耗優勢,中國移動(貴州)大數據中心在節能技術上煞費苦心,勇敢挑戰1.3及以下的PUE(數據中心總設備能耗)值。在貴州,超過95%的時間,室外常溫水即可滿足數據中心機房設備降溫,不需再額外輔助降溫。中國移動(貴州)大數據中心采用水循環散熱模式,將冷媒帶出的熱量,通過熱交換管和室外低溫水池進行熱交換,以達到散熱目的,極大地降低了數據中心運營成本。
在推介會現場,中國移動貴州公司總經理羋大偉剛分析完8億客戶資源可能產生的經濟價值,臺下的眾多企業負責人便“騷動”起來,“大數據來了,我們的轉型不能再等了”。
云計算實現大數據導航
2009年起,貴州移動就對云計算進行探索,建設并運營了貴州省內第一個公有云,由此開始面向省內外各類客戶,在主機托管、云服務和大數據分析三個層面開展與大數據相關的業務和合作,先后在“互聯網+健康”“互聯網+教育”“互聯網+智慧園區”“互聯網+智慧媒體”“互聯網+金融”等領域取得重大突破和成績,成為回答大數據是“什么”和“干什么”的成功案例。
貴州移動“互聯網+智慧園區”立足于對區域大數據的挖掘,研發區域人群流動熱力圖、商業最優選址模型、國際(國內)流動性分析,旅游景區人群分析等應用。通過熱力圖,可以在最短時間內,以最簡單的方式,發現區域人群密度的變化情況,甚至可以知道人群遷移路線,有效預測未來一段時間區域人群的變化,甚至可以發現突然出現的高密人群聚集點。
在今年的貴陽市觀山湖燈會上,貴州移動結合燈會現場情況采用了大數據人群熱力地圖抓取技術,抓取燈會現場周邊移動基站的現場手機信號源,通過精準計算,實時將燈會現場總人數,各出入口人數,甚至每一盞燈前的觀燈人數精準的統計反映到監控平臺。用戶可以通過客戶端及時掌握現場情況并合理安排自己的賞燈路線。燈會人流量監控系統是貴州移動運用現有的數據資源,提供的一個集數據采集、處理、展示于一體的人流量監控及預警服務平臺,這些數據不僅為游客提供了及時的向導,還為管理部門應對突發事件及游客引流,提供了全方位的信息支撐。
“大數據”服務惠民生
作為發展大數據產業的先鋒,在“大數據”惠民方面,貴州移動做了許多積極的探索。
在新農合信息化項目啟動前,貴州超過30%的縣、35%的鄉(鎮)、近70%以上村醫療單位的基本醫療管理和新農合報補管理還停留在紙面作業階段。為此,貴州移動聯合貴州省衛計委共同開發了貴州新型農村合作醫療信息系統,目前已經穩定運行超過6年,為全省3000多萬農民、5000多個醫療機構和網點積累了疾病診療信息、用藥信息、報補信息等數以億計的數據。實現了貴州山區居民便捷就診、即時報補、異地報補,實現了農合資金的信息化監管,解決了精確扶貧(醫療)、智能審核、一鍵清算等難題。隨著數據的不斷積累,貴州移動可以通過貴州新型農村合作醫療信息系統了解到在特定條件下,區域疾病的變化趨勢,為衛生管理部門對醫藥衛生資源的配比決策提供最有效的支持。
已經讀五年級的吳江和妹妹跟著年邁的爺爺奶奶一起生活,父母在深圳打工,每隔兩年才回家過一次年。“看到同學和爸爸媽媽在一起時就特別的羨慕,也覺得很孤單。現在有大數據每天將收集到的信息通過網絡視頻反饋給他們,拉近了和爸爸媽媽的距離,感覺他們就在身邊。”這是貴州移動將留守兒童問題作為“互聯網+教育”的實踐方向,取得以“留守兒童大數據關愛系統”為代表的實踐成果。
安全監管用之有道
貴州移動設立了專職的“網絡和信息安全中心”,并連續幾年在國家相關部門的信息安全檢查和評比中獲得好成績。
以貴州移動大數據服務2016年貴陽市觀山湖元宵燈會為例,從數據和信息的安全保障要求入手,對本次燈會大數據信息進行了嚴格的脫敏數據稽核,剔出可能涉及的個人信息以及其他與本次燈會無關信息。簡言之,所采集的數據是數據的聚合,不是個體的隱私數據,這些聚合的數據只服務于燈會,而不會用作他用。
一、大數據技術
大數據技術是一種新型技術,其應用領域比價廣泛,并且取得一定的成績。大數據技術在實際的應用過程中,根據各個領域的需要,大數據技術也不斷在更新,以適合現代社會發展的需要。大數據技術主要用數據挖掘、數據分析領域中,能對數據進行科學整理、處理、提高數據的利用效率,互聯網+時代,各個領域工作基本都離不開網絡,網絡時代數據量增多,如何科學有效的進行數據處理,提高數據的利用效率,這是需要解決的問題,大數據技術的產生,對數據的處理起到重要作用。
二、大數據技術應用前景
大數據技術是一種新型技術,具有廣泛的應用前景,尤其在數據分析領域中,對提高數據的利用效率起到重要作用。大數據技術的進一步發展應用,對科技的交叉融合發展也有著促進意義。科技交叉融合是現代科技發展的需要,現在很多問題利用一種技術不能實現,需要多種技術結合使用,促進科技水平進一步提升,符合現代科技發展的需要。科技人才是企業發展的重要因素,尤其企業發展需要應用型高級技術人才,在互聯網+時代,大數據技術方面的人才尤其缺乏,這也是大數據技術具有廣泛的應用前景重要因素。
現在各個行業在發展的過程中都需要復合型的高級技術人才,大數據技術的實際應用對促進其它行業的發展起到重要作用,大數據技術具有良好的應用前景,對現代實際的應用型思想起到重要作用。大數據技術在其它行業中的應用提供了技術支持作用,大數據技術對促進其它行業的技術更新與改革起到重要作用,大數據技術在實際應用過程中根據其它行業發展的需要,需要在技術上不斷更新,優化環境,完善其職能,為企業行業發展提供技術保障。大數據技術在實際的應用過程提升,符合大數據技術的發展需要。大數據技術在具體的應用過程中,根據各個領域的需要,大數據技術需要不斷完善技術,以適合現代各個行業發展的需要,大數據技術能為其發展提供技術支持。
三、大數據技術在高校非計算機專業中的應用進行
(一)大數據技術在電子商務中的應用
電子商務在互聯網+背景下得到快速發展,為高校電子商務專業的發展提供了機遇和挑戰,電子商務專業在大數據技術作用下需要積極進行教學改革,以適合現代電子商務專業發展的需要,電子商務專業課程體系構建需要符合現代電子商務產業發展的需要。在電子商務體系內發揮大數據的優勢,能有效建立完整的商務監督體系,企業決策機制以及運作模式也要依托大數據技術的信息處理功能。電子商務產業的職業崗位能力涉及到大數據知識,電子商務專業在課程構建的過程中需要把大數據相關知識納入課程體系中,能為學生職業崗位能力提升起到保障作用。大數據技術的實際應用對提升電子商務專業建設,教學模式改革,教學內容整合,教學手段提升等都起到重要保障作用。
(二)大數據技術在會計領域中的應用
大數據技術在會計領域中的應用,對促進會計行業改革,高校會計專業教學改革都起到重要作用,同時完善會計專業人才培養方案,對提升學生職業技能起到重要作用。會計的職業崗位能力涉及到海量數據,會計信息化時代大數據技術的應用對提高會計的工作職能起到重要作用,符合現代大數據技術的應用需要。大數據技術在會計領域中的應用,尤其在會計信息系統建設中的應用,對提高數據挖掘、數據分析、數據處理能力的提升起到重要作用,會計行業涉及到數據很多,數據的種類、數據的形式都是多樣化,利用大數據技術處理數據比傳統的方式大大提高了工作效率,為會計行業的改革起到重要的技術支持作用,符合現代會計領域中的應用需求。總之,大數據技術在非計算機專業中的應用對促進其教學改革起到技術支持作用,大數據技術是一種新型技術,其具有廣泛的應用,大數據技術在高校非計算機專業中的應用是專業發展的需要,也是社會發展對高校專業改革提出了新要求。大數據技術尤其在數據挖掘、數據分析、數據處理等方面起到重要作用,適合互聯網+時代,高校非計算機專業發展的需要。
【計算機碩士論文參考文獻】
[1]我國大數據應用現狀與發展趨勢分析[J].李亭亭,趙英豪.電子商務.2016(06).
[2]探討大數據技術在疾病防控上的應用[J].黃文莉.電子技術與軟件工程.2016(06).
[3]基于CitespaceⅢ的大數據研究的可視化分析[J].姜俊鋒,丁香乾,侯瑞春,曲麗君.計算機與數字工程.2016(02).
關鍵詞:計算機軟件;實際應用;大數據時代
一、計算機軟件技術的基礎理論與發展歷程
隨著改革開放的到來,我國計算機軟件技術得到了國家大力扶持,短短的幾十年中,技術不斷改革創新,使得這項技術發展前景十分廣闊。在不斷完善技術理論體系的基礎上,技術概念與技術層面都得到了充分的優化。云時代的來臨、大數據的發展都在不斷影響現代人的日常生活,得到了越來越多人的重視。同時社會上也涌現了更多的專業人員和人才來處理各項數據以及管理數據庫。人們已經離不開沒有互聯網的生活。不可否認,互聯網已經成為二十一世紀新型技術的重要產物,作為世界的主流技術,互聯網得到了越來越多人的關注,用戶量每年都在翻倍增長。互聯網運用在經濟發展過程中,推動了經濟的持續增長,與此同時,隨著用戶數量的不斷增長,大量的數據也在此過程中得以收集和保存。有研究數據顯示,一年需要處理的數據已經是一個龐大的數字,需要用億T來計量,如此龐大的數據預示著需要更專業的人才以及更高效的技術來統計和處理這些海量數據。由于在某些特定情況下無法使用數據收集及管理的相關技術,為了使決策力、發現力以及流程優化力得以保障,大數據技術應運而生,在大數據的背景下,海量數據的發展前景也更為廣闊光明。數據運用的關鍵構成部分包括數據獲取、數據生成周期和數據處理等,為了培養更加多的優秀技術人才來處理如此龐大的大數據,計算機軟件技術也應隨之大大提升來符合更為嚴格的要求來配合技術人員的使用。
二、大數據時代下的計算機軟件技術
(一)大數據背景下的計算機軟件技術問題
人無完人,人都會犯錯,計算機也是如此,計算機的精準性并不是絕對的,在對數據進行計算和分析時也會產生一定的偏差。隨著人們對完美的追求和對試驗的精準要求,任何一點由于計算機技術導致的誤差都是對計算機的一個否定,這也是不合格的象征,并且也意味著計算機迎來了全新的挑戰與機遇。雖說計算機沒有生命,但其智慧有時甚至高于人類,人類專業技能與計算機軟件技術是共同發展的,彼此相互學習共同進步,由于人類的專業水平的提高,計算機軟件技術也在不斷進步和提升,例如在國際圍棋大賽中“AlphaGo”最終戰勝了圍棋冠軍李世石,足以證明人類的技術已經可以達到“超越人類本身”這樣的狀態。在發展過程中計算機技術由于運作,影響了很多因素的正常運轉,為了實現各部分共同和諧工作,計算機面臨攻擊和整改。在大數據時代的大背景下,數據的種類和數量不斷增加和變得繁瑣,信息安全問題成了首要數據問題,計算機的短暫崩潰、存儲功能的失靈都可能造成大量數據的流失與泄露。黑客和病毒對我們來說并不陌生,如果說計算機是生命體,那么黑客就是入侵的抗原,需要人為研究出的“反入侵”抗體來消滅。而隨著科研人員技術水平的不斷提升,病毒也在進化,病毒對“反入侵”程序產生了抗體,而人類的技術也隨之精進,就像狼捉羊,可以提升羊的奔跑速度一樣,科研人員切實著手,提高了數據的安全性。
(二)大數據時代下計算機軟件技術的實際應用
1.信息安全技術
信息安全問題已然成為一大民生問題,每個人在傳輸文件或數據時都會存在這樣一個心理:信息會不會被竊取。為了解決這個問題,維護個人與企業的利益,提高生產發展效率,讓大數據的有利部分更加突出,運用計算機軟件技術可以大大減少信息被竊取的幾率,提高數據信息的安全性。
2.云儲存
現如今的文件數據越來越大,手機內存也從最初的8G上限增加到上限512G,互聯網與計算機結合創新出一種“云儲存”技術,可以高效的解決內存不夠這個問題。云技術將文件整體化為“目錄”形式儲存進云盤中,當我們需要尋找云盤中的某一文件時,只需要將“目錄”整體下載下來即可使用,真正實現了隨時隨地隨身“文件夾”。計算機軟件技術的人性化為人們日常生活提供了更多地便捷服務,高效的實現數據文件的管理與存儲。
3.虛擬化
實踐總有成功和失敗,失敗意味著犧牲和資源的浪費,為了規避這個問題,計算機軟件創新出了模擬技術,通過對現有物質和條件進行分析和預判,結合數據庫的數據資料,制定出接下來的發展軌道和計劃,并且隨著計算機技術的不斷發展,實驗誤差在逐漸降低,甚至可以達到零誤差。無論是城市規劃還是科研實驗,通過使用計算機軟件技術不僅可以節省大量時間,只需要通過計算機試驗便可得到想要的結果,還可以節省大部分資源,避免浪費。
【關鍵詞】大數據 疾病防控
被喻為"未來的新石油"的大數據,正成為繼云計算、物聯網之后信息技術領域的又一熱點《華爾街日報》將大數據時代、智能化生產和無線網絡革命稱為引領未來繁榮的三大技術變革。大數據技術已經開始應用到各行各業。在給人類社會帶來海量信息和巨大變革的同時,大數據技術在疾病防控上的應用引起了人們越來越大的興趣。
1 大數據的定義
從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。
大數據的特點有四個層面:
(1)數據體量巨大。從TB級別,躍升到PB級別;
(2)數據類型繁多。如網絡日志、視頻、圖片、地理位置信息等等。
(3)處理速度快,1秒定律,可從各種類型的數據中快速獲得高價值的信息,這一點也是和傳統的數據挖掘技術有著本質的不同。
(4)高價值,只要合理利用數據并對其進行正確、準確的分析,將會帶來很高的價值回報。業界將其歸納為4個“V”――Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。
大數據,其影響除了經濟方面的,它同時也能在政治、文化、衛生等方面產生深遠的影響,大數據可以幫助人們開啟循“數”管理的模式,也是我們當下“大社會”的集中體現,三分技術,七分數據,得數據者得天下。數據有了,但如何駕馭這些海量數據,將它們應用于疾病防控工作方面,挖掘數據的核心價值,這就是我們疾控人員研究的方向。
1.1 大數據技術應用的必要性
傳統疾病預防控制的方式最大的不足在于實時性上,但疾病的防控搶的就是時間。如果能在疾病流行前即預測到疾病的發展態勢,加強對疾病的預防,就能達到最大限度保障群眾健康的目的。現在,利用大數據技術對疾病傳播進行更先進的監控與控制成為了可能。
1.2 大數據技術應用實例
(1)谷歌已在疾病預測防控上已經走出先例,那么我們先來看下谷歌的谷歌流感趨勢(Google Flu Trends,GFT)的工作成果,從中窺視疾病預防控制的大數據未來。
2008年,谷歌上線“谷歌流感趨勢”項目,該項目開始預測流感傳播。
2009年在美國的H1N1爆發幾周前,谷歌成功預測了H1N1在全美的傳播范圍,具體到了州還有特定地區,判斷非常及時,令美國公共衛生機構以及全美大為震驚,疾控中心通常只能在流感爆發一兩周之后才可以做到,而谷歌的及時性讓全美側目。
這是真正第一次利用搜索引擎大數據對疾病控制的預測嘗試,谷歌因此也獲得巨大殊榮。
(2)2014年4月2日,清華大學在京宣布,該校將聯合國內醫療設備生產企業啟動基于大數據的公共衛生項目國民“健康云數據”計劃,預計3年內完成數據平臺建設,并為遠程健康管理、疾病預防等提供支撐。這也是大數據技術服務于公共衛生領域的個案,這個項目將有效提升疾病早期預防等服務的針對性。通過對大規模數據的整理分析,可以在疾病早期防控和阻斷疾病產生根源方面產生更積極的作用。
2 大數據在疾病防控的應用方向
2.1 提前確定一定規模的未知疾病,為疫情控制爭取時間
無論傳統檢測還是歷史數據統計都是無法監測到任何沒有臨床癥狀的病例的,這些經驗在醫院的臨床經驗中都為0。但大數據卻可以做到這件事,通過醫院的共享信息、疾病監測系統網絡報告數據以及各類網絡監控引擎指定地區的用戶的頻繁搜索關鍵詞,可以檢測到某個地區已經出現了諸如不明原因的肺炎,某地餐館讓多少人出現嘔吐腹瀉等異常狀況……然后再通過與疾病控制中心的病毒庫中的病毒分析,尋找吻合的病毒,進行比對分析然后將其找出,為判斷疾病贏取時間。換句話說,有了大數據后,疾病預防可以真正在第一時間內去判斷出疫情的病毒源,進而為控制爭取時間。當前的科技下,疫情的發生是誰也無法控制的,我們目前唯一能夠控制的就是及時制止其傳播的范圍,而大數據則是目前唯一的也是最佳的途徑。
2.2 判斷人員流向,控制疫情
在疫情發生后,雖然國家可以第一時間控制住當地疫情,但是人員流動則是無法控制的。現在利用網絡技術可以做到,比如A地突然爆發了傳染病,而此時根據大數據的監控就能監測到傳染源區人員的主要流向地是B地與C地,于是疾控中心就拿出對應的醫療技術和對應的治療藥品以及疫苗來防治,第一時間趕到B地與C地,將一切藥物準備就緒并為當地人接種疫苗,這樣一來就減少了盲目的廣撒網式的全面布局情況,通過網絡技術上提供的人員流動數據,讓控制疫情在效率上大幅度提升。
2.3 治療藥物和疫苗的迅速研發
在疫情發生后最重要的事情就是研發對應藥物,傳統的做法是一個小范圍的研發,然后用傳統的交流方式,但是有了大數據就不可同日而語。在病人的治療中,所有藥物的使用數據以及用戶的病情數據都將全部聯網,當機器檢測到發現某種藥物(通過讀取錄入的藥物數據)對病人的病情(通過讀取錄入病人健康的關鍵指數后的數據)有部分效果后,將會迅速納入研發的決策范圍,為研發部門提供有用參考,為研發對抗疫情的藥物以及預防疫情的疫苗,提供全網的大數據的支持。
2.4 建立疾病防控監測預警預報機制
未來通過大數據技術在疾病防控的預警預報應用方面,不僅僅只是有關部門的決策者能夠收到,而是全民都享有的福利,從而保障更多人的安全。比如當你去出差時,網絡會在你的手機上提前通知你,你將要去的地區有食品安全問題,再比如第一時間通知你,你所在的地區有流感地區的人群大量流入,讓你及時做好預防工作以及接種疫苗等等。
3 面臨的困難和挑戰
谷歌雖然在09年的預測上做出了漂亮的成績,但是在2013年的2月谷歌流感趨勢被媒體大量批評,原因就在于其數據總是偏高于真實的流感數據。
谷歌出錯的原因有很多,比如谷歌的搜索算法調整會間接影響到用戶習慣,再比如谷歌的推薦搜索以及相關性推薦也會影響用戶的搜索結果,此外搜索某個關鍵詞的用戶也不一定是患病用戶,再加上運營商的地理位置判斷等問題,使得谷歌出現算法過度擬合的情況,將噪聲當成了信號,導致其結果的不準確性。
4 對策與建議
大數據是云計算的具體化,且正在成為一個國家最重要的國家社會資源,對大數據的獲取和利用能力正成為軟硬兼備的真實力。因此,對于大數據在疾病預防控制上應用的研究可以由政府為主導,搭建基于云計算的安全、可靠、準確大數據平臺,再引入社會力量建設各類疾病預防控制專業信息服務平臺,面向公眾提供疾病預防專業、權威咨訊。
困難從從,但機會與挑戰并存,我們要加快大數據技術研究,將其應用于疾病防控,最大限度地保障人民的身體健康。
參考文獻
[1]馬家奇.公共衛生大數據應用[J].中國衛生管理信息雜志,2014(04).
[2]于石成.大數據視角下的衛生統計工作[J].醫學信息學雜志,2013(10).
[3]高漢松,基于云計算的醫療大數據挖掘平臺[J].醫學信息學雜志,2013(05).
[4]于石成.全球疾病負擔研究-大數據分析應用實例[J].醫學信息學雜志,2013(09).
作為中國最大的瓶裝水生產商,農夫山泉股份有限公司(簡稱農夫山泉)的IT應用系統中,每天都要產生大量的數據。在認識到這些數據的巨大潛在價值后,農夫山泉想要對這些海量數據進行分析,來為企業的運營和業務等提供決策支持。但由于數據量太大,農夫山泉股份有限公司在對這些數據進行分析時,遇到了一些挑戰。例如,農夫山泉每次結賬前都需要做運費對賬,運費計算涉及的層面非常廣,里面的邏輯計算十分復雜。系統通常需要24小時來運行這個運費報表,有時候甚至生成不了這張報表。這樣的速度導致農夫山泉每個月財務結算都要推遲一天。
不過,在實施了SAP HANA系統后,現在這張運費報表只需要37秒就可以生成,和之前相比,運算速度提高了2335倍。
傳統數據庫技術的瓶頸
這一堪稱奇跡的進步背后,正是內存計算技術發揮了至關重要的作用。顧名思義,內存計算技術,實質上就是CPU直接從內存而非硬盤上讀取數據,并對數據進行計算、分析。“這項技術是對傳統數據處理方式的一種加速,是實現商務智能中海量數據分析和實施數據分析的關鍵應用技術。”SAP公司全球數據庫解決方案亞太區技術總監盧東明說道。
事實上,作為數據庫領域一項創新的技術,內存計算的出現,對于數據庫市場帶來了巨大的沖擊。在盧東明看來,過去20年,數據庫技術的發展其實陷入了瓶頸之中。由于少數數據庫廠商對市場的絕對壟斷,導致它們疏于數據庫技術方面的創新。
但在處理傳統的在線交易處理(OLTP)應用時,這種創新瓶頸的問題并沒有得到完全的體現。因為,OLTP系統主要是對發生的業務進行實時記錄,處理的主要是大量簡單、小規模、同時發生的交易。因此,對于數據挖掘和分析的需求并不是很大。
但隨著大數據的出現,企業對于在線分析處理(OLAP)應用的需求越來越強烈,也就是說,企業對于海量數據的挖掘和分析越來越重視,而且,更為關鍵的是:他們需要實時的分析和挖掘。
在這種情況下,傳統數據庫技術的瓶頸被放大:由于傳統的數據庫技術是將數據存儲在硬盤上,需要進行計算和分析時,再將數據從硬盤調用到內存中。在處理海量數據時,這種方式無疑會耗費大量的時間,很難做到實時計算。
速度成為最大優勢
而內存計算技術,則是將需要分析的數據全部存儲在內存之中,并在內存中進行大量的數據分析和計算。這樣,對于海量數據的分析速度將得到大大的提升。
舉一個例子:如果過去裝修一個房子,需要到現場去測量,然后回去準備所需的材料打造成家具。HANA的理念是無需再移動數據。也就是說,可以就地取材,就在數據所在位置開始測量、開始建造。
顯然,這樣的優勢是更靈活、反應更快。因此,內存計算非常適合處理海量的數據,以及需要實時獲得結果的數據。比如可以將一個企業近十年幾乎所有的財務、營銷、市場等各方面的數據一次性地保存在內存里,并在此基礎上進行數據的分析。當企業需要做快速的賬務分析,或要對市場進行分析時,內存計算就能夠快速的按照需求完成。
通過上述的分析,不難看到內存計算技術的最大優勢:速度。這一點,對于大數據應用顯然十分關鍵。比如,在銀行業,大數據可以應用與信用卡防盜、防欺詐等方面。但如果數據的分析處理時間需要一兩天甚至一周,那么對于銀行而言,顯然已經沒有什么意義。他們需要的是系統能夠對數據進行實時的處理和分析,為銀行的相關工作人員提供實時的告警。
“內存計算技術在大數據時代將會有十分廣闊的應用空間。采用內存計算技術,企業的海量數據處理能力將會得到幾倍甚至幾十倍的提高,也就意味著企業業務響應速度的大幅提升,這種提升所帶來的價值是顯而易見的。”盧東明分析道。“因為,在很多行業,如果一直能夠比競爭對手快一點,那無疑就會在市場上取得明顯的競爭優勢。”
此外,內存計算還可以模擬一些數據分析的結果,實現對市場未來發展的預測。例如,可以幫助用戶在事情沒發生前假設各種場景,然后進行分析,以預測將要發生的事情。
SAP的HANA是內存計算技術應用的典型代表。通過采用內存計算技術,HANA在大數據領域表現搶眼。
文章開頭提到的農夫山泉,是SAP內存計算技術在中國的第一個客戶,在應用HANA之后,農夫山泉所有的銷售數據都加載在HANA中,進行分析和計算,而且,其分析和計算在幾秒鐘內就可以完成。“在它原來的平臺之上,不可能把所有的歷史數據完全加載計算。如果非要計算也可以,但分析的周期可能是以年為單位。”盧東明說。在盧東明看來,隨著大數據應用的普及,內存計算技術的應用空間將會越來越廣泛,甚至有可能改變數據庫市場的“游戲規則。”
當然,內存計算技術也并非完美。例如,在內存增大的情況下,散熱問題如何處理?此外,目前大部分病毒都是針對內存展開攻擊,如果未來內存計算技術大量普及,那么信息安全又該如何保證?
不過,隨著內存計算技術的發展,相信這些難題都將會被逐步解決。而其在海量數據處理和分析方面的優勢,將會隨著其與更多行業應用的結合,被進一步放大。
來自于用戶端的狀況也表明,內存計算將成為未來一個主流的方向。Gartner稱,在2012年,10%的大型和中型組織在一些容量的數據中采取了內存計算。到2015年,這一數字將會增長到35%。“內存計算市場將在未來兩年實現大幅增長,”Gartner副總裁兼分析師Massimo Pezzini說:“我們每一天都發現更多的人采用內存計算”。